Tag Archives: 아마존

AWS 기반 서버 없는 아키텍쳐(Server-less back-end architecture)

인터넷 기반으로 서비스를 하는데 서버 없는 아키텍쳐가 있다고 하여 이를 올려 봅니다.

제목에 서버가 없다고 했지만, 서버가 아예 없는건 아닙니다. 정확한 표현은 최소화했다고 보는 것이 맞을 것 같습니다.

 

아래의 사례는 Amazon S3를 기반으로 하는 서비스 아키텍쳐 입니다.

AWS 기반 서버 없는 아키텍쳐(Server-less back-end architecture)

Amazon CloudFront를 통해 콘텐츠르 배포하고, Amazon API Gateway를 이용하여 필요한 기능은 AWS Lamda를 이용한 사례입니다. AWS Lamda는 하나의 함수를 코드조각으로 구성하여 실행하는 실시간 대응형 서비스입니다.

 

아래의 사례는 모바일 앱의 사례인데, 기능이 좀더 복잡하여 Amazon API Gateway로 분기하여 AWS Lamda를 호출 한 사례입니다.

AWS 기반 서버 없는 아키텍쳐(Server-less back-end architecture)

아래의 사례는 최소한의 기능만 가지고 서비스를 하는 마이크로 서비스의 사례입니다.

AWS 기반 서버 없는 아키텍쳐(Server-less back-end architecture)

뭐, 서버가 없다고 했지만, 이 모든것을 Lamda로 대체 가능하다고 주장하고 있습니다. 이를 위해서는 소프트웨어 구현 방법이 기존과는 달라져야 합니다.

넷플릭스 서비스 오토스케일링 아키텍쳐

글로벌 비디오 서비스 강자인 넷플릭스는 아마존 AWS를 운영환경으로 사용합니다.

그들이 온라인 비디오 시장에서 티격태격하면서 경쟁하고 있지만, 아이러니하게도 넷플릭스는 아마존과 끈끈한 관계를 유지하고 있습니다. 아마도 아마존은 넷플릭스덕분에 그들의 아마존 프라임 비디오 서비스를 위한 환경 구축을 북미 전역에 쉽게 얻었을 것이라는 생각을 하게 만듭니다. 

서비스 트래픽에 따라 서버 인스턴스를 늘렸다 줄였다 하는 오토스케일링(AWS Auto Scaling)을 기본으로 쓰고 있는데, 이는 다른 서비스 아키텍쳐와 다를 바가 없습니다.

다만, 트래픽이 증가한다고 무작정 오토스케일링을 하지 않고, 그들의 정책에 따라 EC2나 DynamoDB등의 키 컴포넌트를 스케일인, 스케일아웃을 한다는 것이 특징이라고 할 수 있습니다. 아래 그림에서는 Titus Control Plane이라 불리우는 넷플릭스 자체 시스템이 그러한 정책을 관리합니다.

넷플릭스 서비스 오토스케일링 아키텍쳐

또 하나 눈여겨 볼 것은 모바일/텔레비젼과의  통신은 Open API를 통해서 하지만, 자체구축하지 않고 Amazon API Gateway를 사용했습니다. 그럼으로 인해서 비용절감 및 보안(Security)을 해결하는 일타이피( ? ) 전략을 구사하고 있습니다.

참고로 위의 스핀네이커(Spinnaker)는 node.js 기반으로 동작하는 넷플릭스의 CDS(Continuous Delivery System)입니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 – 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

미국 내 Pay-TV(케이블TV/위성TV) 사업자와 관련하여 흥미로운 조사 결과가 나왔습니다. 조사한 시점은 2016년 Q2입니다.

조사에 따르면 미국 넘버원 사업자는 역시 컴캐스트(Comcast)…

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

여기에 제가 처음 보는 사업자도 몇몇 있네요.

 

흥미로운 포인트 중의 하나는 최근 12개월간(2016년 Q2기준) Pay-TV 서비스를 끊은 가구 수가 무려 18%나 된다는 것.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

이와 더불어 Pay-TV를 끊은 사람들의 51%가 지상파(Over-The-Air)를 사용한다는 결과가 나왔습니다. 나머지 49%는 TV를 아예 안본다는 의미인지 개인적으로 궁금합니다. 그렇다면 그 49%는 어떤 매체를 이용하는 것인지에 대한 데이터는 이 리포트에 나와있지 않습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

한편 Pay-TV 사업자를 바꾼 비율은 지난 12개월간 약 8.2%였는데요. 이는 우리나라와 마찬가지로 계약기간이 끝남에 따라 갈아타는 성향으로 판단됩니다. 또, 51%의 사용자는 Pay-TV 사업자를 바꿀 계획이 없는 충성고객으로 조사되었습니다.

Pay-TV에 얼마 정도 돈을 지불하느냐는 조사에 49%가 51-100 USD를 매달 지불하고 있는 것으로 조사되었습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

Pay-TV 서비스의 만족도에 대해서는 20.9%가 매우 만족, 56.3%가 만족, 22.8%가 만족하지 않음으로 답변했는데, 가장 큰 이유를 보면 요금이 비싼 편인데도 계속 올리는 것이 주요 불만이고, 다른 불만으로는 쓸데 없는 채널(Bad Channel Selection), 서비스 품질 저하(Poor Cable/Satellite Service), 고객대응미숙(Poor Customer Service) 등이 있습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

하나 더 – 2016년 Q2기준의 사람들의 TV 사용습관을 살펴 보죠. 조사에 따르면 하루에 1-3시간씩 TV를 보는 사람이 무려 43.9%라는 것. 미국 기준으로 저는 하루에 1시간도 못보는 7.4%의 사람에 해당되는군요.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

 

또 52%가 최대 2시간까지 본방사수를 합니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

또한, 47.3%의 사람들이 채널탐색(Channel Zapping)에 무려 5-20분의 시간을 매일 쓰고 있습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

마지막으로 우리나라의 경우 DVR을 사용하는 비율이 높지 않으나, 미국의 경우 스포츠 채널이나 HBO같은 유료채널을 녹화해서 보는 사람들이 많은데요. 67.7%가 매일 DVR(Digital Video Recorder)로 TV를 녹화하여 최대 2시간 정도 시간을 할여하는 것으로 나왔습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

미국에서 DVR(Digital Video Recorder)의 위력을 보이는 것이 유료채널 때문이기도 한데요. 만약 코드커팅(Cord-Cutting)이 가속화된다면 지상파TV를 녹화하여 보는 사용자도 덩달아 늘어날 것으로 생각됩니다.

TV 시청 습관을 보면 83.1%가 10개 이하의 채널을 주로 사용하는 것으로 사용되었습니다. 즉, Pay-TV 계약 시 아무리 많은 채널이 제공된다 하더라도 결국 주로 사용하는 채널은 10개 이하라는 것.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

그렇다 하더라도, Pay-TV 가입 시 제공하는 채널의 숫자는 매우 중요합니다. 32.3%의 사용자는 채널이 많은 Pay-TV를 선호한다고 답하고 있습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

다양한 채널을 보는 것을 좋아하는 부류(16.9%)에서는 원하는 프로그램을 찾기 어렵다는 의견이 지배적이었습니다. 즉, TV는 여전히 사용하기 어려운 플랫폼이라는 것.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

한편 일명 Pay-TV 이탈자(코드커터;Cord-Cutter)의 콘텐츠 이용 행태는 매우 적극적입니다. SVOD(Subcription Video On Demand;월정액형)/TVOD(사용에 따른 과금형;Transaction Video On Demand) 서비스의 사용율이 분기별로 증가하는 추세인데, 부분은 SVOD는 지속 성장하는 추세입니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

한가지… OTT를 왜 쓰느냐는 질문에 사람들이 뭐라 답할지 궁금했습니다. 그런데, 그들의 답변은 “편리해서…”가 압도적이었습니다. 다른 의견으로는 광고가 없어서, 싸서, 왕창 몰아볼 수 있어서(빈지워칭;Binge Watching) 등이었습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

마지막으로 소위 “볼만한 프로그램” 또는 “재미 있는 프로그램” 추천을 어디서 받는지 조사한 결과는 매우 흥미롭습니다. “뭐 볼꺼 없나?”하고 찾아볼 수 있는 도구는 여전히 매우 좌절스럽다는 것.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

“볼만한 프로그램”을 찾을 때 미국 사람들이 주로 찾는 소스는 다음과 같습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

조사에 따르면 아직까지도 미국 내에 사업자들은 개인화된 추천 서비스를 잘 하고 있지 않습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

 

YES에 해당하는 사업자가 제공하는 추천(Recommendation)의 정확도는 제법 만족스럽다고 평가되고 있습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

그리고 NO에 해당하는 대부분의 사용자는 볼만한 프로그램을 잘 추천해주면 좋겠다는 이야기를 합니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

 

검색(Search) 서비스를 사용해본 경험에 대해 45.9%가 사용해 본 경험이 있다고 답을 했고, 45%는 아직 경험이 없다고 답했습니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

또한 음성검색이 증가하고 있다는 통계는 미래 TV 사용환경이 보다 Smart 해질 것이라는 추측을 하게끔 합니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

음성검색을 해본 사용자 중 그 사용빈도는 다음과 같습니다. 즉, 57.2%의 사용자가 1~7번 음성검색을 한다는 것입니다.

2016 Q2 미국 Pay-TV(케이블TV/위성TV) 사용자 조사 - 43.9%가 하루평균 1-3시간씩 TV 시청하고, 고객이 원하는 것을 찰떡같이 전달하는 스마트한 서비스가 미래 TV서비스의 주류가 될 것

미래의 TV사용환경은 좀 더 스마트해 질 것입니다. 보고 싶은 프로그램을 알아서 추천해주고, 또 찾고 싶은 것을 말하면 알아서 찾아주는… 그래서 애플의 시리, 아마존의 알렉스, 마이크로소프트의 코타나같은 개인 비서 서비스가 TV에 자연스럽게 녹아 들어가, 정말 고객이 원하는 것을 주게 될 것으로 생각됩니다. 또 이것이 고객입장에서의 구매포인트로 자리 잡게 되지 않을까 싶습니다.

본 글은 “Digitalsmits’ Q2 2016 Online Video and Pay-TV Trends Report”를 참고한 것입니다. 혹시 해당 문서가 필요하신 분은 chun.kang@tivo.com으로 개별적으로 연락주세요.

Big Data Landscape 2016 – 빅데이터로 먹고 사는 업체들과 그 기술들을 분야별로 총망라하여 정리한 바이블

빅데이터(Big-Data)는 사용 성향을 분석하여 여기서 인사이트를 발굴하여 이익증가 내지는 사용성 개선을 하는데 많은 도움을 주었습니다.

실제로 이를 개발하는 사람은 이렇게 멋들어지는 일을 노가다성 업무로 하는 것이 사실입니다. 간단해 보이는 이 업무를 하기 위해 대량의 데이터를 다룰 수 있는 시스템을 구축해야 하고, 이를 분석해야 하고, 모델을 만들어야 하고, 여기서 인사이트를 도출해야 하고, 때로는 여기서 추천 내지는 대안까지도 제시해야 합니다. 심지어 요즘은 빅데이터를 통해 머신러닝(Machine Learning)까지 하죠. 이 외에도 연관 업무가 수를 셀 수 없이 많습니다.

이런 빅데이터(Big-Data)를 발판으로하여 성장한 회사가 바로 구글, 페이스북, 트위터, 넷플릭스, 아마존 같은 공룡들입니다.

2006년 하둡(Hadoop)이 소개된 이래로 빅데이터(Big-Data)는 그야말로 이 바닥의 핫한 키워드로 자리매김 했습니다. 또한, 빅데이터(Big-Data)라는 이름을 빌어 먹고 사는 업체들이 늘어나고 있고, 또한 이와 연관된 기술들도 마치 벌집처럼 복잡도가 늘어가고 있습니다.

First Mark Capital에서 일하고 있는 Matt Turck은 이 바닥의 핫한 리더들을 하나의 그림으로 그리는 귀염을 토했습니다.

Matt은 Enterprise Technology를 Hard work이라 정의했는데요, 저 또한 이 정의에 동의합니다. 복잡도가 높아지고 기술이 좋아질수록 개발 환경이 좋아져야 하는데, 왠지 소프트웨어 개발자가 해야 할 일 또한 비례해서 늘어나네요. 누군가는 이를 단순화하여 제공하는 틈새시장을 공략하는 일 또한 벌어지리라 생각하지만, 지금은 그 몫이 SI(System Integration)하는 사람들의 몫으로 보입니다. 참고로 SI는 System Integration: 즉, 한국어로 시스템 통합을 의미합니다. 다른 말로 개발을 대신 해주는 외주 용역업체들 몫이라는 의미입니다. 그런데, 아이러니 하게도 한국의 경우 소위 빅데이터 전문 업체라고 하는 국내 중소업체들이 생기기도 했지만, 거꾸로 많이 도산하기도 했습니다. 이들이 자신들의 제품을 만들었으나, 시장의 호응을 얻는데는 실패 했고, SI를 했으나 주 계약자가 개발된 소프트웨어/서비스의 가치를 느끼지 못해 계약이 지속적으로 유지 되지 못하여 기업의 생명이 지속되지 못했기 때문으로 이해 됩니다.

아래는 Matt이 만든 Big Data Landscape 2016입니다.

Big Data Landscape 2016 - 빅데이터로 먹고 사는 업체들과 그 기술들을 분야별로 총망라하여 정리한 바이블

참고: 본 이미지를 별도로 저장하시거나, 이미지만 새로운 윈도우에서 오픈하시면 자세한 내용을 보실 수 있습니다.

왠지 빅데이터(Big-Data)를 하려면 위의 업체들을 모두 알아야 할것 같지만, 사실은 이 중 일부는 용도에 따라 불필요할 수도 있는 것 같습니다. 너도나도 빅데이터 시장에서 한껀 건지려는 노력으로 이런 저런 기술들을 내놓고 있으니… 그야말로 이 분야는 풍년입니다.

2016년 이후 빅데이터(Big-Data) 업계의 현란한 전쟁은 순탄해 보이지 않습니다. 신나게 제품은 만들었지만, 써주는 사람을 찾기 어려운… 또 그 제품에 비용을 기꺼이 지불할 고객님을 찾기 어려운 현실. 누가 이 시장을 선도할지… 누가 이 기술을선도할지… 같은 업계에 종사하는 사람의 한사람으로써…. 피부로 느껴보렵니다.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

조금 전 인텔의 클라우드 컴퓨팅 기술에 대해 잠시 리뷰를 하였습니다.

대다수의 기술 업체들이 그들의 제품에 이름을 붙이 듯 인텔에서도 이름을 붙였는데, 이를 Software-Defined Infrastructure(SDI)라고 명명했네요.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

자세히 보면 VMWare나 Cetrix, 또는 Open Cloud Alliance 등이 하는 일들이 바로 이런 것 아닌가 싶은데요. 하여간 내용을 보면 기존에 노가다로 하던 인프라 관리를 소프트웨어적으로 스마트하게 할 수 있다는 것.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

하지만 이를 위해서는 단순히 소프트웨어만 있어서는 불가능하겠죠.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

현란하게 표현되어져 있지만, 결국 지가 알아서 서비스를 잘 되게 한다는 것인데요, 이로 인해 시간/비용 절약 및 효율성도 좋아진다고 주장하고 있습니다.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

사실 이것은 아마존이나 마이크로소프트, 구글이 하고 있는 비즈니스와도 일치하는 것입니다.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

아래의 API는 아마도 오픈스택의 영향을 받은것이 아닌가 싶은 생각이 잠깐 드네요.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

API가 제공되면 또 다른 App 개발을 통해 개발/운영의 효율화를 꾀할 수 있다는 장점이 있을 것입니다.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔의 강점은 서버의 핵심인 CPU를 개발한다는 것인데요. 저전력 CPU와 SSD가 만나면 이 환상궁합을 제어해 줄 소프트웨어가 필요할텐데… 이를 인텔이 제공한다면, 이 비즈니스 모델은 통할 것 같습니다.

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

인텔이 주장하는 데이터 센터 아키텍쳐의 미래는 Software-Defined Infrastructure(SDI)

제가 보기엔 이러한 아키텍쳐의 장점은 결국, 한정된 자원을 기반으로 구축된 데이터 센터에서 자원을 효율적으로 관리하게 해준다는 것이 핵심 키워드인것 같습니다. 또한 이러한 SDI가 적용되기 위한 최소한의 조건이 무엇인지 궁금하네요.

또한 이러한 비즈니스를 위해서는 파트너십이 필요할텐데요, 인텔CPU를 이용하여 서버 장비를 만드는 업체들과의 얼라이언스(Alliance)가 중요하겠다는 생각이 듭니다.

집단지성을 활용하는 Collaborative Filtering(CF) 알고리즘 – 추천 알고리즘으로 많이 이용되고 있지만, 한계도 알아야 해

오늘은 Collaborative Filtering에 대해 간단히 정리해보려고 합니다. 업무상 이와 관련된 내용을 자주 접하지만, 어딘가 정리를 해서 놓을 필요가 있다는 생각이 들어 블로그에 올려봅니다. 참고로 이는 전혀 새로운 알고리즘이나 방법이 아니며, 이미 학술적으로도… 또한 업계에서도 널리 응용되고 있는 방법입니다.

본 포스트에서는 Collaborative Filtering에 대해 그 정의와 응용(Application)에 대해 간단히 소개하고자 합니다.

 

1. Collaborative filtering이란?

Collaborative filtering (CF; 이하는 CF로 줄여서 표기)은 추천 시스템에서 사용하는 기법 중 하나입니다.

 

CF는 여러 에이젼트, 뷰포인트, 데이터 소스와의 협업(콜레보레이션; Collaboration)을 포함하는 기술을 사용하여 정보 또는 패턴을 필터링하는 프로세스입니다. 뉴스나 드라마에서 콜라보(Collaboration의 줄임말)를 했다는 말을 종종 들으셨을 것입니다. 콜라보란 협업(Collaboration)을 했다는 의미인데, 이를 바탕으로 CF를 다시 정의하면, 사전적으로는 여러 소스를 참조하여 불필요한 정보를 차단한다는 의미인데, 다르게 해석하면 관심 있어할 정보만 찾아준다는 것으로 풀이할 수 있습니다.

 

CF 알고리즘은 빅데이터(Big-Data)를 기반으로 처리되는데, 다음과 같은 분야에 널리 이용되고 있습니다.

  • 다양한 센서를 이용한 광물 탐사
  • 신용카드사의 고객 행태분석
  • 사용자 데이터를 기반으로 한 서비스(쇼핑몰, VOD) 등

 

알고리즘 측면에서 CF를 다시 정의하면 CF는 다양한 사용자의 선호도를 수집하여 사용자의 관심 분야를 자동으로 예측하도록 하는 방법입니다. CF의 가장 흔한 접근 방법은 “당신이 구입한 제품을 구입한 다른 고객은 A라는 제품에도 관심을 보이셨습니다.”라는 방식의 접근입니다. 다른 사례로는 “명량”이라는 영화를 본 사람이 있다고 하면, 이 사람에게 “명량을 보신 고객분들 중 많은 분들이 해적도 보셨습니다”라고 추천을 해주는 것을 예로 들을 수 있습니다. 이는 서비스를 운영하는 사람의 관점에 있어서는 2차 구매를 유도하여 또 다른 수익을 내는 기회를 만들어낼 수 있다는 장점이 있습니다. 이러한 처리 기법은 아마존(Amazon)이나 알리바바(Alibaba) 같은 쇼핑몰은 물론 넷플릭스(Netflix)같은 VOD 서비스 업체에도 적용이 된 바 있습니다.

 

 

2. CF 방법론(Methodology)

1) User-based CF

: 일반적으로 가장 많이 이용되는 방법으로 Nearest Neighbor Algorithm이라고도 불리우며 그 처리 프로세스는 다음과 같습니다.

  • Step 1: 같은 패턴을 가지는 사용자를 찾는다. 예) A라는 아이템에 대해 별 5개를 준 고객이 있다고 할 경우, 이와 같은 등급을 부여한 B라는 고객을 찾는다.
  • Step 2: 같은 유형의 사람들이 했던 패턴을 예측(Prediction) 정보로 제공한다.

 

아래의 사례가 본 사례와 유사한 것 같습니다.

집단지성을 활용하는 Collaborative Filtering(CF) 알고리즘 - 추천 알고리즘으로 많이 이용되고 있지만, 한계도 알아야 해

 

2) Item-based CF

: 아마존(Amazon)이 이를 처음으로 사용한 것으로 알려져 있으며,  통상 “users who bought x also bought y”라는 형태로 많이 알려져 있습니다. 이 방식에 대한 처리 프로세스는 다음과 같습니다.

  • Step 1: 아이템에 대해 서로의 관계를 알 수 있는 매트릭스를 만든다.
    집단지성을 활용하는 Collaborative Filtering(CF) 알고리즘 - 추천 알고리즘으로 많이 이용되고 있지만, 한계도 알아야 해
  • Step 2: 사용자와 일치하는 데이터를 찾아 매트릭스에 대입하여 현재 사용자의 선호도를 예측한다.
    집단지성을 활용하는 Collaborative Filtering(CF) 알고리즘 - 추천 알고리즘으로 많이 이용되고 있지만, 한계도 알아야 해

 

하나 주시해야 할 점은 별점(등급) 방식은 모든 사용자를 만족시키는 것이 아니라 평균적인 대중의 의견을 반영하는 것이므로 선호도나 관심도가 다양한 분야에 적용 시, 그 결과가 만족스럽지 않을 수 있습니다. 이런 경우 검색(Search)이나 Data Clustering같은 방법을 이용하는 편이 좋은 결과로 이어지는 경우가 많습니다.

 

 

3. CF 구현 방식

CF 구현방식에는 Memory-based CF, Model-based CF, Hybrid CF의 3가지 방식이 있습니다. CF 알고리즘을 적용하려고 계획하고 있다면, 그 용도와 Data Source의 Size에 대해 충분히 고민한 후 구현 방식을 정하는 것이 적절하다 판단됩니다.

 

1) Memory-based CF

Memory-based CF는 사용자의 선호도(Rating) 기반으로 사용자(User) 또는 아이템(Item)의 유사도를 계산하는 방법을 이용하는 것으로, 추천 솔루션 개발에 널리 이용됩니다. 쇼핑몰이나 VOD 서비스에서 제공하는 대다수의 추천 기술은 이 방식으로 서비스 되고 있습니다. 위에 기술했습니다만, Nearest Neighbor Algorithm이 널리 이용되고 있으며 아이템(Item)/사용자(User) 기반 top-N 추천 알고리즘 또한 널리 이용되고 있습니다.

이 방식의 단점은 다음과 같습니다.

  • 사람의 선호도(Rating) 의존적
  • 표본데이터 모수가 적으면 성능도 떨어짐. 이 때문에 새로운 사용자나 아이템이 추가되는데 따르는 확장성(Scalability)이 떨어짐.

    집단지성을 활용하는 Collaborative Filtering(CF) 알고리즘 - 추천 알고리즘으로 많이 이용되고 있지만, 한계도 알아야 해

 

2) Model-based CF

이는 Usage 데이터를 기반으로 Training을 하여 패턴을 발견하는 과학적인 기법입니다. 이는 보통 실제 Data에 대한 예측을 하는데 이용되는데, 일기예보 등이 이에 해당합니다. 여기에는 베이지안, 클러스터링, 시맨틱 등 수학적 모델을 기반으로 추천을 하는 다양한 알고리즘이 존재합니다.

Model-based CF는 Memory-based에 비해 적은 소스 모수를 사용하고 데이터가 크면 클수록 예측 퍼포먼스가 좋아 진다는 장점이 있으며, 반대로 모델을 만드는데 비용이 많이 소요되고, 데이터가 크면 클수록 퍼포먼스가 떨어진다는 단점이 있습니다.

집단지성을 활용하는 Collaborative Filtering(CF) 알고리즘 - 추천 알고리즘으로 많이 이용되고 있지만, 한계도 알아야 해

3) Hybrid CF

당연한 예측 결과겠지만, Memory-based CF와 Model-based CF를 혼용하면 적은 모수의 소스에 대해서도 대응이 가능하다는 장점이 있으나, 이에 따라 비용이 증가하고 구현 복잡도도 높아진다는 단점이 있습니다.

예를 들어 Google의 뉴스 추천 서비스가 이에 해당합니다.

 

 

4. CF의 문제점

1) 정확도

추천 시스템을 만드는 많은 과학자들이 “그래서 추천 정확도가 높아졌어?”라는 질문을 받습니다. CF만 가지고 개인화 추천의 선호도를 모두 맞추는 것은 불가능합니다, 다만 대중의 의견을 반영하였으므로 대개는 맞아떨어진다고 하는 것이 맞습니다.

2) 콜드스타트(Cold Start)

CF는 수집된 패턴을 근간으로 움직이므로, 새로운 사용자나 새로운 아이템이 등장했을 경우 사용 데이터 부족으로 인하여, 적절하게 추천되지 않을 가능성이 높습니다. 이런 경우라면 새로운 사용자의 경우에는 좋아하는 영화, 좋아하는 음식, 장르 등… 선호도를 미리 기초 데이터로 받아야 할 것이고, 새로운 아이템이 등장했을 경우에는 이것이 필요한 사람들에게 의도적으로 노출되게 하는 UI(User Interface)적 접근이 필요 할 것입니다.

집단지성을 활용하는 Collaborative Filtering(CF) 알고리즘 - 추천 알고리즘으로 많이 이용되고 있지만, 한계도 알아야 해

 

 

5. CF 알고리즘 적용 시 고려 사항

CF를 구현함에 있어, CF의 성능에 방해가 되는 여러 요인들이 있습니다. 하여 CF 구현 시 아래의 항목에 대한 대응 전략이 있는지… 미리 검토/고민 할 필요가 있습니다.

1) 소스 데이터의 분량(Data Sparsity)

2) 확장성(Scalability)

3) 유사품(Synonyms)에 대한 처리 정책

4) 검색봇(bot) 등 추천에 방해되는 인자(Grey sheep)에 대한 예외 처리 정책

5) 일부러 남의 경쟁자의 아이템에 대해 부정적인 Voting을 하고, 자기 아이템에 대해 긍정적인 Voting을 하는 Shilling attacks에 대한 대응 방안

6) 오래된 아이템(Long Tail)에 대한 Rating이 높아 새로운 아이템이 추천되지 못할 가능성에 대한 대응 방안: 신규 아이템은 별도 노출을 해주는 UI 구성 등.

 

이상 CF(Collaborative Filtering)에 대해 알아보았습니다.

 

 

빨간 눈을 가진 `분홍돌고래` 美서 발견 …`알비노 현상`추정

빨간 눈을 가진 `분홍돌고래` 美서 발견 …`알비노 현상`추정

온 몸이 분홍색인 돌고래가 미국 루이지애나주에서 발견됐다고 미국 폭스 뉴스가 3일 보도했다.  

이 분홍돌고래는 지난달 24일 루이지애나주 남서부의 멕시코만 북쪽  칼카슈 호수에서 낚시 보트 선장인 에릭 루에 의해 촬영됐다.

루 선장은 이날 낚시꾼들을 태우고 항해 중 자신의 보트 주위에 몇 마리의 돌고래들이 몰려들었다고 밝혔다.

이는 평범한 색깔의 돌고래들 틈에 분홍색이 선명한 빨간 눈을 가진 ‘핑크 돌고래’가 있어 깜짝 놀랐다고 설명했다.

이번에 미국 루이지애나에서 발견된 핑크 돌고래는 남미 아마존강에 서식하는 희귀 민물 돌고래인 ‘분홍 돌고래’와는 전혀 다른 ‘병코돌고래’ 종류로, 알비노 현상(albino·피부나 모발,눈 등에 색소가 생기지 않는 일종의 백화현상) 때문에 이 같은 모습을가지게 되었을 것이라 언론은 추측했다.

폭스뉴스에 따르면 “아직 다 자라지 않은 작은 몸집의 분홍색 돌고래는가족, 동료들과 함께 약 한 시간 동안 보트 주위를 맴돈 후 사라졌다”고 설명한 에릭 루 선장은 “모두 다섯마리의 돌고래를발견했으며, 이중 4마리는 보통 볼 수 있는 회색 돌고래였지만 나머지 한마리는 빨간 눈에 빛나는 분홍색 피부를 가진 ‘분홍돌고래’였다”고 전했다.