home HOME > Issue > 테크 리포트

유튜브·넷플릭스
추천영상의
알고리즘 원리는?

글 채반석(KBS디지털뉴스부 크랩PD)

코로나19로 집콕족이 늘어나면서 자연스럽게 유튜브나 넷플릭스 같은 OTT 서비스 이용자가 폭발적으로 늘어나고 있다. 이런 서비스는 한 번 보기 시작하면 한참 동안 빠져나올 수가 없다는 특징을 가지고 있다. 그 때문인지 ‘개미지옥’이라는 웃지 못할 별명도 붙어있는데, 이 ‘개미지옥’을 만드는 데는 서비스의 추천 시스템이 큰 역할을 한다. 대체 나도 잘 모르는 나의 취향을 어쩜 이렇게 잘 아는 걸까?

추천 알고리즘의
필요성과 영향력

컴퓨터의 보급 시점부터 되돌아보고자 한다. 컴퓨터가 일반 가정에 보급되기 시작한 것도 불과 2~30년 전의 이야기이다. 이때까지만 해도 PC는 보통 가족 전부가 사용하는 가전의 개념에 가까웠다. 거실에 두고 모두가 사용했고, 이 사람 저 사람이 쓰기 때문에 컴퓨터의 인터넷 사용 기록만으론 한 사람이 뭘 좋아하는지 알 수 없었다.
이후 개인 기기라고 부를 수 있는 핸드폰이 보급됐지만, 단순히 통신기능을 탑재한 ‘전화기’ 였을 뿐, 지금과 같은 휴대용 컴퓨터 수준의 스마트폰과는 거리가 멀었다. 전화기에 불과했던 핸드폰 역시 발전을 거듭하게 되는데, 그 신호탄 격 제품이 바로 최초의 ‘아이폰’이다. 이후에 스마트폰이 사람들의 일상을 장악한 일종의 플랫폼이 되면서, 상당히 많은 행위가 스마트폰 상에서 이뤄지게 됐다. 그 사람이 어떤 콘텐츠를 좋아하는지, 무엇을 좋아해서 어디에 돈을 쓰는지, 주로 어떤 것들을 클릭하고 무엇을 검색하는지 등등 한 사람의 스마트폰 기록만 잘 털어도 이 사람의 취향을 예측하는 시대가 된 것이다.
특히나 5~6인치가량의 작은 화면에서 거의 모든 것이 이뤄지는 스마트폰 생태계에서는 영역을 가리지 않는 경쟁이 벌어진다. 예컨대 십수 년 전만 하더라도 게임과 영화는 아예 다른 생태계를 구축하며 존재하는 영역이었지만, 지금은 하나의 스마트폰에서, 사용자의 시간을 잡아먹는다는 점에서 또 하나의 영역 경쟁자가 되고 있다. 게임을 많이 할수록, 넷플릭스에서 영화를 덜 보게 되어 간다는 이야기다.
사용자의 시간을 잡아먹어야 한다는 점에서 서비스 제공자들은 사용자들이 좋아할 만한 것을 끊임없이 제공해야 한다는 미션을 받게 된다. 화면이 작다 보니 보여줄 수 있는 정보가 제한적이고, 그래서 더더욱 사용자들이 좋아할 만한 무엇을 제공해야 하게 된 것. 끊임없이 눈길을 끄는 아이템을 제공하고, 사용자를 우리 서비스에 붙잡아 두어야 돈을 벌 수 있기 때문이다. 거의 모든 서비스에서 사용되고 있는 추천 알고리즘은 이런 이유로 작동하고 있다.

추천 알고리즘의
동작 방식

구체적으로 추천 알고리즘이 작동하는 방식을 공개하는 회사는 없다. 알고리즘은 일종의 영업비밀에 해당하기 때문이다. 다만 보편적인 원리로 많이 쓰이는 방식은 알려져 있다. 바로 ‘콘텐츠 기반 필터링(Content-based Filtering)’과 ‘협업 필터링(Collaborative Filtering)’이다.
먼저 콘텐츠 기반 필터링은 사용자가 이미 소비한 콘텐츠의 특징 자체를 분석하고, 비슷한 특징을 가진 콘텐츠를 분석하는 식이다. 예를 들어 한 사람이 영화 <아이언맨>을 재밌게 본다고 했을 때 비슷하게 ‘마블’이 제작했고 ‘히어로물’인 <닥터 스트레인지>나 <캡틴 아메리카> 같은 걸 추천할 수 있는 것. 혹은 ‘로버트 다우니 주니어’가 출연한 ‘히어로물’인 <셜록 홈스>를 추천할 수도 있다.
협업 필터링의 방식은 조금 다르다. 협업 필터링은 콘텐츠 자체보다는, 콘텐츠를 소비한 사람에 주목한다. 예를 들어 제가 유튜브에서 게임 방송과 IT 기기 리뷰를 즐겨본다고 가정해보자. 사실 이런 사람은 매우 많다. 따라서 이 경우, 게임 방송만 즐겨 보고 IT 기기 리뷰는 안 봤던 사람에게 IT 기기 리뷰 콘텐츠를 보여주는 거다. 게임방송과 IT 기기 리뷰 콘텐츠 자체의 유사도를 따져봤을 때 딱히 높지 않더라도 말이다. 이런 방식은 실제 사용자의 데이터에 근거하기 때문에 콘텐츠 기반 추천 방식보다 조금 더 정확성이 높다고 한다. 이런 기본 원리를 바탕으로 각 서비스는 서비스의 특징에 따라, 혹은 서비스가 지향하는 바에 따라 디테일한 부분들을 조정하면서 알고리즘을 끊임없이 유지보수 하고 있다. 서두에서 이야기했듯, 알고리즘은 일종의 영업 비밀이기 때문에 공개적으로 알려져 있진 않지만, 곁가지로 알아볼 방법들이 없진 않기 때문에 거대한 플랫폼의 경우 외부의 분석으로 합리적으로 유추할 수 있는 정보가 나오기도 한다. 예컨대 가장 막대한 플랫폼이 된 유튜브의 경우, 여러 업체나 연구자들의 분석에 따르면 영상 시청 지속 시간을 가장 중요하게 여기는 것으로 알려져 있다. 단순히 많은 조회 수를 내기보다는, 더 많은 사람이 유튜브에서 시간을 쓰도록 하는 게 주요한 목적이라는 것.
이런 추천은 사용자 맞춤형으로 영상을 제공해 보는 사람도, 사용자를 끌어 모으는 플랫폼도 좋아하지만, 여기에 대한 지적도 상당하다. 콘텐츠 추천이 마치 편식처럼 작용하기도 하기 때문이다. 소위 요즘은 일상적으로 사용되는 ‘가짜뉴스’ 문제 역시 유튜브를 비롯한 이런 콘텐츠 플랫폼에서 자꾸 사람들의 입맛에 맞는 영상을 추천해 주는 데에서 기인한다. 사람들은 얼마든지 실제 사실을 왜곡하고, 과장하는 콘텐츠를 좋아할 수 있기 때문이다. 유튜브에서 추천 시스템을 담당했던 한 엔지니어는 <가디언>지에서 체류 시간을 중요하게 생각하는 유튜브 알고리즘이 가짜뉴스를 만드는 부작용을 야기했다고 이야기하기도 했다.
이런 문제를 해결하기 위해서 사용자들의 리터러시는 물론, 플랫폼 사업자들의 책임 있는 조치가 필요하다는 목소리 역시 중요하게 여겨지고 있다. 꼭 먹는 게 아니더라도 편식은 어디에서나 좋지 않은 법이니까.