초록

구독 서비스를 기반으로 하는 OTT 서비스에 있어 핵심은 '재구독'이라고 할 수 있다. 유명 OTT 서비스의 이용자의 약 75%가 추천 시스템에 기반한 시청자 행동(viewer activities)을 이어가고 있다는 연구 결과로 미루어 볼 때, OTT 서비스 플랫폼에게 있어 높은 재구독률을 위한 '개인 맞춤형 추천 서비스'는 매우 중요하며 지속적으로 발전시켜 나가야 할 요소라고 할 수 있다.

꾸준히 높은 만족도를 주는 추천 서비스를 제공하기 위해서는 여러 요인으로 인해 계속해서 바뀌는 이용자의 관심사를 선제적으로 파악해야 한다. 기존의 연구들은 이용자나 콘텐츠의 유사도에 관심이 있고, 모델을 생성한 특정 시점에 한정되어 있기 때문에 이용자의 관심사 변화를 적절히 파악하는 데에 한계가 있다.

따라서 본 연구에서는 기본적으로 데이터를 월별로 그룹화하고, 이용자의 월별 통계치 데이터를 다양하게 활용하여 총 7 가지의 파생 변수를 개발한다. 또한 이 변수들로 모델을 학습시켜 다음 달의 관심사를 미리 예측한다. 파생 변수의 종류로는 장르별 시청 횟수, 장르별 평점 평균, 장르별 연속으로 시청한 횟수 등이 있다. 모델은 머신 러닝의 대표적인 알고리즘인 Random Forest, XGBoost, Light GBM(LGBM) 세 가지를 이용하였고 이 모델의 결과를 기존 아이템 기반 협업 필터링, Matrix Factorization 을 이용한 아이템 유사도 기반 모델과 비교하였다.

제안하는 세 가지 모델에서는 이용자별 다음 달 각각의 장르에 대해 선호할 확률이 도출되는데, 이것이 높은 상위 3 개를 최종 추천 장르로 보았다. 기존 두 가지 모델에서는 이용자가 이전 달에 가장 높은 평점을 준 장르와 유사도가 높은 상위 3 개 장르를 최종 추천 장르로 보았다.

평가 방법으로는 적중률과 다양성을 보았다. 적중률은 다음 달 실제 선호한 장르와 추천된 장르의 교집합이 많을수록 높은 것으로 보았고, 다양성은 이번 달 시청한 장르와 추천된 장르의 교집합이 적을수록 높은 것으로 보았다.

제안하는 모델은 세 가지 모두 기존 모델보다 적중률은 낮았고 다양성은 높은 것으로 나타났다. 이는 기존에 비슷한 장르를 시청하고 비슷한 평점을 남긴 이용자들도 다음 달에는 또 서로 다른 장르를 선호할 수 있음을 시사한다. 추후 더욱 다양한 데이터를 활용하여 모델의 성능을 높이고, 그룹화 기간을 다양하게 시도해 보며 비슷한 사용자에 대한 추천 결과를 다양하게 살펴보아야 하는 과제가 남아있다.