DOI QR코드

DOI QR Code

언어모델을 활용한 콘텐츠 메타 데이터 기반 유사 콘텐츠 추천 모델

Similar Contents Recommendation Model Based On Contents Meta Data Using Language Model

  • 투고 : 2022.11.15
  • 심사 : 2022.12.02
  • 발행 : 2023.03.31

초록

스마트 기기의 보급률 증가와 더불어 코로나의 영향으로 스마트 기기를 통한 미디어 콘텐츠의 소비가 크게 늘어나고 있다. 이러한 추세와 더불어 OTT 플랫폼을 통한 미디어 콘텐츠의 시청과 콘텐츠의 양이 늘어나고 있어서 해당 플랫폼에서의 콘텐츠 추천이 중요해지고 있다. 콘텐츠 기반 추천 관련 기존 연구들은 콘텐츠의 특징을 가리키는 메타 데이터를 활용하는 경우가 대부분이었고 콘텐츠 자체의 내용적인 메타 데이터를 활용하는 경우는 부족한 상황이다. 이에 따라 본 논문은 콘텐츠의 내용적인 부분을 설명하는 제목과 시놉시스를 포함한 다양한 텍스트 데이터를 바탕으로 유사한 콘텐츠를 추천하고자 하였다. 텍스트 데이터를 학습하기 위한 모델은 한국어 언어모델 중에 성능이 우수한 KLUE-RoBERTa-large를 활용하였다. 학습 데이터는 콘텐츠 제목, 시놉시스, 복합 장르, 감독, 배우, 해시 태그 정보를 포함하는 2만여건의 콘텐츠 메타 데이터를 사용하였으며 정형 데이터로 구분되어 있는 여러 텍스트 피처를 입력하기 위해 해당 피처를 가리키는 스페셜 토큰으로 텍스트 피처들을 이어붙여서 언어모델에 입력하였다. 콘텐츠들 간에 3자 비교를 하는 방식과 테스트셋 레이블링에 다중 검수를 적용하여 모델의 유사도 분류 능력을 점검하는 테스트셋의 상대성과 객관성을 도모하였다. 콘텐츠 메타 텍스트 데이터에 대한 임베딩을 파인튜닝 학습하기 위해 장르 분류와 해시태그 분류 예측 태스크로 실험하였다. 결과적으로 해시태그 분류 모델이 유사도 테스트셋 기준으로 90%이상의 정확도를 보였고 기본 언어모델 대비 9% 이상 향상되었다. 해시태그 분류 학습을 통해 언어모델의 유사 콘텐츠 분류 능력이 향상됨을 알 수 있었고 콘텐츠 기반 필터링을 위한 언어모델의 활용 가치를 보여주었다.

With the increase in the spread of smart devices and the impact of COVID-19, the consumption of media contents through smart devices has significantly increased. Along with this trend, the amount of media contents viewed through OTT platforms is increasing, that makes contents recommendations on these platforms more important. Previous contents-based recommendation researches have mostly utilized metadata that describes the characteristics of the contents, with a shortage of researches that utilize the contents' own descriptive metadata. In this paper, various text data including titles and synopses that describe the contents were used to recommend similar contents. KLUE-RoBERTa-large, a Korean language model with excellent performance, was used to train the model on the text data. A dataset of over 20,000 contents metadata including titles, synopses, composite genres, directors, actors, and hash tags information was used as training data. To enter the various text features into the language model, the features were concatenated using special tokens that indicate each feature. The test set was designed to promote the relative and objective nature of the model's similarity classification ability by using the three contents comparison method and applying multiple inspections to label the test set. Genres classification and hash tag classification prediction tasks were used to fine-tune the embeddings for the contents meta text data. As a result, the hash tag classification model showed an accuracy of over 90% based on the similarity test set, which was more than 9% better than the baseline language model. Through hash tag classification training, it was found that the language model's ability to classify similar contents was improved, which demonstrated the value of using a language model for the contents-based filtering.

키워드

참고문헌

  1. 권명하, 공성언, & 최용석. (2018). 임베딩을 활용한 순환 신경망 기반 추천 모델의 성능 향상 기법. 정보과학회논문지, 45(7), 659-666.
  2. 김지현, 하희정, 김서희, & 정영욱. (2021). OTT 서비스 콘텐츠 추천 사용자 경험 분석-넷플릭스 사례를 중심으로. Journal of Integrated Design Research, 20(2), 73-87.
  3. 김헌. (2021). OTT 서비스 콘텐츠 추천 시스템 수용 저항에 영향을 미치는 요인: 넷플릭스 이용자를 중심으로. 방송통신연구, 9-46.
  4. 신지형, 김윤화. (2021). KISDI STAT REPORT 2020년 한국미디어패널 조사결과주요 내용. 정보통신정책연구원ICT데이터사이언스연구본부, 21-01호.
  5. 이유린, 윤서빈, & 안현철. (2021). 속성 카테고리 기반 감성분석을 활용한 추천시스템. 한국지능정보시스템학회 학술대회논문집, 34-35.
  6. 박현정, & 신경식. (2020). BERT 를 활용한 속성 기반 감성분석: 속성카테고리 감성분류 모델 개발. 지능정보연구, 26(4), 1-25. https://doi.org/10.13088/JIIS.2020.26.4.001
  7. 박호연, 김경재. (2021). BERT 기반 감성분석을 이용한 추천시스템. 지능정보연구, 27(2), 1-15. https://doi.org/10.13088/JIIS.2021.27.2.001
  8. 박호연, & 김경재. (2021). BERT 기반 감성분석을 이용한 추천시스템. 지능정보연구, 27(2), 1-15. https://doi.org/10.13088/JIIS.2021.27.2.001
  9. 홍태호, 홍준우, 김은미, & 김민수. (2022). 영화리뷰의 상품 속성과 고객 속성을 통합한 지능형 추천시스템. 지능정보연구, 28(2), 1-18 https://doi.org/10.13088/JIIS.2022.28.2.001
  10. Deldjoo, Y., Schedl, M., & Elahi, M. (2019, September). Movie genome recommender: a novel recommender system based on multimedia content. In 2019 International Conference on Content-Based Multimedia Indexing (CBMI) (pp. 1-4). IEEE.
  11. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
  12. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., ... & Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
  13. Park, S., Moon, J., Kim, S., Cho, W. I., Han, J., Pack, J., Song, C., Kim, J., Song, Y., Oh, T., Lee, J., Oh, J., Lyu, S., Jeong, Y., Lee, I., Seo, S., Lee, D., Kim, H., Lee, M., Jang, S., Do, S., Kim, S., Lim, K., Lee, J., Park, K., Shin, J., Kim, S., Park, L., Oh, A., Ha, J., & Cho, K. (2021). KLUE: Korean Language Understanding Evaluation. arXiv
  14. Reddy, S. R. S., Nalluri, S., Kunisetti, S., Ashok, S., & Venkatesh, B. (2019). Content-based movie recommendation system using genre correlation. In Smart Intelligent Computing and Applications (pp. 391-397). Springer, Singapore.
  15. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  16. Wu, S., & He, Y. (2019, November). Enriching pre-trained language model with entity information for relation classification. In Proceedings of the 28th ACM international conference on information and knowledge management (pp. 2361-2364).
  17. Yin, H., Wang, W., Chen, L., Du, X., Nguyen, Q. V. H., & Huang, Z. (2018). Mobi-SAGE-RS: A sparse additive generative model-based mobile application recommender system. Knowledge-Based Systems, 157, 68-80. https://doi.org/10.1016/j.knosys.2018.05.028