DOI QR코드

DOI QR Code

Metadata extraction using AI and advanced metadata research for web services

AI를 활용한 메타데이터 추출 및 웹서비스용 메타데이터 고도화 연구

  • 박성환 (한국교육방송공사(광운대학교 대학원))
  • Received : 2024.01.02
  • Accepted : 2024.01.31
  • Published : 2024.03.31

Abstract

Broadcasting programs are provided to various media such as Internet replay, OTT, and IPTV services as well as self-broadcasting. In this case, it is very important to provide keywords for search that represent the characteristics of the content well. Broadcasters mainly use the method of manually entering key keywords in the production process and the archive process. This method is insufficient in terms of quantity to secure core metadata, and also reveals limitations in recommending and using content in other media services. This study supports securing a large number of metadata by utilizing closed caption data pre-archived through the DTV closed captioning server developed in EBS. First, core metadata was automatically extracted by applying Google's natural language AI technology. The next step is to propose a method of finding core metadata by reflecting priorities and content characteristics as core research contents. As a technology to obtain differentiated metadata weights, the importance was classified by applying the TF-IDF calculation method. Successful weight data were obtained as a result of the experiment. The string metadata obtained by this study, when combined with future string similarity measurement studies, becomes the basis for securing sophisticated content recommendation metadata from content services provided to other media.

방송 프로그램은 자체 방송 송출 외에도 인터넷 다시 보기, OTT, IPTV 서비스 등 다양한 매체에 제공되고 있다. 이 경우 콘텐츠 특성을 잘 나타내는 검색용 키워드 제공은 필수적이다. 방송사에서는 제작 단계, 아카이브 단계 등에서 주요 키워드를 수동으로 입력하는 방법을 주로 사용한다. 이 방식은 양적으로는 핵심 메타데이터 확보에 부족하고, 내용 면에서도 타 매체 서비스에서 콘텐츠 추천과 검색에 한계를 드러낸다. 본 연구는 EBS에서 개발한 DTV 자막방송 서버를 통해 사전 아카이빙 된 폐쇄형 자막 데이터를 활용하여 다수의 메타데이터를 확보하는 방법을 구현했다. 먼저 구글의 자연어 처리 AI 기술을 적용하여 핵심 메타데이터를 자동으로 추출하였다. 다음 단계는 핵심 연구 내용으로 우선순위와 콘텐츠 특성을 반영하여 핵심 메타데이터를 찾는 방법을 제안한다. 차별화된 메타데이터 가중치를 구하는 기술로는 TF-IDF 계산법을 응용하여 중요도를 분류했다. 실험 결과 성공적인 가중치 데이터를 얻었다. 이 연구로 확보한 문자열 메타데이터는 추후 문자열 유사도 측정 연구와 결합하면 타 매체에 제공하는 콘텐츠 서비스에서 정교한 콘텐츠 추천용 메타데이터를 확보하는 기반이 된다.

Keywords

References

  1. J.H. Kim, "User Experience Analysis of OTT Service Content Recommendation -Focused on Netflix Case", Journal of Integrated Design Research, Vol. 20, No. 2, pp. 77, 2021.
  2. TTA Standard, "Data Search system Using Metada-Based Ranking Algorithm", TTAK.KO-07.0093/R4, 2023.
  3. C.G. Hwang, "Sentence Similarity Analysis using Ontology Based on Cosine Similarity", KIICE, Vol 25, No. 1, pp. 441, 2021.
  4. W.Y. Choi, "Assistive Broadcasting Services for the Vision and Hearing Impaired", JBE, Vol. 27, No. 4, pp. 588, 2022.
  5. M.H. Kim, "Implement closed captioning systems for the deaf", Journal of Korea Game of Society, Vol. 16, No. 1. pp. 105, 2016.
  6. J.Y. Kim, "A Study on Multimedia Application Service using DTV Closed Caption Data", JBE, Vol. 14, No. 4, pp. 489, 2009.
  7. J.H. Song, "Development of the Closed-caption Broadcasting System", EBS Technology Research Institute, Vol. 8, pp. 95-133, 2007.
  8. Natural Language API, https://cloud.google.com/natural-language/?hl=ko
  9. S.H. Park, "A proposal for a UHD/S3D-intgra ted media asset management architecture based on the analysis of the practical archiving system", The Graduate School of Kwangwon University, A Ph.D degree Thesis, pp. 3, 2016.
  10. E.S. You, G.H. Choi, S.H. Kim. "Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels" Journal of the Korea Society of Computer and Information, Vol. 20, pp.121-129, 2015.
  11. QAISER Shahzad, ALI Ramsha. "Text mining: use of TF-IDF to examine the relevance of words to documents." International Journal of Computer Applications, Vol. 181, pp.25-29, 2018. https://doi.org/10.5120/ijca2018917395
  12. J.H. Kim, "Realized AI and Synergy of broadcast content", KCA, Media Issue & Trend Vol. 52, pp. 66, 2022.
  13. Y.H Oh, "MXF-based Broadcast Metadata Authoring and Browsing", JBE, Vol. 1, No. 3, pp. 278, 2006.