Extractiong mood metadata through sound effects of video

영상의 효과음을 통한 분위기 메타데이터 추출

  • Published : 2022.05.26

Abstract

Metadata is data that explains attributes and features to the data as structured data. Among them, video metadata refers to data extracted from information constituting the video for accurate content-based search. Recently, as the number of users using video content increases, the number of OTT providers is also increasing, and the role of metadata is becoming more important for OTT providers to recommend a large amount of video content to individual users or to search appropriately. In this paper, a study was conducted on a method of automatically extracting metadata for mood attributes through sound effects of images. In order to classify the sound effect of the video and generate metadata about the attributes of the mood, I would like to propose a method of establishing a terminology dictionary for the mood and extracting information through supervised learning.

메타데이터는 데이터에 대한 속성이나 특징을 설명하는 구조화된 데이터를 말한다. 그중에서 비디오 메타데이터는 정확한 콘텐츠 기반 검색을 위해 비디오를 구성하는 정보에서 추출한 데이터를 의미한다. 최근 영상 콘텐츠를 이용하는 사용자들이 늘어나면서 자연스럽게 OTT 제공 업체들 역시 늘어나고 있으며, OTT 제공 업체에서 많은 양의 영상 콘텐츠를 개인 사용자에게 추천 또는 알맞은 검색을 위해 메타데이터의 역할이 중요해지고 있다. 본 논문에서는 영상의 효과음을 통해 분위기 속성에 대한 메타데이터를 자동으로 추출하는 방법에 관해 연구를 진행하였다. 영상의 효과음에 대한 분류와 분위기 속성에 대한 메타데이터 생성을 위해 분위기에 대한 용어사전을 구축하고 지도학습을 통해 정보를 추출하는 방법을 제안하고자 한다.

Keywords

Acknowledgement

이 논문은 2022년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업 (No.2021R1I1A3057800) 과제 지원에 의하여 연구되었음.