DOI QR코드

DOI QR Code

Performance Evaluation of Video Recommendation System with Rich Metadata

풍부한 메타데이터를 가진 동영상 추천 시스템의 성능 평가

  • 조민화 (한성대학교 컴퓨터공학부) ;
  • 김다연 (한성대학교 컴퓨터공학부) ;
  • 이화랑 (한성대학교 컴퓨터공학부) ;
  • 오하늘 (한성대학교 컴퓨터공학부) ;
  • 이선영 (한성대학교 컴퓨터공학부) ;
  • 정인환 (한성대학교 컴퓨터공학부) ;
  • 이재문 (한성대학교 컴퓨터공학부) ;
  • 황기태 (한성대학교 컴퓨터공학부)
  • Received : 2022.12.19
  • Accepted : 2023.04.07
  • Published : 2023.04.30

Abstract

This paper makes it possible to search videos based on sentence by improving the previous research which automatically generates rich metadata from videos and searches videos by key words. For search by sentence, morphemes are analyzed for each sentence, keywords are extracted, weights are assigned to each keyword, and some videos are recommended by applying a ranking algorithm developed in the previous research. In order to evaluate performance of video search in this paper, a sufficient amount of videos and sufficient number of user experiences are re required. However, in the current situation where these are insufficient, three indirect evaluation methods were used: evaluation of overall user satisfaction, comparison of recommendation scores and user satisfaction, and evaluation of user satisfaction by video categories. As a result of performance evaluation, it was shown that the rich metadata construction and video recommendation implementation in this paper give users high search satisfaction.

본 논문은 영상으로부터 풍부한 메타데이터를 자동으로 생성하고 키워드로 동영상을 검색하는 선행 연구를 개선하여 문장 단위로 동영상을 검색할 수 있게 하였다. 문장 단위의 검색을 위해, 검색 문장에 대해 형태소를 분석하여 문장에서 핵심어를 추출하고, 각 핵심어에 가중치를 부여한 다음, 선행 연구에서 작성된 랭킹 알고리즘을 적용하여 동영상들을 추천한다. 본 논문의 동영상 검색 성능을 평가하기 위해서는 충분한 양의 동영상과 충분한 수의 사용자 경험이 필요하다. 하지만 이것이 부족한 현 상황에서 검색 결과에 대한 사용자의 전반적인 만족도, 추천 점수와 사용자 만족도의 비교 평가, 동영상 카테고리별 사용자 만족도 등을 평가하는 간접적인 방법을 사용하였다. 성능 평가 결과, 본 논문에서 구현한 풍부한 메타데이터 구축 및 동영상 추천 시스템은 사용자에게 높은 검색 만족도를 주는 것을 나타났다.

Keywords

Ⅰ. 서론

인터넷을 통한 정보의 전달 속도나, 송수신 가능한 데이터의 양이 늘면서 다양한 영상 공유 플랫폼이 성장하게 되었다[1,2]. 최근에는 온라인 강의나 e-learning 교육 기관의 증가, 기업들의 온라인 이용도가 높아지면서 미디어 콘텐츠의 제작과 소비는 자연스럽게 증가하게 되었다[3].

하지만 온라인 미디어 콘텐츠의 증가는 수많은 영상 중에 사용자가 원하는 영상을 찾는데 어려움을 부가한다. 보통의 검색 엔진은 영상에 붙은 설명, 자막, 해시태그, 영상의 제목, 영상 소유자의 이름 등 단순하고 한정적인 정보에 의존하여 검색이 이루어지기 때문이다[4,5,6]. 또한, 사용자가 영상을 추천을 받았다 할지라도 자신이 원하는 정보를 찾기 위해 영상을 조금씩 재생하는 수고를 더하게 된다.

본 연구팀은 영상 검색의 정확도를 높이기 위해 선행 연구를 통해 VMeta 시스템을 개발하였다[7]. VMeta 시스템은 영상들의 풀을 만들 때, 영상을 분석하여 13가지의 메타 데이터를 자동 추출하여 저장하고, 사용자가 장르나 키워드를 이용하여 검색할 때 이 메타데이터를 통해 가장 적절한 영상을 추천한다.

한편, 일반적인 검색 시스템은 키워드 검색이 대부분 이루어진다[8,9]. 키워드 단위의 검색에서는, 사용자가 자신의 의도를 검색 시스템이 잘 이해할 수 있도록 여러 키워드를 조합하여 검색을 시도해야 하는 불편이 있다. 사용자가 키워드를 조합하지 않고 문장으로 검색하도록 하는 것은 사용자에게 큰 편리성을 제공한다[9]. 본 연구팀 역시 이전 연구에서 구현된 VMeta 시스템도 키워드를 입력받아 영상 검색을 하였는데, 이를 개선하여 문장 검색이 가능하도록 VMeta2를 개발했다.

본 논문은 VMeta2에서 문장으로 검색하는 기능을 구현한 사례와 VMeta2 시스템의 영상 추천 성능을 평가한다. 본 논문은 다음과 같이 구성된다. 2장에서 선행 연구인 VMeta 시스템에 대해 요약 기술하고, 3장에서 VMeta2의 문장 기반 검색에 대해 설명한다. 4장에서는 VMeta2 시스템의 추천 성능을 평가하고 5장에서 결론을 맺는다.

Ⅱ. VMeta 리뷰

이 절에서는 본 연구팀이 선행 연구를 통해 개발한 VMeta 시스템[7]에 대해 간략히 요약한다.

1. VMeta 시스템 구조

VMeta 시스템은 그림 1과 같이 데이터베이스를 갖춘 웹 서비스 시스템으로, 구조는 웹 서버 애플리케이션과 웹 클라이언트 애플리케이션으로 구성된다. 웹 서버 애플리케이션은 파이썬 기반의 Flask 웹 프레임워크를 사용하여 메타데이터를 생성하는 모듈과 영상 검색 모듈로 구성된다. 웹 클라이언트 애플리케이션은 클라이언트 컴퓨터의 웹 브라우저에서 작동되는 소프트웨어로 영상 내부 검색, 타임라인 생성, ZIP, PPT 다운로드 모듈들로 구성된다.

OTNBBE_2023_v23n2_29_f0001.png 이미지

그림 1. VMeta 시스템 구조

Fig. 1. VMeta System View

사용자가 웹 브라우저를 통해 영상을 VMeta 서버에 업로드하면 웹 서버 애플리케이션의 메타데이터 생성 모듈이 실행되어, 영상 속의 음성을 추출하고, 각 영상 프레임을 분석하여 메타데이터를 생성하고 데이터베이스에 저장한다. 사용자가 키워드로 영상을 검색하면 영상 검색 모듈이 메타데이터를 활용하여 가장 적절한 영상을 선택하여 영상 목록을 출력한다.

2. 메타데이터

VMeta는 영상 분석을 통해 영상의 제목, 작성자, 영상의 길이, 프레임, 타입, 크기, 업로드 시각, category, narrative type, presentation, index, keyword, script의 총 13가지의 메타데이터를 생성한다.

메타데이터 생성 과정은 그림 2와 같이 이루어진다. FFMpeg을 이용하여 영상에서 음성을 추출해 음성 스크립트(Script)를 생성하고, OpenCV를 활용하여 영상에서의 장면이 급격하게 전환되는 프레임을 탐지해 이미지로 저장한다.

OTNBBE_2023_v23n2_29_f0002.png 이미지

그림 2. 영상으로부터 메타 데이터를 만드는 과정

Fig. 2. Process to make metadata from a video

저장된 이미지들은 총 4가지의 클래스로 분류되어 영상이 표현되는 방식인 Presentation과 말하기 방식을 나타내는 Narrative Type으로 결정된다. 또한, 영상의 각 프레임에서 OCR 기법으로 텍스트를 추출해 영상 스크립트를 생성한다. 생성된 영상과 음성 스크립트는 KoNLPy의 형태소 분석 등 전처리 과정을 거치고, KR-WordRank 키워드 추출 라이브러리를 활용해 Keyword와 Index를 생성한다. 마지막으로 생성된 Keyword는 한국 십진분류법(KDC)를 사용하여 총 25 카테고리(Category)로 분류된다.

3. VideoRanking 알고리즘

VideoRanking 알고리즘은 영상의 제목, 발표자, 키워드, 카테고리의 4개 옵션을 사용자에게 검색 파라미터로 주고, 사용자가 선택한 옵션과 메타데이터와의 일치도가 높은 순서로 영상을 추천한다.

표 1은 VideoRanking 알고리즘에 사용되는 4가지 파라미터와 가중치 값을 보여준다. pi는 해당 파라미터가 영상의 내용과 일치할 확률로서 영상에 따라 달라진다. 그러므로 검색 대상이 되는 전체 영상에 대해, 영상 v의 Pvi가 계산되어야 한다. VideoRanking 알고리즘은 영상 v에 대해, 파라미터 Pvi와 가중치 Wi로 다음 식(1)과 같이 Rv를 계산하고, 영상 Rv가 클수록 비디오 v를 높은 순위로 추천한다.

표 1. VideoRanking 알고리즘의 검색 파라미터와 가중치

Table 1. Search parameters and weights in VideoRanking algorithm

OTNBBE_2023_v23n2_29_t0001.png 이미지

Rv = ∑i=0~3Pvi·Wi, for ∑i=0~3Wi = 1       (1)

VideoRanking 알고리즘은 3단계의 연산으로 이루어진다. 단계 1에서는 사용자가 검색 파라미터를 생략한 경우를 위한 처리로서, 생략된 검색 파라미터의 값을 생략되지 않은 검색 파라미터들의 가중치에 균등하게 나누어준다. 예를 들어 n 번째 검색 파라미터가 생략되었다면, 표 1에 주어진 4개의 파라미터의 가중치 초기 값을 다음 식(2)와 같이 모두 재계산한다.

Wi = Wi + Wn/3, for all Wi(i≠n)

Wn = 0       (2)

단계 2에서는 저장된 모든 영상에 대해, 영상이(영상 v) 파라미터와 일치할 확률 Pv0~Pv3를 계산한다. 단계 3은 식(1)에 따라 각 파라미터의 가중치와 확률을 곱하여 각 영상의 추천 랭킹을 계산하고 가장 높은 Rv 값을 가지는 영상을 순서대로 추천한다.

III. VMeta2

1. 문장 기반 검색

문장 기반 검색은 키워드 검색과 달리, 사용자가 검색하고자 하는 영상을 문장으로 표현하는 방법이다. 만약 사용자가 ‘오픈소스 활용 방법’을 찾기 위해 영상을 검색한다면, 키워드 기반 검색에서는 ‘오픈소스’라는 키워드만 검색하겠지만, 문장 기반 검색에서는 ‘오픈소스를 사용하는 방법?’이라는 문장으로 검색할 수 있다.

키워드 검색은 검색하려는 키워드의 포괄적인 개념을 검색하거나, 여러 키워드를 조합해 검색해야 하는 번거로움이 있다. 그러나 문장 검색은 이러한 과정이 필요없어 사용자를 편리하게 한고, 의도를 보다 명확히 전달할 수 있다. 본 연구팀은 VMeta 시스템을 개선하여 문장기반 검색이 가능한 VMeta2를 설계 구현하였다

2. 문장 기반 검색 구현

VMeta2의 문장 기반 검색은 크게 4개의 단계로 이루어진다. 먼저 문장에 대한 형태소를 분석하고, 문장에서 핵심어를 추출하고, 각 핵심어에 가중치를 부여한 다음, 기존의 VMetaRanking 알고리즘을 적용하여 영상을 추천한다. 그림 3은 VMeta2에서의 영상 추천 알고리즘 VMeta2Ranking 알고리즘의 작동 과정을 보여준다.

OTNBBE_2023_v23n2_29_f0003.png 이미지

그림 3. VMeta2Ranking 알고리즘

Fig. 3. VMeta2Ranking Algorithm

가. (단계 1) 형태소 분석으로 핵심어 추출

사용자에게서 받은 검색 문장은 KoNLPY 패키지 중 형태소를 분석하는 Okt 클래스를 이용해 명사, 형용사, 동사들의 핵심어들을 추출한다[10]. 예를 들어, 사용자가 입력한 검색 문장이 ‘오픈소스를 사용하는 방법’ 이라면 추출된 핵심어들은 ‘오픈소스, ‘사용하다’, ‘방법’이다.

나. (단계 2) 핵심어들로부터 카테고리 결정

추출된 핵심어들을 분석하여 총 25가지의 카테고리들 중에서 관련 카테고리를 찾아낸다. 그리고 카테고리를 핵심어 리스트에 추가한다. 예를 들어, (단계 1)에서 추출된 핵심어들, ‘오픈소스, ‘사용하다’, ‘방법’들로부터 검색 카테고리가 ‘IT’임을 찾아내고, ‘IT’를 핵심어 리스트에 삽입한다. 그 결과 핵심어들은 ‘오픈소스, ‘사용하다’, ‘방법’, ‘IT’의 총 4개가 된다.

다. (단계 3) 핵심어 별로 가중치 부여

먼저, 핵심어들에게 총합 1이 되도록 일정한 비율의 가중치를 부여한다. 그리고 만약 핵심어가 현재 구성된 메타데이터의 데이터베이스에 존재하지 않는다면, 해당 핵심어의 가중치를 0으로 만들고, 그 핵심어의 기존 가중치를 다른 핵심어들에게 균등하게 나누어준다.

라. (단계 4) VMetaRanking 알고리즘 적용

가중치가 부여된 핵심어들을 기존의 VMetaRanking 알고리즘에 적용해 검색된 영상과 각 핵심어들의 랭킹 결과를 얻고 추천 영상의 최종 확률 리스트를 반환받는다.

IV. 성능 평가

1. 성능 평가 개요

이 절에서는 VMeta2 시스템의 성능을 평가한다. 시스템의 성능은 영상으로부터 높은 질의 메타데이터를 만드는 성능과 사용자 질의로부터 만족도 높은 영상을 추천하는 검색 성능을 세분된다. 하지만, 메타데이터의 질에 관한 직접적인 평가가 쉽지 않고, 추천 성능은 궁극적으로 메타데이터의 질을 포함하기 때문에, 추천 성능을 평가함으로써 VMeta2 시스템의 성능을 평가한다.

VMeta2 시스템의 성능을 보다 선명하게 평가하기 위해서는 25개의 카테고리에 걸쳐 많은 영상이 저장되어 있고 오랜 시간 많은 사용자들로부터 추천 성능을 평가해야 하지만, 현재로서는 충분한 양의 영상과 충분한 수의 사용자 경험이 축적된 것은 아니다. 그럼에도 불구하고, 현재 저장된 적은 수의 영상으로 VMeta2 시스템의 성능을 평가할 수 있는 간접적인 방법으로 성능 평가를 진행하였다.

2. 사용자 만족도 평가

VMeta2 시스템에 대한 사용자의 전반적인 만족도를 평가한다. 사용자로부터 추천 받은 영상들에 대해 5점 만점으로 만족도를 평가하였으며 그 결과는 그림 4와 같다.

OTNBBE_2023_v23n2_29_f0004.png 이미지

그림 4. 사용자 만족도 조사

Fig. 4. User satisfaction survey

x축은 사용자의 만족도 점수이고, y축은 만족도 점수의 백분율이다. 만족도 5점과 4점을 합한 비율이 79%로 전반적으로 사용자들은 추천된 영상을 만족한다고 평가되었다.

3. 추천 점수와 사용자 만족도의 비교 평가

이 절에서는 VMeta2Ranking 알고리즘이 사용자의 검색 목적을 얼마나 달성하는지에 대한 정확도를 평가한다. 사용자 만족도 평가 결과가 어느 정도의 정확성을 보여주지만 알고리즘의 정확도는 직접적으로 평가할 수는 없기 때문에 간접적인 방법을 사용한다.

만일 추천 알고리즘이 정확하다면, 추천된 영상들의 추천 점수가 높을수록 알고리즘은 사용자가 찾는 영상임을 더 강력히 나타내는 것이고, 그러므로 그 영상에 대한 사용자의 만족도는 높은 경향을 보여야한다. 구체적으로 본 논문에서는 추천된 영상 중 상위 3개의 추천도 평균이 높을수록 사용자 만족도도 높은 경향성을 보이면, 추천 알고리즘의 정확도는 높다고 판단한다. 만일 추천 점수가 90% 이상인데 사용자의 만족도는 5점 만점에 2점이라고 하면, 알고리즘이 사용자의 검색 목적에 강력히 일치할 것이라고 했지만, 실제 사용자는 불만족하다고 하는 경우이다. 이런 경우 추천 알고리즘이 사용자의 의도를 충분히 반영하지 못한 부정확한 알고리즘임을 스스로 증명하는 것이다.

본 논문에서는 추천 점수와 사용자의 만족도를 비교 평가하여 알고리즘의 정확도를 평가하였다. 이를 위해, 다음 3 개의 문장을 검색 질의로 선정하고 검색을 실행하였다.

Q1: ‘운영체제에서 메모리의 역할이 무엇인가?’

Q2: ‘한성대학교 코로나 관련 뉴스 알려줘’

Q3: ‘2022년 유튜브 영화 추천 영상’

그리고 각 검색 질의에 대해 추천된 영상들 중 최고점 3개의 평균을 구하여 알고리즘의 추천 점수로 하였다. 실험 결과는 그림 5와 같다. 그림 5에서 Q1 검색에 대해 VMeta2의 영상 추천 점수 평균은 95.46%이며 사용자의 만족도는 4.8점으로서, 높은 추천 점수와 사용자의 만족도도 매우 높았다. 즉 Q1 질의에 대해 검색 알고리즘이 추천한 영상들이 사용자의 검색 목표에 일치할 확률이 매우 높다고 추천하였으며, 사용자 역시 자신의 의도와 매우 부합하다고 평가하였다. 알고리즘이 정확하다는 것을 간접적으로 보여준다.

OTNBBE_2023_v23n2_29_f0005.png 이미지

그림 5. 추천 점수와 사용자 만족도의 비교 평가

Fig. 5. Comparative survey of recommendation rank and user satisfaction

Q3의 질의에 대해서는 질의에 해당하는 영상이 별로 없고 질의와 잘 일치되는 영상이 없는 상황이다. 검색 시스템은 추천한 3개의 영상 정확성을 45.99%로 매우 낮게 평가하면서 추천하였다. 이 영상을 추천받은 사용자 역시 영상을 보고 나서 영상에 대한 만족도를 3.8점으로 낮게 주었다. 이 결과 역시 알고리즘이 정확하다는 것을 간접적으로 보여준다.

4. 영상 카테고리별 사용자 만족도의 비교 평가

동일한 카테고리의 영상이 많을수록 영상에서 추출된 메타데이터가 많아지므로 검색 대상이 되는 데이터가 많아지며, 평균적으로 영상의 추천 정확도가 높아질 것으로 예측되고, 사용자의 만족도가 높아질 것으로 예측된다.

본 실험은 사용자의 만족도 점수를 평가하고, 그림 6과 같이 사용자의 만족도 점수와 영상의 카테고리별 영상 개수 비율을 함께 표기하였다. 카테고리별 영상 개수 비율은 실험에 사용된 3개의 카테고리에 포함되어 있는 전체 영상의 개수에 대한 비율을 백분율로 표시한 값이다.

OTNBBE_2023_v23n2_29_f0006.png 이미지

그림 6. 영상 카테고리별 사용자 만족도의 비교 평가

Fig. 6. Comparative survey of user satisfaction by video category​​​​​​​

그림 6의 결과를 보면, 58.62%의 비율로 가장 많은 영상을 포함하고 있는 예술 카테고리에서 사용자가 문장으로 검색하였을 때 만족도는 평균 4.6점이고, 두 번째로 높은 비율을 보인 IT 카테고리는 4점, 마지막으로 영상의 비율이 17.24%에 불과한 동물 카테고리는 2.1점의 만족도를 보인다. 따라서 많은 영상을 가진 카테고리일수록 사용자 만족도가 높는 것으로 평가되었다. 그러므로 우리가 예측한바와 같이 카테고리에 포함된 영상의 개수가 많을수록 사용자 만족도가 높아 추천 알고리즘이 정확하다는 것을 간접적으로 보여준다.

Ⅴ. 결론

본 논문에서는 선행 연구에서 개발한 VMeta 시스템에 문장 기반 검색을 추가한 VMeta2의 구현을 소개하고 성능을 평가하였다. VMeta2에서 문장 기반 검색은 총 4단계로 이루어졌다. 검색 문장에서 형태소를 분석하여 핵심어를 추출하고, 핵심어들로부터 카테고리를 결정하여 카테고리를 핵심어에 다시 추가하고, 핵심어들에게 가중치를 부여한 다음, 마지막으로 기존의 VideoRanking 알고리즘을 적용하여 영상을 추천한다.

또한 본 논문에서는 VMeta2의 검색 성능을 직접 평가하는 것이 거의 불가능하기 때문에 간접적인 방법을 사용하였다. 사용자의 평균적인 만족도가 매우 높게 평가되었으며, 추천 영상에 대한 추천 점수가 높을수록 사용자 만족도도 함께 높아진 것으로 평가되었고, 영상이 많은 카테고리일수록 추천 점수와 사용자 만족도가 함께 높은 것으로 평가되어 VMeta2 시스템의 추천 알고리즘이 정확하다고 판단된다.

하지만, 실험에 사용된 영상의 수가 충분하지 않기 때문에 평가 결과의 신뢰성에는 한계가 있다. 추후 영상의 수를 더 확보하고 오랜 시간에 걸쳐 세밀하게 성능을 평가하는 연구를 수행하고자 한다.

References

  1. Gregory Gimpel, "The Future of Video Platforms: Key Questions Shaping the TV and Video Industry", International Journal on Media Management, Vol 17, No. 1, pp. 25-46, 2015. DOI: https://doi.org/10.1080/14241277.2015.1014039.
  2. Limor Peer, Thomas B., Ksiazek, "YOUTUBE AND THE CHALLENGE TO JOURNALISM", Journalism Studies, Vol 12, No. 1, pp. 45-63, 2011, DOI: https://doi.org/10.1080/1461670X.2010.511951.
  3. Torhonen, M., Sjoblom, M., Hassan, L. and Hamari, J., "Fame and fortune, or just fun? A study on why people create content on video platforms", Internet Research, Vol. 30, No. 1, pp. 165-190.2020, DOI: https://doi.org/10.1108/INTR-06-2018-0270.
  4. N. Dimitrova, Hong-Jiang Zhang, B. Shahraray, I. Sezan, T. Huang and A. Zakhor, "Applications of video-content analysis and retrieval", IEEE MultiMedia, Vol. 9, No. 3, pp. 42-55, 2002, DOI: https://doi.org/10.1109/MMUL.2002.1022858.
  5. Krishna Choudhari, Vinod K. Bhalla, "Video Search Engine Optimization Using Keyword and Feature Analysis", Procedia Computer Science, Vol. 58, pp. 691-697, 2015, DOI: https://doi.org/10.1016/j.procs.2015.08.089.
  6. Julien Law-To, et al., "A Scalable Video Search Engine Based on Audio Content Indexing and Topic Segmentation", CoRR. abs/1111.6265. 2011.
  7. Kitae Hwang, In hwan Jung, and Jae Moon Lee, "Construction of Metadata of Video for Effective Video Search", International Journal of Computational Vision and Robotics. Supposed to be published in 2023.
  8. Vered Silber-Varod, Nitza Geri. "Can automatic speech recognition be satisficing for audio/video search? Keyword-focused analysis of Hebrew automatic and manual transcription", Online Journal of Applied Knowledge Management, A Publication of the International Institute for Applied Knowledge Management Vol. 2, Issue 1, pp. 104-121, 2014
  9. Jing Thong, et al., "Speechbot: An experimental speech-based search engine for multimedia content on the Web", IEEE Transactions on Multimedia, Vol. 4. pp. 88-96. DOI: https://doi.org/2002.10.1109/6046.985557.
  10. https://konlpy.org/ko/latest/index.html
  11. Yeongbin Choi, Myeonggeun Ji, Sungryul Kim.(2021). Online learning platform providing video content search based on voice recognition, Proceedings of KIIT Conference,(),537-539.