Abstract
In recent years, the use of text inserted into TV contents has grown to provide viewers with better visual understanding. In this paper, video text is defined as superimposed text region located of the bottom of video. Video text extraction is the first step for video information retrieval and video indexing. Most of video text detection and extraction methods in the previous work are based on text color, contrast between text and background, edge, character filter, and so on. However, the video text extraction has big problems due to low resolution of video and complex background. To solve these problems, we propose a method to extract text from videos using the Harris corner detector. The proposed algorithm consists of four steps: corer map generation using the Harris corner detector, extraction of text candidates considering density of comers, text region determination using labeling, and post-processing. The proposed algorithm is language independent and can be applied to texts with various colors. Text region update between frames is also exploited to reduce the processing time. Experiments are performed on diverse videos to confirm the efficiency of the proposed method.
최근 많은 TV 영상에서 시청자의 시각적 편의와 이해를 고려하여 자막을 삽입하는 경우가 늘어나고 있다. 본 논문에서는 자막을 비디오 내 하단부에 위치하는 인위적으로 추가된 글자 영역으로 정의한다. 이러한 자막 영역의 추출은 비디오 정보 검색(video information retrieval)이나 비디오 색인(video indexing)과 같은 응용에서 글자 추출을 위한 첫 단계로 널리 쓰인다. 기존의 자막 영역 추출은 자막의 색, 자막과 배경의 자기 대비, 에지(edge), 글자 필터 등을 이용한 방법을 사용하였다. 그러나 비디오 영상내 자막이 갖는 낮은 해상도와 복잡한 배경으로 인해 자막 추출에 어려움이 있다. 이에 본 논문은 코너검출기(corner detector)를 이용한 효율적인 비디오 자막 영역 추출 방법을 제안하고자 한다. 제안하는 알고리즘은 해리스 코너 검출기를 이용한 코너 맵 생성, 코너 밀도를 이용한 자막 영역 후보군 추출, 레이블링(labeling)을 이용한 최종 자막 영역 결정, 노이즈(noise) 제거 및 영역 채우기의 네 단계로 구성된다. 제안하는 알고리즘은 색 정보를 이용하지 않기 때문에 여러 가지 색으로 표현되는 자막 영역 추출에 적용가능하며 글자 모양이 아닌 글자의 코너를 이용하기 때문에 언어의 종류에 관계없이 사용 될 수 있다. 또한 프레임간 자막 영역 업데이트를 통해 자막 영역 추출의 효율을 높였다. 다양한 영상에 대한 실험을 통해 제안하는 알고리즘이 효율적인 비디오 자막 영역 추출 방법임을 보이고자 한다.