초록
장면 경계 검출은 비디오 데이타에서 의미적인 구조를 이해하는데 있어서 매우 중요한 역할을 한다. 하지만, 장면 경계 검출은 의미적인 일관성을 갖는 장면을 추출하여야 하므로 셧 경계 검출에 비해 매우 까다로운 작업이다. 본 논문에서는 비디오 데이타에 존재하는 의미적인 정보를 사용하기 위해 비디오 셧의 지역 및 전역 컨텍스트 정보를 추출하여 이를 바탕으로 장면 경계를 검출하는 방식을 제안한다. 비디오 셧의 지역 컨텍스트 정보는 셧 자체에 존재하는 컨텍스트 정보로서 전경 객체(foreground object), 배경(background) 및 움직임 정보들로 정의한다. 전역 컨텍스트 정보는 주어진 비디오 셧이 주위에 존재하는 다른 비디오 셧들과의 관계로부터 발생하는 다양한 컨텍스트로서 셧들간의 유사성, 상호 작용 및 셧들의 지속 시간 패턴으로 정의한다. 이런 컨텍스트 정보를 바탕으로 연결 작업, 연결 검증 작업 및 조정 작업등의 3단계 과정을 거쳐 장면을 검출한다. 제안된 방식을 TV 드라마 및 영화에 적용하여 80% 이상의 검출 정확도를 얻었다.
Scene boundary detection is important in the understanding of semantic structure from video data. However, it is more difficult than shot change detection because scene boundary detection needs to understand semantics in video data well. In this paper, we propose a new approach to scene segmentation using contextual information in video data. The contextual information is divided into two categories: local and global contextual information. The local contextual information refers to the foreground regions' information, background and shot activity. The global contextual information refers to the video shot's environment or its relationship with other video shots. Coherence, interaction and the tempo of video shots are computed as global contextual information. Using the proposed contextual information, we detect scene boundaries. Our proposed approach consists of three consecutive steps: linking, verification, and adjusting. We experimented the proposed approach using TV dramas and movies. The detection accuracy of correct scene boundaries is over than 80%.