DOI QR코드

DOI QR Code

대화 참여자 결정을 통한 Character-net의 개선

Improvement of Character-net via Detection of Conversation Participant

  • 김원택 (인하대학교 정보공학과) ;
  • 박승보 (인하대학교 정보공학과) ;
  • 조근식 (인하대학교 컴퓨터정보공학부)
  • 발행 : 2009.10.31

초록

동영상 검색이나 축약과 같은 동영상 분석을 위해 동영상 어노테이션 기술이나 동영상 정보 표현에 대한 다양한 연구가 있어왔다. 이를 위해 본 논문은 대화 참여자 결점을 위한 영상적 요소와 이러한 요소를 이용하여 Character-net 표현을 개선하는 방법을 제안한다. 기존 Character-net이 자막이 뜨는 시간에 나타나는 등장인물들만을 대화참여자로 고려하므로 일부의 청자를 제외시키는 문제점이 있다. 대화 참여자는 대화상황 파악의 극히 중요한 요소로 동영상 검색 시에 기준이 될 수 있으며 동영상의 이야기 전개를 이끌어 나간다. 대화 참여자를 결정하기 위한 영상적 요소에는 자막의 유무, 장면, 인물 등장순서, 시선방향, 패턴, 입의 움직임 등이 있다. 본 논문에서는 이러한 영상적 요소에 근거하여 대화 참여자를 판단하고 동영상 표현방법인 Character-net을 개선하고자 한다. 제안한 여러 요소들이 결합되고 일정한 조건이 만족되었을 때 대화참여자를 정확히 검출할 수 있다. 따라서 본 논문에서는 대화참여자를 결정하기 위한 영상적 요소들을 제안하고 이를 통해 Character-net의 표현성능을 개선하고 실험을 통하여 제안된 방법론이 대화 참여자 판단의 정확성과 Character-net의 표현성능을 제고함을 증명하였다.

Recently, a number of researches related to video annotation and representation have been proposed to analyze video for searching and abstraction. In this paper, we have presented a method to provide the picture elements of conversational participants in video and the enhanced representation of the characters using those elements, collectively called Character-net. Because conversational participants are decided as characters detected in a script holding time, the previous Character-net suffers serious limitation that some listeners could not be detected as the participants. The participants who complete the story in video are very important factor to understand the context of the conversation. The picture elements for detecting the conversational participants consist of six elements as follows: subtitle, scene, the order of appearance, characters' eyes, patterns, and lip motion. In this paper, we present how to use those elements for detecting conversational participants and how to improve the representation of the Character-net. We can detect the conversational participants accurately when the proposed elements combine together and satisfy the special conditions. The experimental evaluation shows that the proposed method brings significant advantages in terms of both improving the detection of the conversational participants and enhancing the representation of Character-net.

키워드

참고문헌

  1. Y. Rui, T.S. Huang, S. Mehrotra, "Constructing Table-of-Content for Videos," to appear in ACM Multimedia Systems Journal. Special Issue Multimedia Systems on Video Libraries, Sep. 1999. https://doi.org/10.1007/s005300050138
  2. S. Park, Y. Kim, M. N. Uddin, G. Jo, "Character-Net: Character Network Analysis from Video," 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence, pp. 305-308, Sep. 2009.
  3. V. Roth, "Content-based retrieval from digital video," Image and Vision Computing, Vol. 17, no. 7, pp. 531-540, 1999. https://doi.org/10.1016/S0262-8856(98)00144-9
  4. 박승보, 김유원, 조근식, "얼굴인식을 이용한 동영상 상황 정보 어노테이션." 한국 지능정보시스템학회, 2008 한국지능정보시스템학회 추계학술대회 논문집, 319-324쪽, 2008년 11월.
  5. 이진활. 박승보, 김유원, 조근식, "비디오 배역명 추출을 이용한 자동 어노테이션." 한국정보과학회, 한국정보과학회 2009 한국컴퓨터종합학술대회 논문집, 제36권, 제1호(C), 525-530쪽. 2009년 6월.
  6. 스티븐 D. 캐츠 "영화연출론." 시공사, 185-240쪽, 1998년.
  7. M. Everingham, J. Sivic, A. Zisserman, "Taking the bite out of automated naming of characters in TV video," Image and Vision Computing, In Press, Corrected Proof, Available online, 4 May 2008.
  8. 이경호, 양룡, 이상범, "색상 정보를 이용한 자동 독화 특징 추출." 한국컴퓨터정보학회, 한국컴퓨터정보학회 논문지, 제13권, 제6호, 107-115쪽, 2008년 11월.
  9. 김명훈, 이지근, 소인미 정성태, "얼굴과 음성 정보를 이 용한 바이모달 사용자 인식 시스템 설계 및 구현." 한국퓨터정보학회, 한국컴퓨터정보학회 논문지, 제10권, 제5호, 353-362쪽, 2005년 11월.
  10. 김원택, 박승보, 조근식, "대화 참여자를 결정하는 영상적 요소." 한국컴퓨터정보학회, 2009년도 한국컴퓨터정보학회 하계학술대회 논문집, 제17권, 1호, 81-84쪽, 2009년 6월.