Removing object hallucination through a reviewing mechanism

객체 탐지 및 빔 서치를 이용한 영상 주석 환각 해결

  • Ko, Jieun (Korea Advanced Institute of Science and Technology) ;
  • Jung, Seungjun (Korea Advanced Institute of Science and Technology) ;
  • Kim, Changick (Korea Advanced Institute of Science and Technology)
  • Published : 2019.06.19

Abstract

영상 주석 생성 기술은 주어진 영상에 대하여 최대한 자세히 묘사하는 문장을 생성하는 것을 목표로 한다. 따라서, 이 분야에서는 생성된 주석과 입력 영상 간의 연관성이 가장 중요하다. 영상 주석 생성과 관련된 최근 연구들은 영상 내에서 집중해야 될 후보 영역들을 먼저 추출한 뒤, 이들을 LSTM 디코더 등에 입력하여 주석을 생성한다. 비록, 최근에 제안된 방법들이 입력 영상과 매우 연관성 높은 주석들을 생성하지만, 아직 영상 안에 존재하지 않는 물체가 종종 생성된 주석에 포함되는 환각(Hallucination) 문제가 발생하고 있다. 본 논문에서는 이를 해결하기 위하여 Beam search를 이용하여 기존 방법들보다 더 정확한 여러 주석 후보 군을 생성한 뒤, 각각의 주석을 객체 검출기에서 나온 객체 후보군과 비교하는 방법을 제안한다. 우리는 제안한 방법을 최근에 제안된 주석 생성 기술에 접목한 결과, 환각 문제가 효과적으로 제거되는 것을 확인할 수 있었다. 또한, MS COCO 온라인 서버 제출을 통하여 주석 생성기술의 성능이 향상되는 것을 확인하였다.

Keywords