Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features

이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템

  • Jungwoo Lim (Department of Computer Science and Engineering, Korea University) ;
  • Yoonna Jang (Department of Computer Science and Engineering, Korea University) ;
  • Junyoung Son (Department of Computer Science and Engineering, Korea University) ;
  • Seungyoon Lee (Department of Computer Science and Engineering, Korea University) ;
  • Kinam Park (Human-inspired AI Research) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • 임정우 (고려대학교 컴퓨터학과) ;
  • 장윤나 (고려대학교 컴퓨터학과) ;
  • 손준영 (고려대학교 컴퓨터학과) ;
  • 이승윤 (고려대학교 컴퓨터학과) ;
  • 박기남 (Human-inspired AI 연구소) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2023.10.12

Abstract

최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2023-2018-0-01405). 이 논문은 2022년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2022R1A2C1007616). 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발).