Multi-Session Open Domain Knowledge-based dialog collection Tool

멀티-세션 오픈 도메인 지식기반 대화 수집 툴

  • Tae-Yong Kim (Korea Electronics Technology Institute Artificial Intelligence research Center) ;
  • San Kim (Korea Electronics Technology Institute Artificial Intelligence research Center) ;
  • Saim Shin (Korea Electronics Technology Institute Artificial Intelligence research Center)
  • 김태용 (한국전자기술연구원 인공지능연구센터) ;
  • 김산 (한국전자기술연구원 인공지능연구센터) ;
  • 신사임 (한국전자기술연구원 인공지능연구센터)
  • Published : 2022.10.18

Abstract

최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

Keywords

Acknowledgement

이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No. 2022-0-00320, 상황인지 및 사용자 이해를 통한 인공지능 기반 1:1 복합대화 기술 개발)