Question Generation of Machine Reading Comprehension for Data Augmentation and Domain Adaptation

추가 데이터 및 도메인 적응을 위한 기계독해 질의 생성

  • Lee, Hyeon-gu (Kangwon National University Computer and Communication Engineering) ;
  • Jang, Youngjin (Kangwon National University Computer and Communication Engineering) ;
  • Kim, Jintae (NLP Center Language AI Lab, NCSOFT) ;
  • Wang, JiHyun (NLP Center Language AI Lab, NCSOFT) ;
  • Shin, Donghoon (NLP Center Language AI Lab, NCSOFT) ;
  • Kim, Harksoo (Kangwon National University Computer and Communication Engineering)
  • 이현구 (강원대학교 컴퓨터정보통신공학과) ;
  • 장영진 (강원대학교 컴퓨터정보통신공학과) ;
  • 김진태 (NLP Center Language AI Lab, 엔씨소프트) ;
  • 왕지현 (NLP Center Language AI Lab, 엔씨소프트) ;
  • 신동훈 (NLP Center Language AI Lab, 엔씨소프트) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학과)
  • Published : 2019.10.10

Abstract

기계독해 모델에 새로운 도메인을 적용하기 위해서는 도메인에 맞는 데이터가 필요하다. 그러나 추가 데이터 구축은 많은 비용이 발생한다. 사람이 직접 구축한 데이터 없이 적용하기 위해서는 자동 추가 데이터 확보, 도메인 적응의 문제를 해결해야한다. 추가 데이터 확보의 경우 번역, 질의 생성의 방법으로 연구가 진행되었다. 그러나 도메인 적응을 위해서는 새로운 정답 유형에 대한 질의가 필요하며 이를 위해서는 정답 후보 추출, 추출된 정답 후보로 질의를 생성해야한다. 본 논문에서는 이러한 문제를 해결하기 위해 듀얼 포인터 네트워크 기반 정답 후보 추출 모델로 정답 후보를 추출하고, 포인터 제너레이터 기반 질의 생성 모델로 새로운 데이터를 생성하는 방법을 제안한다. 실험 결과 추가 데이터 확보의 경우 KorQuAD, 경제, 금융 도메인의 데이터에서 모두 성능 향상을 보였으며, 도메인 적응 실험에서도 새로운 도메인의 문맥만을 이용해 데이터를 생성했을 때 기존 도메인과 다른 도메인에서 모두 기계독해 성능 향상을 보였다.

Keywords

Acknowledgement

본 연구는 엔씨소프트 산학연구용역 과제의 지원을 받아 수행되었음