Table Question Answering based on Pre-trained Language Model using TAPAS

TAPAS를 이용한 사전학습 언어 모델 기반의 표 질의응답

  • Cho, Sanghyun (Dept. of Computer Science Pusan National University) ;
  • Kim, Minho (Dept. of Software Catholic University of Pusan) ;
  • Kwon, Hyuk-Chul (Dept. of Computer Science Pusan National University)
  • 조상현 (부산대학교 전기전자컴퓨터공학과) ;
  • 김민호 (부산가톨릭대학교 소프트웨어학과) ;
  • 권혁철 (부산대학교 전기전자컴퓨터공학과)
  • Published : 2020.10.14

Abstract

표 질의응답은 반-정형화된 표 데이터에서 질문에 대한 답을 찾는 문제이다. 본 연구에서는 한국어 표 질의응답을 위한 표 데이터에 적합한 TAPAS를 이용한 언어모델 사전학습 방법과 표에서 정답이 있는 셀을 예측하고 선택된 셀에서 정확한 정답의 경계를 예측하기 위한 표 질의응답 모형을 제안한다. 표 사전학습을 위해서 약 10만 개의 표 데이터를 활용했으며, 텍스트 데이터에 사전학습된 BERT 모델을 이용하여 TAPAS를 사전학습한 모델이 가장 좋은 성능을 보였다. 기계독해 모델을 적용했을 때 EM 46.8%, F1 63.8%로 텍스트 텍스트에 사전학습된 모델로 파인튜닝한 것과 비교하여 EM 6.7%, F1 12.9% 향상된 것을 보였다. 표 질의응답 모델의 경우 TAPAS를 통해 생성된 임베딩을 이용하여 행과 열의 임베딩을 추출하고 TAPAS 임베딩, 행과 열의 임베딩을 결합하여 기계독해 모델을 적용했을 때 EM 63.6%, F1 76.0%의 성능을 보였다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2013-0-00131, (엑소브레인-총괄/1세부)휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발)