KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension

Kim, Youngmin;Lim, Seungyoung;Lee, Hyunjeong;Park, Soyoon;Kim, Myungji;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2019.10a
/
Pages.97-102
/
2019
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension

KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋

Kim, Youngmin (LG CNS, AI/Bigdata Research Center) ;
Lim, Seungyoung (LG CNS, AI/Bigdata Research Center) ;
Lee, Hyunjeong (LG CNS, AI/Bigdata Research Center) ;
Park, Soyoon (LG CNS, AI/Bigdata Research Center) ;
Kim, Myungji (LG CNS, AI/Bigdata Research Center)

김영민 (LG CNS, AI빅데이터연구소) ;
임승영 (LG CNS, AI빅데이터연구소) ;
이현정 (LG CNS, AI빅데이터연구소) ;
박소윤 (LG CNS, AI빅데이터연구소) ;
김명지 (LG CNS, AI빅데이터연구소)

Published : 2019.10.10

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.

Keywords

KorQuAD;
MRC