KorSciQA: A Dataset for Machine Comprehension of Korean Scientific Paper

Hahm, Younggyun;Jeong, Youngbin;Jeong, Heeseok;Hwang, Hyekyong;Choi, Key-Sun;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2019.10a
/
Pages.207-212
/
2019
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

KorSciQA: A Dataset for Machine Comprehension of Korean Scientific Paper

KorSciQA: 한국어 논문의 기계독해 데이터셋

Hahm, Younggyun (KAIST) ;
Jeong, Youngbin (KAIST) ;
Jeong, Heeseok (KISTI) ;
Hwang, Hyekyong (KISTI) ;
Choi, Key-Sun (KAIST)

함영균 (한국과학기술원) ;
정용빈 (한국과학기술원) ;
정희석 (한국과학기술정보연구원) ;
황혜경 (한국과학기술정보연구원) ;
최기선 (한국과학기술원)

Published : 2019.10.10

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 한국어로 쓰여진 과학기술 논문에 대한 기계독해 과제(일명 KorSciQA)를 제안하고자 하며, 그와 수반하는 데이터 구축 및 평가를 보고한다. 다양한 제약조건이 부가된 크라우드소싱 디자인을 통하여, 498개의 논문 초록에 대해 일관성 있는 품질의 2,490개의 질의응답으로 구성된 기계독해 데이터셋을 구축하였다. 이 데이터셋은 어느 논문에서나 나타나는 논박 요소들인 논의하는 문제, 푸는 방법, 관련 데이터, 모델 등과 밀접한 질문으로 구성되고, 각 논박 요소의 의미, 목적, 이유 파악 및 다양한 추론을 하여 답을 할 수 있는 것이다. 구축된 KorSciQA 데이터셋은 실험을 통하여 기존의 기계독해 모델의 독해력으로는 풀기 어려운 도전과제로 평가되었다.

Keywords

Acknowledgement

본 연구는 2019년도 한국과학기술정보연구원(KISTI) 주요사업 과제로 수행한 것입니다.