Korean Linguistic GS Set Semi-Automatic Construction using Multiple POS taggers

Kim, Tae-Young;Ryu, Pum-Mo;Kim, Han-Saem;Oh, Hyo Jung;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2019.10a
/
Pages.481-484
/
2019
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Korean Linguistic GS Set Semi-Automatic Construction using Multiple POS taggers

다수 형태소 분석 결과를 활용한 표준 말뭉치 반자동 구축

Kim, Tae-Young (Jeonbuk National University) ;
Ryu, Pum-Mo (Busan University of Foreign Studies) ;
Kim, Han-Saem (Yonsei University) ;
Oh, Hyo Jung (Jeonbuk National University)

김태영 (전북대학교) ;
류법모 (부산외국어대학교) ;
김한샘 (연세대학교) ;
오효정 (전북대학교)

Published : 2019.10.10

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

최근 한국어 정보처리를 위한 대용량 언어분석 표준 말뭉치(GS:Gold Standard Set)를 구축하고 이를 공유·확산하기 위한 국가차원의 지원이 이뤄지고 있다. 본 연구는 이러한 사업의 일환으로, 현재 국내에서 개발된 다양한 한국어 언어분석 모듈을 활용하여 공통 정답셋을 구축하기 위한 방법론을 제시하고자 한다. 특히, 대량의 학습셋을 구축하기 위해 다수의 모듈(N-modules)로부터 제시된 후보 정답을 참조, 오류 형태를 분류하여 주요 유형을 반자동으로 보정함으로써 수작업을 최소화하였다. 본 연구에서는 우선 첫 단계인 형태소 분석 모듈 적용 결과를 토대로 표준 말뭉치를 구축한 결과에 대해 논하고자 한다.

Keywords

Acknowledgement

이 논문은 2017년 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2017M3C4A7068186).