Two-Stage Korea Compound Noun Decomposer

Park, Chanjun;Ryu, Pum-mo;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2018.10a
/
Pages.495-497
/
2018
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Two-Stage Korea Compound Noun Decomposer

2단계 한국어 복합명사 분해기

Park, Chanjun (SYSTRAN International, Busan University of Foreign Studies) ;
Ryu, Pum-mo (Division of Natural Language Processing, Busan University of Foreign Studies)

박찬준 (시스트란인터내셔널, 부산외국어대학교) ;
류법모 (부산외국어대학교 언어처리창의융합전공)

Published : 2018.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

복합명사는 둘 이상의 명사가 결합된 명사로, 한국어는 무한한 복합명사 생성이 가능하며 기계번역, 정보검색 등 다양한 분야에서 시스템의 정확도를 향상시키는데 중요한 역할을 한다. 본 논문은 리소스 확장을 이용한 사전 기반 복합명사 분해기[1]의 후속연구로 한국어 복합명사 분해기를 총 2단계에 걸쳐 분해하는 시스템을 제안한다. 먼저 대용량 복합명사 입출력쌍 사전을 구축한 후 1단계 분해를 진행하며, 1단계에서 분해가 실패한 경우 2단계에서 자체 구축한 Unigram사전을 기반으로 복합명사 분해를 진행한다. 실험결과 97.4%의 정확률이 나왔으며 기존의 리소스확장을 이용한 방법론보다 5.6%의 성능향상을 보였다.

Keywords

Unigram;
ezTalky