Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2018.10a
- /
- Pages.495-497
- /
- 2018
- /
- 2005-3053(pISSN)
Two-Stage Korea Compound Noun Decomposer
2단계 한국어 복합명사 분해기
- Park, Chanjun (SYSTRAN International, Busan University of Foreign Studies) ;
- Ryu, Pum-mo (Division of Natural Language Processing, Busan University of Foreign Studies)
- Published : 2018.10.12
Abstract
복합명사는 둘 이상의 명사가 결합된 명사로, 한국어는 무한한 복합명사 생성이 가능하며 기계번역, 정보검색 등 다양한 분야에서 시스템의 정확도를 향상시키는데 중요한 역할을 한다. 본 논문은 리소스 확장을 이용한 사전 기반 복합명사 분해기[1]의 후속연구로 한국어 복합명사 분해기를 총 2단계에 걸쳐 분해하는 시스템을 제안한다. 먼저 대용량 복합명사 입출력쌍 사전을 구축한 후 1단계 분해를 진행하며, 1단계에서 분해가 실패한 경우 2단계에서 자체 구축한 Unigram사전을 기반으로 복합명사 분해를 진행한다. 실험결과 97.4%의 정확률이 나왔으며 기존의 리소스확장을 이용한 방법론보다 5.6%의 성능향상을 보였다.