Two-Stage Korea Compound Noun Decomposer

2단계 한국어 복합명사 분해기

  • Park, Chanjun (SYSTRAN International, Busan University of Foreign Studies) ;
  • Ryu, Pum-mo (Division of Natural Language Processing, Busan University of Foreign Studies)
  • 박찬준 (시스트란인터내셔널, 부산외국어대학교) ;
  • 류법모 (부산외국어대학교 언어처리창의융합전공)
  • Published : 2018.10.12

Abstract

복합명사는 둘 이상의 명사가 결합된 명사로, 한국어는 무한한 복합명사 생성이 가능하며 기계번역, 정보검색 등 다양한 분야에서 시스템의 정확도를 향상시키는데 중요한 역할을 한다. 본 논문은 리소스 확장을 이용한 사전 기반 복합명사 분해기[1]의 후속연구로 한국어 복합명사 분해기를 총 2단계에 걸쳐 분해하는 시스템을 제안한다. 먼저 대용량 복합명사 입출력쌍 사전을 구축한 후 1단계 분해를 진행하며, 1단계에서 분해가 실패한 경우 2단계에서 자체 구축한 Unigram사전을 기반으로 복합명사 분해를 진행한다. 실험결과 97.4%의 정확률이 나왔으며 기존의 리소스확장을 이용한 방법론보다 5.6%의 성능향상을 보였다.

Keywords