Korean Compound Noun Decomposition Only Using Syllabic Information

음절 정보만 이용한 한국어 복합 명사 분해

  • Park, Seong-Bae (Biointelligence Lab., School of Computer Science and Engineering, Seoul National University) ;
  • Zhang, Byoung-Tak (Biointelligence Lab., School of Computer Science and Engineering, Seoul National University)
  • 박성배 (서울대학교 컴퓨터공학부 바이오지능연구실) ;
  • 장병탁 (서울대학교 컴퓨터공학부 바이오지능연구실)
  • Published : 2003.10.10

Abstract

한국어에서는 복합 명사 생성이 매우 자유스럽다. 즉, 독립된 명사를 연속으로 붙여 쓰는 것이 가능하다. 하지만, 기계번역이나 정보 검색과 같이 복합 명사를 처리하는 시스템에서 정확한 분석을 위해서는 복합 명사를 다시 단일 명사들로 분해하는 과정이 필요하다. 본 논문에서는 한국어 복합 명사 분해를 위해 GECORAM(GEneralized Combination of Rule-based learning And Memory-based learning) 알고리듬을 제시한다. 규칙 학습 알고리듬의 장점은 생성된 학습 결과를 사람이 쉽게 이해할 수 있다는 점이지만, 다른 지도학습 알고리듬에 비해 성능이 떨어진다는 단점이 있다. 본 논문에서는 이를 위해 규칙 학습 알고리듬과 기억기반 학습을 결합하는 방법을 제시한다. 실험 결과, GECORAM 알고리듬은 규칙 기반 학습이나 기억 기반 학습을 단독으로 쓰는 경우보다 높은 정확도를 보였다.

Keywords