Korean Morphological Analyzer and Part-Of-Speech Tagger Based on CYK Algorithm Using Syllable Information

음절단위 CYK 알고리즘에 기반한 형태소 분석기 및 품사태거

  • Kwon, Oh-Woog (Dept. of Computer Science & Engineering, POSTECH) ;
  • Chung, Yu-Jin (Dept. of Computer Science & Engineering, POSTECH) ;
  • Kim, Mi-Young (Dept. of Computer Science & Engineering, POSTECH) ;
  • Ryu, Dong-Won (Dept. of Computer Science & Engineering, POSTECH) ;
  • Lee, Moon-Ki (Dept. of Computer Science & Engineering, POSTECH) ;
  • Lee, Jong-Hyeok (Dept. of Computer Science & Engineering, POSTECH)
  • 권오욱 (포항공과대학교 컴퓨터공학과) ;
  • 정유진 (포항공과대학교 컴퓨터공학과) ;
  • 김미영 (포항공과대학교 컴퓨터공학과) ;
  • 류동원 (포항공과대학교 컴퓨터공학과) ;
  • 이문기 (포항공과대학교 컴퓨터공학과) ;
  • 이종혁 (포항공과대학교 컴퓨터공학과)
  • Published : 1999.10.08

Abstract

본 논문에서는 포항공과대학교 지식 및 언어공학연구실에서 개발한 한국어 형태소 분석기 및 품사 태거에 대하여 설명한다. 먼저, 음운 축약 현상이 많은 한국어에 적합한 음절단위 CYK 알고리즘을 제안한다. 그리고, 복합명사 및 복합동사에 대한 처리와 실제 문서에서 빈번히 발생하는 띄어쓰기 오류 처리에 대한 방법론을 설명하고 미등록어에 대한 처리 방안을 제시한다. 품사 태거에서 사용된 방법론과 태그 집합간 매핑, 그리고 명사 추출기에 대해 기술한 후 마지막으로 MATEC'99를 위한 준비과정에서 발생한 표준안과 우리 시스템 사이의 차이점을 나열 및 분석하고 간단히 MATEC'99를 통해 얻은 실험 결과와 평가를 하고자 한다.

Keywords