CRFs for Korean Morpheme Segmentation and POS Tagging

CRF에 기반한 한국어 형태소 분할 및 품사 태깅

  • Na, Seung-Hoon (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
  • Yang, Seong-Il (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
  • Kim, Chang-Hyun (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
  • Kwon, Oh-Woog (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
  • Kim, Young-Kil (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI))
  • Published : 2012.10.06

Abstract

본 논문은 한국어 형태소 분할 및 품사 태깅을 위해 조건부 랜덤 필드 (CRF: conditional random field)에 기반한 방식을 제안한다. 제안 방법은 1) 형태소 분할 단계 2) 품사 태깅 단계 3) 복합형태소 분할 및 태깅 단계의 세 단계로 이루어진다. 처음 두 단계는 CRF방법에 기반을 두고, 세 번째 단계에서는 일반화된 HMM (lattice-HMM)을 활용한다. 제안 방법은 세종 말뭉치 코퍼스에서 5-fold cross-validation로 평가한 결과, 약 96%의 품사 태깅 성능을 보여주었다.

Keywords