Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2012.10a
- /
- Pages.12-15
- /
- 2012
- /
- 2005-3053(pISSN)
CRFs for Korean Morpheme Segmentation and POS Tagging
CRF에 기반한 한국어 형태소 분할 및 품사 태깅
- Na, Seung-Hoon (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
- Yang, Seong-Il (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
- Kim, Chang-Hyun (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
- Kwon, Oh-Woog (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI)) ;
- Kim, Young-Kil (Natural Language Processing Team Electronics and Telecommunications Research Institute (ETRI))
- Published : 2012.10.06
Abstract
본 논문은 한국어 형태소 분할 및 품사 태깅을 위해 조건부 랜덤 필드 (CRF: conditional random field)에 기반한 방식을 제안한다. 제안 방법은 1) 형태소 분할 단계 2) 품사 태깅 단계 3) 복합형태소 분할 및 태깅 단계의 세 단계로 이루어진다. 처음 두 단계는 CRF방법에 기반을 두고, 세 번째 단계에서는 일반화된 HMM (lattice-HMM)을 활용한다. 제안 방법은 세종 말뭉치 코퍼스에서 5-fold cross-validation로 평가한 결과, 약 96%의 품사 태깅 성능을 보여주었다.