어절 띄어쓰기를 고려한 형태소 단위 품사 태깅 모델

Morpheme-Unit POS Tagging Model Considering Eojeol-Spacing

  • Kim, Jin-Dong (Department of Computer Science & Engineering Korea University) ;
  • Lee, Sang-Zoo (Department of Computer Science & Engineering Korea University) ;
  • Rim, Hae-Chang (Department of Computer Science & Engineering Korea University)
  • 발행 : 1998.10.09

초록

한국어 품사 태깅 모델은 어절 단위 모델과 형태소 단위 모델로 나눌 수 있다. 이들 중 형태소 단위 모델은 자료 부족 문제가 별로 심각하지 않고 비교적 풍부한 태깅 결과를 내어 준다는 점에서 선호되나 어절 단위로 띄어쓰기를 하는 한국어의 특성을 제대로 반영하지 못한다는 단점이 있다. 이에 본 논문에서는 한국어의 어절 띄어쓰기 정보를 활용하는 형태소 단위 품사 태깅 모델을 제안한다. 어절 띄어쓰기 정보는 복잡도가 매우 작기 때문에 모델 구축에 드는 추가 비용이 그리 크지 않다. 그림에도 불구하고 실험 결과는 어절 띄어쓰기 정보가 한국어 품사 태깅에 유용한 정보임을 보여준다.

키워드