품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기

Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs

  • 김혜민 (동아대학교 컴퓨터공학과) ;
  • 윤정민 (동아대학교 컴퓨터공학과) ;
  • 안재현 (동아대학교 컴퓨터공학과) ;
  • 배경만 (동아대학교 컴퓨터공학과) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • Kim, Hyemin (DongA University, Department of Computer Engineering) ;
  • Yoon, Jungmin (DongA University, Department of Computer Engineering) ;
  • An, Jaehyun (DongA University, Department of Computer Engineering) ;
  • Bae, Kyoungman (DongA University, Department of Computer Engineering) ;
  • Ko, Youngjoong (DongA University, Department of Computer Engineering)
  • 발행 : 2016.10.07

초록

형태소 분석기는 많은 자연어 처리 영역에서 필수적인 언어 도구로 활용되기 때문에 형태소에 대한 품사를 결정하는 것은 매우 중요하다. 최근 음절 기반으로 형태소의 품사를 태깅하는 방법에 대한 연구들이 많이 진행되고 있다. 음절 단위 형태소 분석은 음절 단위로 분리된 형태소에 대해서 기계학습을 이용하여 분리된 음절 단위로 품사를 태깅하는 단계를 가진다. 본 논문에서는 기존의 CRF를 이용한 음절 단위 품사 태깅 방법을 개선하기 위해 bi-LSTM-CRFs를 이용한 방법을 제안한다. 또한, bi-LSTM-CRFs의 입력을 음절의 품사 분포 벡터를 이용해 확장함으로써 음절 단위 품사 태깅의 성능을 향상 시켰다.

키워드