언어 모델 다중 학습을 이용한 한국어 개체명 인식

Korean Named Entity Recognition using Joint Learning with Language Model

  • 김병재 (서강대학교 컴퓨터공학과) ;
  • 박찬민 (서강대학교 컴퓨터공학과) ;
  • 최윤영 (서강대학교 컴퓨터공학과) ;
  • 권명준 (서강대학교 컴퓨터공학과) ;
  • 서정연 (서강대학교 컴퓨터공학과)
  • 발행 : 2017.10.13

초록

본 논문에서는 개체명 인식과 언어 모델의 다중 학습을 이용한 한국어 개체명 인식 방법을 제안한다. 다중 학습은 1 개의 모델에서 2 개 이상의 작업을 동시에 분석하여 성능 향상을 기대할 수 있는 방법이지만, 이를 적용하기 위해서 말뭉치에 각 작업에 해당하는 태그가 부착되어야 하는 문제가 있다. 본 논문에서는 추가적인 태그 부착 없이 정보를 획득할 수 있는 언어 모델을 개체명 인식 작업과 결합하여 성능 향상을 이루고자 한다. 또한 단순한 형태소 입력의 한계를 극복하기 위해 입력 표상을 자소 및 형태소 품사의 임베딩으로 확장하였다. 기계 학습 방법은 순차적 레이블링에서 높은 성능을 제공하는 Bi-directional LSTM CRF 모델을 사용하였고, 실험 결과 언어 모델이 개체명 인식의 오류를 효과적으로 개선함을 확인하였다.

키워드