Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2017.10a
- /
- Pages.333-337
- /
- 2017
- /
- 2005-3053(pISSN)
Korean Named Entity Recognition using Joint Learning with Language Model
언어 모델 다중 학습을 이용한 한국어 개체명 인식
- Kim, Byeong-Jae (Sogang University, Dept. of Computer Engineering) ;
- Park, Chan-min (Sogang University, Dept. of Computer Engineering) ;
- Choi, Yoon-Young (Sogang University, Dept. of Computer Engineering) ;
- Kwon, Myeong-Joon (Sogang University, Dept. of Computer Engineering) ;
- Seo, Jeong-Yeon (Sogang University, Dept. of Computer Engineering)
- 김병재 (서강대학교 컴퓨터공학과) ;
- 박찬민 (서강대학교 컴퓨터공학과) ;
- 최윤영 (서강대학교 컴퓨터공학과) ;
- 권명준 (서강대학교 컴퓨터공학과) ;
- 서정연 (서강대학교 컴퓨터공학과)
- Published : 2017.10.13
Abstract
본 논문에서는 개체명 인식과 언어 모델의 다중 학습을 이용한 한국어 개체명 인식 방법을 제안한다. 다중 학습은 1 개의 모델에서 2 개 이상의 작업을 동시에 분석하여 성능 향상을 기대할 수 있는 방법이지만, 이를 적용하기 위해서 말뭉치에 각 작업에 해당하는 태그가 부착되어야 하는 문제가 있다. 본 논문에서는 추가적인 태그 부착 없이 정보를 획득할 수 있는 언어 모델을 개체명 인식 작업과 결합하여 성능 향상을 이루고자 한다. 또한 단순한 형태소 입력의 한계를 극복하기 위해 입력 표상을 자소 및 형태소 품사의 임베딩으로 확장하였다. 기계 학습 방법은 순차적 레이블링에서 높은 성능을 제공하는 Bi-directional LSTM CRF 모델을 사용하였고, 실험 결과 언어 모델이 개체명 인식의 오류를 효과적으로 개선함을 확인하였다.