Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2019.10a
- /
- Pages.1026-1029
- /
- 2019
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Phoneme-level Embedding based Korean Language Model
음소 단위 임베딩 기반 한국어 모델
- Choi, Woosung (Dept of Computer Science, Korea University) ;
- Hyun, Kyungseok (Dept of Computer Science, Korea University) ;
- Chung, Jaehwa (Dept of Computer Science, Korea National Open University) ;
- Jung, Soon Young (Dept of Computer Science, Korea University)
- Published : 2019.10.30
Abstract
최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.
Keywords