DOI QR코드

DOI QR Code

음소 단위 임베딩 기반 한국어 모델

Phoneme-level Embedding based Korean Language Model

  • 최우성 (고려대학교 컴퓨터학과) ;
  • 현경석 (고려대학교 컴퓨터학과) ;
  • 정재화 (한국방송통신대학교 컴퓨터과학과) ;
  • 정순영 (고려대학교 컴퓨터학과)
  • 발행 : 2019.10.30

초록

최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.

키워드