Phoneme-level Embedding based Korean Language Model

Choi, Woosung;Hyun, Kyungseok;Chung, Jaehwa;Jung, Soon Young;

doi:10.3745/PKIPS.y2019m10a.1026

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2019.10a
/
Pages.1026-1029
/
2019
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Phoneme-level Embedding based Korean Language Model

음소 단위 임베딩 기반 한국어 모델

Choi, Woosung (Dept of Computer Science, Korea University) ;
Hyun, Kyungseok (Dept of Computer Science, Korea University) ;
Chung, Jaehwa (Dept of Computer Science, Korea National Open University) ;
Jung, Soon Young (Dept of Computer Science, Korea University)

최우성 (고려대학교 컴퓨터학과) ;
현경석 (고려대학교 컴퓨터학과) ;
정재화 (한국방송통신대학교 컴퓨터과학과) ;
정순영 (고려대학교 컴퓨터학과)

Published : 2019.10.30

https://doi.org/10.3745/PKIPS.y2019m10a.1026 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Phoneme-level Embedding based Korean Language Model

음소 단위 임베딩 기반 한국어 모델

Abstract

Keywords