Phoneme-level Embedding based Korean Language Model

Choi, Woosung;Hyun, Kyungseok;Chung, Jaehwa;Jung, Soon Young;

doi:10.3745/PKIPS.y2019m10a.1026

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

한국정보처리학회 2019년도 추계학술발표대회
/
Pages.1026-1029
/
2019
/
2005-0011(pISSN)
/
2671-7298(eISSN)

한국정보처리학회 (Korea Information Processing Society)

DOI QR Code

음소 단위 임베딩 기반 한국어 모델

Phoneme-level Embedding based Korean Language Model

최우성 (고려대학교 컴퓨터학과) ;
현경석 (고려대학교 컴퓨터학과) ;
정재화 (한국방송통신대학교 컴퓨터과학과) ;
정순영 (고려대학교 컴퓨터학과)

Choi, Woosung (Dept of Computer Science, Korea University) ;
Hyun, Kyungseok (Dept of Computer Science, Korea University) ;
Chung, Jaehwa (Dept of Computer Science, Korea National Open University) ;
Jung, Soon Young (Dept of Computer Science, Korea University)

발행 : 2019.10.30

https://doi.org/10.3745/PKIPS.y2019m10a.1026 인용 PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

최근 제안되고 있는 Bert 등의 딥러닝 언어 모델 기반 pre-training 기법은 다양한 NLP 분야에서 활용되고 있다. 텍스트로 작성된 데이터 셋을 딥러닝 언어 모델이 학습하기 위해서는 토크나이징(tokenizing) 기술이 필요하다. 그러나 기존 토크나이징 방식은 한국어 및 한글이 가지는 고유한 특성(교착어적 특성과 모아쓰기 반영)을 반영하기 어렵다는 한계를 가지고 있다. 본 논문에서는 한국어와 한글이 가지는 고유한 특성을 고려하기 위하여 음소 단위의 임베딩 기법을 제안하며, 이를 기반으로 언어 모델을 설계 및 구현한다. 또한 음소 단위 임베딩 기반 한국어 모델이 실제 데이터 집합(구약성서)에서 나타나는 언어적 패턴을 학습할 수 있다는 것을 실험을 통하여 밝힌다.

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

음소 단위 임베딩 기반 한국어 모델

Phoneme-level Embedding based Korean Language Model

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)