Comparing Byte Pair Encoding Methods for Korean

Lee, Chanhee;Lee, Dongyub;Hur, YunA;Yang, Kisu;Lim, Heuiseok;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2018.10a
/
Pages.291-295
/
2018
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Comparing Byte Pair Encoding Methods for Korean

음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구

Lee, Chanhee (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
Lee, Dongyub (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
Hur, YunA (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
Yang, Kisu (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
Lim, Heuiseok (Department of Computer Science and Engineering, College of Informatics, Korea University)

이찬희 (고려대학교 정보대학 컴퓨터학과) ;
이동엽 (고려대학교 정보대학 컴퓨터학과) ;
허윤아 (고려대학교 정보대학 컴퓨터학과) ;
양기수 (고려대학교 정보대학 컴퓨터학과) ;
임희석 (고려대학교 정보대학 컴퓨터학과)

Published : 2018.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.

Keywords

Byte Pair Encoding