Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2018.10a
- /
- Pages.291-295
- /
- 2018
- /
- 2005-3053(pISSN)
Comparing Byte Pair Encoding Methods for Korean
음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구
- Lee, Chanhee (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
- Lee, Dongyub (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
- Hur, YunA (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
- Yang, Kisu (Department of Computer Science and Engineering, College of Informatics, Korea University) ;
- Lim, Heuiseok (Department of Computer Science and Engineering, College of Informatics, Korea University)
- 이찬희 (고려대학교 정보대학 컴퓨터학과) ;
- 이동엽 (고려대학교 정보대학 컴퓨터학과) ;
- 허윤아 (고려대학교 정보대학 컴퓨터학과) ;
- 양기수 (고려대학교 정보대학 컴퓨터학과) ;
- 임희석 (고려대학교 정보대학 컴퓨터학과)
- Published : 2018.10.12
Abstract
한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.