Grammatical morphemes' effect on Korean word vector generation

형식형태소가 한국어 단어 벡터 생성에 미치는 영향

  • Youn, Junyoung (Dept. of Computer Science, Chungbuk National University) ;
  • Kim, Dowon (Dept. of Computer Science, Chungbuk National University) ;
  • Min, Tae Hong (Dept. of Computer Science, Chungbuk National University) ;
  • Lee, Jae Sung (Dept. of Computer Science, Chungbuk National University)
  • 윤준영 (충북대학교 소프트웨어학과) ;
  • 김도원 (충북대학교 소프트웨어학과) ;
  • 민태홍 (충북대학교 소프트웨어학과) ;
  • 이재성 (충북대학교 소프트웨어학과)
  • Published : 2017.10.13

Abstract

단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.

Keywords