Word Vectorization Method Based on Bag of Characters

Bag of Characters를 응용한 단어의 벡터 표현 생성 방법

  • Lee, Chanhee (Dept. of Computer Science and Engineering, College of Informatics, Korea University) ;
  • Lee, Seolhwa (Dept. of Computer Science and Engineering, College of Informatics, Korea University) ;
  • Lim, Heuiseok (Dept. of Computer Science and Engineering, College of Informatics, Korea University)
  • 이찬희 (고려대학교 정보대학 컴퓨터학과) ;
  • 이설화 (고려대학교 정보대학 컴퓨터학과) ;
  • 임희석 (고려대학교 정보대학 컴퓨터학과)
  • Published : 2017.08.09

Abstract

인공 신경망 기반 자연어 처리 시스템들에서 단어를 벡터로 변환할 때, 크게 색인 및 순람표를 이용하는 방법과 합성곱 신경망이나 회귀 신경망을 이용하는 방법이 있다. 이 때, 전자의 방법을 사용하려면 시스템이 수용 가능한 어휘집이 정의되어 있어야 하며 새로운 단어를 어휘집에 추가하기 어렵다. 반면 후자의 방법을 사용하면 단어를 구성하는 문자들을 바탕으로 벡터 표현을 생성하기 때문에 어휘집이 필요하지 않지만, 추가적인 인공 신경망 구조가 필요하기 때문에 모델의 복잡도와 파라미터의 수가 증가한다는 단점이 있다. 본 연구에서는 위 두 방법의 한계를 극복하고자 Bag of Characters를 응용하여 단어를 구성하는 문자들의 집합을 바탕으로 벡터 표현을 생성하는 방법을 제안한다. 제안된 방법은 문자를 기반으로 동작하기 때문에 어휘집을 정의할 필요가 없으며, 인공 신경망 구조가 사용되지 않기 때문에 시스템의 복잡도도 증가시키지 않는다. 또한, 단어의 벡터 표현에 단어를 구성하는 문자들의 정보가 반영되기 때문에 Out-Of-Vocabulary 단어에 대한 성능도 어휘집을 사용하는 방법보다 우수할 것으로 기대된다.

Keywords