DOI QR코드

DOI QR Code

On Characteristics of Word Embeddings by the Word2vec Model

Word2vec 모델의 단어 임베딩 특성 연구

  • Kang, Hyungsuc (Dept. of New Media, Seoul Media Institute of Technology) ;
  • Yang, Janghoon (Dept. of New Media, Seoul Media Institute of Technology)
  • 강형석 (서울미디어대학원 대학교 뉴미디어학부) ;
  • 양장훈 (서울미디어대학원 대학교 뉴미디어학부)
  • Published : 2019.05.10

Abstract

단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.

Keywords

Acknowledgement

이 논문은 2019년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(과제번호: NRF-2017R1A2B4007398)