DOI QR코드

DOI QR Code

Modified multi-sense skip-gram using weighted context and x-means

가중 문맥벡터와 X-means 방법을 이용한 변형 다의어스킵그램

  • 정현우 (성균관대학교 통계학과) ;
  • 이은령 (성균관대학교 통계학과)
  • Received : 2021.03.13
  • Accepted : 2021.05.04
  • Published : 2021.06.30

Abstract

In recent years, word embedding has been a popular field of natural language processing research and a skip-gram has become one successful word embedding method. It assigns a word embedding vector to each word using contexts, which provides an effective way to analyze text data. However, due to the limitation of vector space model, primary word embedding methods assume that every word only have a single meaning. As one faces multi-sense words, that is, words with more than one meaning, in reality, Neelakantan (2014) proposed a multi-sense skip-gram (MSSG) to find embedding vectors corresponding to the each senses of a multi-sense word using a clustering method. In this paper, we propose a modified method of the MSSG to improve statistical accuracy. Moreover, we propose a data-adaptive choice of the number of clusters, that is, the number of meanings for a multi-sense word. Some numerical evidence is given by conducting real data-based simulations.

최근 자연어 처리 문제에서의 단어 임베딩은 아주 큰 주목을 받고 있는 연구 주제이며 스킵그램은 성공적인 단어 임베딩 기법 중 하나이다. 주변단어들 정보를 이용해서 단어들의 의미를 학습하여 단어 임베딩 벡터를 할당하며 텍스트 자료를 효과적으로 분석할 수 있게 한다. 그러나 벡터 공간 모델의 한계로 인해 기본적인 단어 임베딩 방법들은 모든 단어가 하나의 의미를 가지고 있다는 것을 가정한다. 다의어, 즉 하나 이상의 의미를 가진 단어가 실생활에서 존재 하기 때문에 Neelakantan 등 (2014)은 군집분석 기법을 이용하여 다의어의 여러 의미들에 해당하는 의미 임베딩 벡터를 찾기 위해 MSSG (multi-sense skip-gram)를 제안했다. 본 논문에서는 MSSG의 통계적 성능을 개선시킬 수 있는 변형된 MSSG 방법을 제안한다. 먼저, 가중치를 활용한 가중문맥 벡터를 제안한다. 나아가, 군집의 수, 즉 다의어의 의미 수를 자료에서 자동적으로 추정해주는 x-means 방법을 활용한 알고리즘을 제안한다. 본 논문에서 수행한 실증자료를 기반한 모의실험에서 제안한 방법은 기존 방법에 비해 우수한 성능을 보여주었다.

Keywords

References

  1. Dan P, Moore AW (2000). X-means: extending k-means with efficient estimation of the number of clusters. In Proceedings of the 17th International Conference on Machine Learning, 727.
  2. Grun B and Hornik H (2011). Topicmodels: an r package for fitting topic models, Journal of Statistical Software, 40, 1-30.
  3. Huang E, Socher R, Manning C, and Ng A (2012). Improving word representations via global context and multiple word prototypes. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 1, 873-882.
  4. Huang E, Socher R, Manning C, and Ng A (2012). Improving word representations via global context and multiple word prototypes. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 1, 873-882.
  5. Neelakantan A, Shankar J, Passos A, and McCallum A (2014). Efficient non-parametric estimation of multiple embeddings per word in vector space. Conference on Empirical Methods in Natural Language Processing, 1059-1069.
  6. Rong X (2014). Word2vec Parameter Learning Explained, arXiv.
  7. Mikolov T, Sutskever I, Chen K, Corrado G, and Dean J (2013a). Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, 26, 3111-3119.
  8. Mikolov T, Chen K, Corrado G, and Dean J (2013b). Efficient estimation of word representations in vector space. International Conference on Learning Representations.
  9. Tsunenori I (2005). An expansion of X-means for automatically determining the optimal number of clusters. In Proceedings of International Conference on Computational Intelligence, 2, 91-95.
  10. Zheng Y, Shi Y, Guo K, Li WL, and Zhu L (2017). Enhanced word embedding with multiple prototypes. 4th International Conference on Industrial Economics System and Industrial Security Engineering, 1-5.