DOI QR코드

DOI QR Code

무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장

Topic Expansion based on Infinite Vocabulary Online LDA Topic Model using Semantic Correlation Information

  • 곽창욱 (경북대학교 컴퓨터학부) ;
  • 김선중 (한국전자통신연구원 스마트미디어플랫폼연구실) ;
  • 박성배 (경북대학교 컴퓨터학부) ;
  • 김권양 (경일대학교 컴퓨터공학과)
  • 투고 : 2016.03.18
  • 심사 : 2016.06.15
  • 발행 : 2016.09.15

초록

토픽 확장은 학습된 토픽의 질을 향상시키기 위해 추가적인 외부 데이터를 반영하여 점진적으로 토픽을 확장하는 방법이다. 기존의 온라인 학습 토픽 모델에서는 외부 데이터를 확장에 사용될 경우, 새로운 단어가 기존의 학습된 모델에 반영되지 않는다는 문제가 있었다. 본 논문에서는 무한 사전 온라인 LDA 토픽 모델을 이용하여 외부 데이터를 반영한 토픽 모델 확장 방법을 연구하였다. 토픽 확장 학습에서는 기존에 형성된 토픽과 추가된 외부 데이터의 단어와 유사도를 반영하여 토픽을 확장한다. 실험에서는 기존의 토픽 확장 모델들과 비교하였다. 비교 결과, 제안한 방법에서 외부 연관 문서 단어를 토픽 모델에 반영하기 때문에 대본 토픽이 다루지 못한 정보들을 토픽에 포함할 수 있었다. 또한, 일관성 평가에서도 비교 모델보다 뛰어난 성능을 나타냈다.

Topic expansion is an expansion method that reflects external data for improving quality of learned topic. The online learning topic model is not appropriate for topic expansion using external data, because it does not reflect unseen words to learned topic model. In this study, we proposed topic expansion method using infinite vocabulary online LDA. When unseen words appear in learning process, the proposed method allocates unseen word to topic after calculating semantic correlation between unseen word and each topic. To evaluate the proposed method, we compared with existing topic expansion method. The results indicated that the proposed method includes additional information that is not contained in broadcasting script by reflecting external documents. Also, the proposed method outperformed on coherence evaluation.

키워드

과제정보

연구 과제번호 : 개방형 미디어 생태계 구축을 위한 시맨틱 클러스터 기반 시청상황 적응형 스마트방송 기술 개발

연구 과제 주관 기관 : 정보통신기술연구진흥센터

참고문헌

  1. K. Zhai and J. Boyd-Graber, "Online Latent Dirichlet Allocation with Infinite Vocabulary," Proc. of The 30th International Conference on Machine Learning, pp. 561-569, 2013.
  2. C. U. Kwak, S. J. Kim, S. B. Park, and S. J. Lee, "Online Topic Model for Broadcasting Contents Using Semantic Correlation Information," International Journal of Computer, Electrical, Automation, Control and Information Engineering, Vol. 10, No. 1, pp. 71-74, 2015.
  3. D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, Vol. 3, pp. 993-1022, 2003.
  4. Y. W. Teh, M. I. Jordan, M. J. Beal, and D. M. Blei, "Hierarchical dirichlet processes," The American statistical association, 2006.
  5. M. Hoffman, F. R. Bach, and D. M. Blei, "Online learning for latent dirichlet allocation," Advances in neural information processing systems, pp. 856-864, 2010.
  6. C. Wang, J. W. Paisley, and D. M. Blei, "Online variational inference for the hierarchical Dirichlet process," Proc. of International Conference on Artificial Intelligence and Statistics, pp. 752-760, 2011.
  7. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," arXiv preprint arXiv:1301.3781 2013.
  8. D. O'Callaghan, D. Greene, J. Carthy, and P. Cunningham, "An analysis of the coherence of descriptors in topic modeling," Expert Systems with Applications, Vol. 42, No. 13, pp. 5645-5657, 2015. https://doi.org/10.1016/j.eswa.2015.02.055
  9. G. Bouma, "Normalized (pointwise) mutual information in collocation extraction," Proc. of GSCL, pp. 31-40, 2009.