점진적 EM 알고리즘에 의한 잠재토픽모델의 학습 속도 향상

Accelerated Loarning of Latent Topic Models by Incremental EM Algorithm

  • 발행 : 2007.12.15

초록

잠재토픽모델(latent topic model)은 데이타에 내재된 특징적 패턴이나 데이타 정의 자질들 간의 상호 관련성을 확률적으로 모델링하고 자동 추출하는 모델로서 최근 텍스트 문서로부터의 의미 자질 자동 추출, 이미지를 비롯한 멀티미디어 데이타 분석, 생물정보학 분야 등에서 많이 응용되고 있다. 이러한 잠재토픽모델의 대규모 데이타에 대한 적용 시 그 효과 증대를 위한 중요한 이슈 중의 하나는 모델의 효율적 학습에 관한 것이다. 본 논문에서는 대표적 잠재토픽모델 중의 하나인 PLSA (probabilistic latent semantic analysis) 기법을 대상으로 점진적 EM 알고리즘을 활용한, 기본 EM 알고리즘 기반의 기존 학습에 대한 학습속도 증진 기법을 제안한다. 점진적 EM 알고리즘은 토픽 추론 시 전체 데이타에 대한 일괄적 E-step 대신에 일부 데이타에 대한 일련의 부분적 E-step을 수행하는 특징이 있으며 이전 데이터 일부에 대한 학습 결과를 바로 다음 데이타 학습에 반영함으로써 모델 학습의 가속화를 기대할 수 있다. 또한 이론적인 측면에서 지역해로의 수렴성이 보장되고 기존 알고리즘의 큰 수정 없이 구현이 용이하다는 장점이 있다. 논문에서는 해당 알고리즘의 기본적인 응용과 더불어 실제 적용과정 상에서의 가능한 데이터 분할법들을 제시하고 모델 학습 속도 개선 면에서의 성능을 실험적으로 비교 분석한다. 실세계 뉴스 문서 데이타에 대한 실험을 통해, 제안하는 기법이 기존 PLSA 학습 기법에 비해 유의미한 수준에서 학습 속도 증진을 달성할 수 있음을 보이며 추가적으로 모델의 병렬 학습 기법과의 조합을 통한 실험 결과를 간략히 제시한다.

Latent topic models are statistical models which automatically captures salient patterns or correlation among features underlying a data collection in a probabilistic way. They are gaining an increased popularity as an effective tool in the application of automatic semantic feature extraction from text corpus, multimedia data analysis including image data, and bioinformatics. Among the important issues for the effectiveness in the application of latent topic models to the massive data set is the efficient learning of the model. The paper proposes an accelerated learning technique for PLSA model, one of the popular latent topic models, by an incremental EM algorithm instead of conventional EM algorithm. The incremental EM algorithm can be characterized by the employment of a series of partial E-steps that are performed on the corresponding subsets of the entire data collection, unlike in the conventional EM algorithm where one batch E-step is done for the whole data set. By the replacement of a single batch E-M step with a series of partial E-steps and M-steps, the inference result for the previous data subset can be directly reflected to the next inference process, which can enhance the learning speed for the entire data set. The algorithm is advantageous also in that it is guaranteed to converge to a local maximum solution and can be easily implemented just with slight modification of the existing algorithm based on the conventional EM. We present the basic application of the incremental EM algorithm to the learning of PLSA and empirically evaluate the acceleration performance with several possible data partitioning methods for the practical application. The experimental results on a real-world news data set show that the proposed approach can accomplish a meaningful enhancement of the convergence rate in the learning of latent topic model. Additionally, we present an interesting result which supports a possible synergistic effect of the combination of incremental EM algorithm with parallel computing.

키워드

참고문헌

  1. T. Hofmann, Unsupervised learning by probabilistic latent semantic analysis, Machine Learning, 42(1-2), pp. 177-196, 2001 https://doi.org/10.1023/A:1007617005950
  2. D. Blei, A. Ng, and M. Jordan, Latent Dirichlet allocation, Journal of Machine Learning Research, 3, pp. 993-1022, 2003 https://doi.org/10.1162/jmlr.2003.3.4-5.993
  3. A. P. Dempster, N. Laird, and D. B. Rubin, Maximum likelihood from incomplete data via the EM algorithm (with discussion), Journal of the Royal Statistical Society, Series B, 39, pp. 1-38, 1977
  4. R. Neal and G. Hinton, A View of the EM Algorithm that Justifies Incremental, Sparse, and other Variants. In Michael I. Jordan (editor), Learning in Graphical Models, pp. 355-368, MIT Press, Cambridge, MA., 1999
  5. B. Thiesson, C. Meek and D. Heckerman, Accelerating EM for large databases, Machine Learning, 45, pp. 279-299, 2001 https://doi.org/10.1023/A:1017986506241
  6. D. D. Lewis, Y. Yang, T. Rose, and F. Li. RCV1, A new benchmark collection for text categorization research, Journal of Machine Learning Research, 5, pp. 361-397, 2004
  7. H. W. Kuhn, The Hungarian method for the assignment problem, Naval Research Logistics Quarterly, 2, pp. 83-97, 1955 https://doi.org/10.1002/nav.3800020109
  8. D. D. Lee and H. S. Seung, Algorithms for nonnegative matrix factorization, In Advances in Neural Information Processing Systems (Proc. NIPS 2000), 13, pp. 556-562, MIT Press, Cambridge, MA., 2001
  9. D. Blei and J. Lafferty, Correlated topic models, In Advances in Neural Information Systems (Proc. NIPS 2005), 18, pp. 147-154, MIT Press, Cambridge, MA., 2006