Latent Semantic Indexing Analysis of K-Means Document Clustering for Changing Index Terms Weighting

색인어 가중치 부여 방법에 따른 K-Means 문서 클러스터링의 LSI 분석

  • Published : 2003.12.01


In the information retrieval system, document clustering technique is to provide user convenience and visual effects by rearranging documents according to the specific topics from the retrieved ones. In this paper, we clustered documents using K-Means algorithm and present the effect of index terms weighting scheme on the document clustering. To verify the experiment, we applied Latent Semantic Indexing approach to illustrate the clustering results and analyzed the clustering results in 2-dimensional space. Experimental results showed that in case of applying local weighting, global weighting and normalization factor, the density of clustering is higher than those of similar or same weighting schemes in 2-dimensional space. Especially, the logarithm of local and global weighting is noticeable.

정보검색 시스템에서 문서 클러스터링 기술은 사용자 질의에 대해 검색된 문서들을 문서간의 유사도를 기반으로 특정 주제에 따라 재배치하여 놓는 기술로써 사용자에게 검색의 편의성을 제공하고, 그 결과들을 시각적으로 보여줄 수 있다. 본 논문에서는 K-Means 알고리즘을 사용하여 문서를 클러스터링하며 문서를 대표하는 색인어에 가중치를 부여하는 기법에 대하여 논한다. 클러스터링 결과를 시각적으로 보여주기 위하여 문서와 클러스터 중심들을 2차원 공간으로 사상하기 위한 Latent Semantic Indexing 접근 방법을 적용하였다. 실험 결과 문서의 색인어에 대한 가중치 부여 방법을 동일하게 하거나 또는 유사한 수식을 적용한 사례보다는 로컬가중치, 글로벌가중치, 정규화 요소를 모두 부여한 사례에서 문서들이 2차원 벡터 공간에서 군집하여 분포하는 클러스터링 효과가 우수하였다. 특히 로컬 가중치와 글로벌 가중치에 logarithm을 적용하였을 때 문서 분포의 군집도는 현저하게 나타남을 알 수 있었다.



  1. Ricardo Baeza-Yates, Berhier Ribeiro-NetoRoger, 'Modern Information Retrieval,' Addison Wesley, 1999
  2. Michael W. Berry, Murray Browne, 'Understanding Search Engines,' University of Tennessee, 2001
  3. 김영택 외 공저, '자연언어처리', 생능출판사, 2001
  4. Markus Torma, 'Comparison Between Three Different Clustering Algorithms,' Photogrammetric Journal of Finland, Espoo, Vol.13, No.2, pp.85-95, 1993
  5. 고지현, 오형진, 박순철, 'LSI를 이용한 가중치 변화에 따른 클러스터링결과 분석', 한국정보처리학회, 춘계학술발표논문집, pp.1009-1012, 2002
  6. 오형진, '클러스터 중심 결정 방법을 개선한 변형 K-Means 알고리즘의 구현', 석사학위 논문, 전북대학교 컴퓨터공학과, 2002
  7. 이경순, '정보검색에서 벡터공간 검색과 클러스터 분석을 통한 문서 순위 결정 모델', 박사학위 논문, 한국과학기술원, 2001
  8. 고지현, '정보검색에서 LSI를 이용한 문서 클러스터링에 관한 연구', 석사학위 논문, 전북대학교 정보통신공학과, 2002
  9. 정영미, 이재윤, '지식 분류의 자동화를 위한 클러스터링 모형 연구', 정보관리학회지, 제18권 제2호, pp.203-230, 2001
  10. Khaled Alsabti, et al, 'An Efficient K-Means Clustering Algorithm,' IIPS 11th International Parallel Processing Symposium, 1998
  11. P. S. Bradley, Uama M Fayyad, 'Refining Initial Points for K-Means Clustering,' Proceedings of the Fifteenth International Conference on Machine Learning, 1998
  12. Tapas Kanung, 'The Analysis of a Simple K-Means Clustering Algorithm,' Proc. of ACM Symposium on Computational Geometry, Hong Kong, June, 2000
  13. Michael W. Berry, Susan T. Dumais, et al, 'Computational Methods for intelligent Information Access,' ACM, 1995