DOI QR코드

DOI QR Code

Determining the number of Clusters in On-Line Document Clustering Algorithm

온라인 문서 군집화에서 군집 수 결정 방법

  • 지태창 (연세대학교 컴퓨터과학과) ;
  • 이현진 (한국싸이버대학교 컴퓨터정보통신학부) ;
  • 이일병 (연세대학교 컴퓨터과학과)
  • Published : 2007.12.31

Abstract

Clustering is to divide given data and automatically find out the hidden meanings in the data. It analyzes data, which are difficult for people to check in detail, and then, makes several clusters consisting of data with similar characteristics. On-Line Document Clustering System, which makes a group of similar documents by use of results of the search engine, is aimed to increase the convenience of information retrieval area. Document clustering is automatically done without human interference, and the number of clusters, which affect the result of clustering, should be decided automatically too. Also, the one of the characteristics of an on-line system is guarantying fast response time. This paper proposed a method of determining the number of clusters automatically by geometrical information. The proposed method composed of two stages. In the first stage, centers of clusters are projected on the low-dimensional plane, and in the second stage, clusters are combined by use of distance of centers of clusters in the low-dimensional plane. As a result of experimenting this method with real data, it was found that clustering performance became better and the response time is suitable to on-line circumstance.

군집화는 주어진 데이터를 분할하여 데이터 속에 숨겨져 있는 의미를 자동으로 발견하는 방법으로, 사람이 일일이 살펴보기 어려운 데이터를 분석해서 비슷한 성향을 가진 데이터들끼리 모은 여러 개의 군집들을 만들어 낸다. 온라인 문서 군집화는 검색 엔진을 통해 검색된 문서들을 대상으로 군집화를 실행하여 유사한 특성의 문서들을 묶어서 보여줌으로써 사용자의 검색 환경의 편의성을 증진시키는 것이 목적이다. 문서군집화는 사람의 개입이 없이 자동으로 이루어져야 하고, 군집화 결과에 영향을 미치는 군집의 개수 선정도 자동으로 이루어져야 한다. 또한, 온라인 시스템에서는 빠른 응답 시간을 보장하는 것이 중요하다. 본 논문에서는 기하학적인 정보를 이용하여 군집의 수를 결정하는 방법을 제안한다. 제안하는 방법은 군집의 중심을 저차원 평면에 사상하는 것과 사상된 군집 중심의 거리 정보를 이용하여 군집들을 병합하는 두 단계로 이루어져 있다. 제안하는 방법을 실데이터에 적용하여 실험한 결과 군집화 성능이 향상되고, 처리 시간도 온라인 환경에 적합한 것을 확인 할 수 있었다.

Keywords

References

  1. 장익진, '다차원 척도 분석법', 연암사, 1998
  2. 지태창, 이현진, 이일병, '차원축소를 통한 온라인 문서분류 시스템', 한국데이터마이닝학회 2005 추계학술대회, pp. 197-206, 2005
  3. M. J. A. Berry and G. S. Linoff, 'Data Mining Techniques for Marketing, Sales, and Customer Support', John Wiley & Sons, 1997
  4. I. Borg, P. J. F. Groenen and S. P. Borgatti, 'Modern Multidimensional Scaling', Springer Verlag, 2005
  5. B. Boutsinas, D. K. Tasoulis and M. N. Vrahatis, 'Estimating the number of clusters using a windowing technique', Journal of Pattern Recognition an Image Analysis, Vol. 16, No. 2, April, pp. 143-154, 2006 https://doi.org/10.1134/S1054661806020015
  6. D.R. Cutting, D.R. Karger, J. O. Pedersen and J. W. Tukey, 'Scatter/Gather: a cluster-based approach to browsing large document collections', In Proc. of the 15th annual international ACM SIGIR, June, pp. 318-329, 1992
  7. R. O. Duda, P. E. Hart and Da. G. Stork, 'Pattern Classification (2nd Edition) ', Wiley-Interscience, Oct., 2000
  8. E. Gose, R. Johnsonbugh and S. Jost, 'Pattern Recognition and Image Analysis', Prentice Hall, 1996
  9. J. He, A.H. Tan, C.L. Tan, and S.Y. Sung, 'On quantitative evaluation of clustering systems', In Weili We, Hui Xiong, and Shashi Shekhar, editors, Information Retrieval and Clustering. Kluwer Academic Publishers, 2003
  10. J. He, M. Lan, C.L. Tan, S.Y. Sung and H.B. Low, 'Initialization of clusters refinement algorithms: a review and comparative study,' International Joint Conference on Neural Networks 2004, pp. 25-29, 2004
  11. A. K. Jain and R. C. Dubes, 'Algorithms for Clustering Data', Prentice Hall, 1988
  12. L. Kaufman and P. J. Rousseuw, 'Finding Groups in Data an Introduction to Cluster Analysis', Wiley Series in Probability and Mathematical Statistics, 1990
  13. D. D. Lewis, 'Reuters-21578 text categorization test collection distribution 1.0', http://www.research.att.com/ ∼lewis, 1999
  14. C.G. Li, J. Guo, G. Chen, X.F. Nie and Z. Yang, 'A Version of ISOMAP with Explicit Mapping', In Proc. of Fifth International Conference on Machine Learning and Cybernetics, Dalian, 13-16 Aug., pp.3201-3206, 2006
  15. A. Liu and Y. Gong, 'Document clustering with cluster refinement and model selection capabilities', In Proc. of ACM SIGIR 2002, Tampere, Finland, Aug, pp. 191-198, 2002
  16. W. Lu and I. Traore, 'Determining the optimal number of clusters using a new evolutionary algorithm', In Proc. Of the 17th IEEE International Conference on Tools with Artificial Intelligence(ICTAI 05), Nov., 2 pp., 2005 https://doi.org/10.1109/ICTAI.2005.57
  17. H. Motulsky, 'Intuitive Biostatistics', Oxford University Press, 1995
  18. D. Pelleg and A. Moore, 'X-means: Extending k-means with efficient estimation of the number of clusters', In Proc. of the Seventeenth International Conference on Machine Learning (ICML2000), June, pp. 727-734, 2000
  19. E. Rasmussen, 'Clustering algorithms', In W.B. Frakes and R. Baeza-Yates, eds. Information Retrieval . Prentice Hall, 1992
  20. S. Salvador and P. Chan, 'Determining the number of clusters/segments in hierarchical clustering/segmentation algorithms', In Proc. of the 16th IEEE International Conference on Tools with Artificial Intelligence, Nov., pp. 576-584, 2004 https://doi.org/10.1109/ICTAI.2004.50
  21. J. B. Tenenbaum, V. de Silva and J. C. Langford, 'A Global Geometric Framework for Nonlinear Dimensionality Reduction', SCIENCE, Vol. 290, Dec., pp. 2319-2323, 2000 https://doi.org/10.1126/science.290.5500.2319
  22. H. Yu, 'Automatically Determining Number of Clusters', Information Retrieval (CMU CS11-741) Final Report, Apr., 5 pp., 1998