K-means clustering using a center of gravity for grid-based sample

그리드 기반 표본의 무게중심을 이용한 케이-평균군집화

  • Published : 2010.01.31

Abstract

K-means clustering is an iterative algorithm in which items are moved among sets of clusters until the desired set is reached. K-means clustering has been widely used in many applications, such as market research, pattern analysis or recognition, image processing, etc. It can identify dense and sparse regions among data attributes or object attributes. But k-means algorithm requires many hours to get k clusters that we want, because it is more primitive, explorative. In this paper we propose a new method of k-means clustering using a center of gravity for grid-based sample. It is more fast than any traditional clustering method and maintains its accuracy.

케이-평균 군집분석은 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대푯값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다. 이러한 케이-평균 군집분석은 시장조사, 패턴분석 및 인식, 그리고 이미지 처리 분야 등에서 폭넓게 응용되고 있다. 그러나 대용량의 데이터베이스를 분석대상으로 하므로 그 만큼 데이터 처리 시간이 많이 소요되는 것이 문제 중의 하나이다. 특히 웹이 보편화된 현재 사용자들의 다양한 패턴을 분석하기 위한 데이터 마이닝 방법이 사용되어지고 있는데 처리 속도 문제는 더욱 중요하게 생각하고 있다. 이러한 속도 문제를 해결하기 위해 본 논문에서는 분할 군집법에서 가장 일반적으로 사용되고 있는 케이-평균 알고리즘에 대해 그리드를 기반으로 한 무게중심 알고리즘을 제안하고자 한다.

Keywords

References

  1. 박희창, 유지현, 이성용 (2003). 그리드 기반 샘플링에 의한 클러스트링 알고리즘. <한국데이터정보과학회지>, 14, 535-543.
  2. 박희창, 조광현 (2005). K-평균 군집방법을 이용한 환경조사자료의 모형화. <한국데이터정보과학회지>, 16, 557-566.
  3. Chu, S. C., Roddick, J. F. and Pan, J. S. (2002a). Efficient k-medoids algorithms using multi-centroids with multi-runs sampling scheme. Proceedings of International Workshop on Mining Data across Multiple Customer Touchpoints for CRM, 14-25.
  4. Chu, S. C., Roddick, J. F. and Pan, J. S. (2002b). An incremental multi-centroid, multi-run sampling scheme for k-medoids-based algorithms-extended report. Proceedings of The Third International Conference on Data Mining Methods and Databases, 553-562.
  5. Huang, Z. (1997a). Clustering large data sets with mixed numeric and categorical values. Proceedings of The First Pacific-Asia Conference on Knowledge Discovery and Data Mining, 21-34.
  6. Huang, Z. (1997b). A fast clustering algorithm to cluster very large categorical data sets in data mining. Proceedings of ACM SIGMOD Workshop on Data Mining and Knowledge Discovery, 146-151.
  7. Kaufman, L. and Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis, John Wiley and Sons.
  8. Kim, D. W. and Chae, Y. G. (2005). More efficient k-modes clustering algorithm. Journal of the Korean Data and Information Science Society, 16, 549-556.
  9. MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, 281-297.
  10. Ng, R. and Han, J. (1994). Efficient and effective clustering method for spatial data mining. Proceedings of International Conference of Very Large Data Bases, 144-155.
  11. Park, H. C. and Lee, S. M. (2005). K-means clustering using grid-based representatives. Journal of the Korean Data and Information Science Society, 16, 759-768.