Systematic Determination of Number of Clusters Based on Input Representation Coverage

클러스터 분석을 위한 IRC기반 클러스터 개수 자동 결정 방법

  • 신미영 (한국전자통신연구원 바이오정보연구팀)
  • Published : 2004.11.01

Abstract

One of the significant issues in cluster analysis is to identify a proper number of clusters hidden under given data. In this paper we propose a novel approach to systematically determine the number of clusters based on Input Representation Coverage (IRC), which is newly defined as a quantified value of how well original input data in Gaussian feature space can be captured with a certain number of clusters. Furthermore, its usability and applicability is also investigated via experiments with synthetic data. Our experiment results show that the proposed approach is quite useful in approximately finding the real number of clusters implicitly contained in the data.

클러스터 분석에 있어 중요한 문제 중의 하나는 주어진 데이터에 내재된 적절한 클러스터의 수를 찾아내는 것이다. 본 논문에서는 이러한 클러스터의 개수를 체계적으로 결정하기 위하여 IRC (Input Representation Coverage) 개념을 새로이 정의하고, 이를 이용하여 주어진 데이터에 적합한 클러스터의 개수를 자동 결정하는 방법을 제시한다. 또한, 이러한 방법의 유용성 및 응용성을 알아보기 위하여 가상 데이터를 가지고 분석 실험을 하였으며, 실험을 통해 데이터에 내재된 실제 클러스터의 개수를 찾아내는 데에 제안된 방법이 매우 유용하게 사용될 수 있음을 보여준다.

Keywords

References

  1. A. K. Jain, M. N. Murty and P. J. Flynn, 'Data clustering: a review', ACM computing Surveys. vol. 31, no. 3, September 1999 https://doi.org/10.1145/331499.331504
  2. P. Berkhin, 'Survey of Clustering Data Mining Techniques', Accrue Software, Inc, 2002
  3. Golub, G.H. and Van Loan, C.F., Matrix Computation (3rd edition), The Johns Hopkins University Press (1996)
  4. D.C. Lay, Linear Algebra and Its Applicastions, Addison Wesley Longman, Inc., 2nd edition, 1997
  5. J. Quackenbush, 'Computational Analysis of Microarray Data', Nature Reviews Genetics, vol. 2, 418-422, June 2001 https://doi.org/10.1038/35076576
  6. K. Y. Yeung, et al., 'Validating clustering for gene expression data,' Bioinformatics, vol. 17, no. 4, pp. 309-318, 2001 https://doi.org/10.1093/bioinformatics/17.4.309