DOI QR코드

DOI QR Code

개선된 밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병

Cluster Merging Using Enhanced Density based Fuzzy C-Means Clustering Algorithm

  • 발행 : 2004.08.01

초록

1960년대 퍼지 이론이 소개된 이후 데이터 마이닝을 포함한 기계 학습 분야의 군집화 작업에서 퍼지 이론이 폭넓게 사용되었다. 퍼지 C-평균 알고리즘은 가장 많이 사용되는 퍼지 군집화 알고리즘이다. 이 알고리즘은 하나의 데이터 개체가 서로 다른 소속 정도를 가지고 각 군집에 할당될 수 있도록 한다. 퍼지 C-평균 알고리즘도 K-평균 알고리즘과 같은 일반적인 군집화 알고리즘과 마찬가지로 초기 군집수와 군집 중심의 위치에 의해 최종 군집 결과의 성능 차이가 나타난다. 군집화를 위한 이러한 초기 설정은 주관적이며 이 때문에 적절치 못한 결과를 얻게 될 수도 있다. 본 논문에서는 이 문제를 해결할 수 있는 방법으로 주어진 학습 데이터의 속성을 기반으로 한 초기 군집수와 군집 중심을 결정하는 개선된 밀도 기반의 퍼지 C-평균 알고리즘을 제안하였다. 제안 방법은 격자를 사용하여 초기 군집 중심의 위치와 군집수를 결정하였다. 기존에 많이 이용되었던 객관적인 기계 학습 데이터를 이용하여 제안 알고리즘의 성능비교를 수행하였다.

The fuzzy set theory has been wide used in clustering of machine learning with data mining since fuzzy theory has been introduced in 1960s. In particular, fuzzy C-means algorithm is a popular fuzzy clustering algorithm up to date. An element is assigned to any cluster with each membership value using fuzzy C-means algorithm. This algorithm is affected from the location of initial cluster center and the proper cluster size like a general clustering algorithm as K-means algorithm. This setting up for initial clustering is subjective. So, we get improper results according to circumstances. In this paper, we propose a cluster merging using enhanced density based fuzzy C-means clustering algorithm for solving this problem. Our algorithm determines initial cluster size and center using the properties of training data. Proposed algorithm uses grid for deciding initial cluster center and size. For experiments, objective machine learning data are used for performance comparison between our algorithm and others.

키워드

참고문헌

  1. A. Hinneburg, D. A. Keim, "An Efficient Approach to Clustering in Large Multimedia Databases with Noise", KDD'98, New York, 1998.
  2. U. Kaymak, M. Setnes, "Fuzzy Clustering With Volume Prototypes and Adaptive Cluster Margin", IEEE Transactions on Fuzzy Systems, Vol. 10, No. 6, 2002.
  3. J. C. Bezdek, "Pattern Recognition with Fuzzy Objective Function Algorithms", Plenum Press, 1987.
  4. J. Han, M. Kamber, "Data Mining: Concepts and Techniques", Morgan Kaufmann Publishers, 2001.
  5. H. J. Zimmermann "Fuzzy Set Theory and Its Applications", Kluwer Academic Publishers. 2001.
  6. M. C. Hung, D. L. Yang, "An Efficient Fuzzy C-Means Clustering Algorithm", IEEE International Conference on Data Mining, pp. 225-232, 2001.
  7. M. S. Yang, K. L. Wu, "A New Validity Index For Fuzzy Clustering", IEEE International Conference on Fuzzy Systems, vol. 1, pp. 89-92, 2001.
  8. 한진우, 전성해, 오경환, "밀도 기반의 퍼지 C-Means 알고리즘을 이용한 클러스터 합병", 한국정보과학회 춘계학술대회 발표논문집, 2003.
  9. M. Halkidi, Y. Batistakis, M. Vazirgiannis, "Clustering Validity Checking Method: Part II", ACM SIGMOD Record archive Vol. 31, Issue 3, 2002.
  10. D. Dubois, H. Prade, "A Unifying View of Comparison Indices in a Fuzzy Set-Theoretic Framework", Fuzzy Sets and Possibility Theory: Recent Developments, 1982.
  11. B. Kosko, "Neural Networks and Fuzzy Systems", Prentice-Hall, 1992.
  12. X. L. Xie, G. Beni, "A Validity Measure for Fuzzy Clustering", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.13, No.4, pp. 841-847, 1991. https://doi.org/10.1109/34.85677
  13. Y. Fukuyama, M. Sugeno, "A New Method of Choosing the Number of Clustering for the Fuzzy C-Means Method", Fuzzy Systems Symposium. 1989.
  14. http://www.ics.uci.edu/~mlearn

피인용 문헌

  1. A Systematic Approach to Improve Fuzzy C-Mean Method based on Genetic Algorithm vol.13, pp.3, 2013, https://doi.org/10.5391/IJFIS.2013.13.3.178