DOI QR코드

DOI QR Code

A Hybrid Clustering Technique for Processing Large Data

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

  • 김만선 (공주대학교 대학원 컴퓨터공학과) ;
  • 이상용 (공주대학교 정보통신공학부)
  • Published : 2003.02.01

Abstract

Data mining plays an important role in a knowledge discovery process and various algorithms of data mining can be selected for the specific purpose. Most of traditional hierachical clustering methode are suitable for processing small data sets, so they difficulties in handling large data sets because of limited resources and insufficient efficiency. In this study we propose a hybrid neural networks clustering technique, called PPC for Pre-Post Clustering that can be applied to large data sets and find unknown patterns. PPC combinds an artificial intelligence method, SOM and a statistical method, hierarchical clustering technique, and clusters data through two processes. In pre-clustering process, PPC digests large data sets using SOM. Then in post-clustering, PPC measures Similarity values according to cohesive distances which show inner features, and adjacent distances which show external distances between clusters. At last PPC clusters large data sets using the simularity values. Experiment with UCI repository data showed that PPC had better cohensive values than the other clustering techniques.

데이터 마이닝은 지식발견 과정에서 중요한 역할을 수행하며, 여러 데이터 마이닝의 알고리즘들은 특정의 목적을 위하여 선택될 수 있다. 대부분의 전통적인 계층적 클러스터링 방법은 적은 양의 데이터 집합을 처리하는데 적합하여 제한된 리소스와 부족한 효율성으로 인하여 대용량의 데이터 집합을 다루기가 곤란하다. 본 연구에서는 대용량의 데이터에 적용되어 알려지지 않은 패턴을 발견할 수 있는 하이브리드형 신경망 클러스터링 기법의 PPC(Pre-Post Clustrering) 기법을 제안한다. PPC 기법은 인공지능적 방법인 자기조직화지도(SOM)와 통계적 방법인 계층적 클러스터링을 결합하여 두 과정에서는 군집의 내부적 특징을 나타내는 응집거리와 군집간의 외부적 거리를 나타내는 인접거리에 따라 유사도를 측정한다. 최종적으로 PPC 기법은 측정된 유사도를 이용하여 대용량 데이터 집합을 군집화한다. PPC 기법은 UCI Repository 데이터를 이용하여 실험해 본 결과, 다른 클러스터링 기법들 보다 우수한 응집도를 보였다.

Keywords

References

  1. 장미희, 이혜영, '고차원 데이터에서 2차원 프로젝션을 이용한 클러스터링', 정보과학회 추계학술대회, 2001
  2. Tian Zhang, Raghu Ramakrishnan, and Miron, 'Birch : an efficient data clustering method for very large database,' the ACM SIGMOD Conference on Management of Data, Montreal, Canada, June, 1996 https://doi.org/10.1145/233269.233324
  3. Richard. Pyle, Duda and Peter E. Hart, 'Pattern Classfication and Scene Analysis,' A Wiley-Interscience Publication, New York, 1973
  4. Berry, Linoff, 'Data Mining Techniques for Market, Sales, and Customer Support,' Jone Wiley & Sons, 1997
  5. http://www.cis.hut.fi/sami/mipapers/bioinformatics.shtml
  6. Kohonen, Teuvo, 'The self-organizing map,' Neurocomputing, Vol.21, pp.1-6, 1998 https://doi.org/10.1016/S0925-2312(98)00030-7
  7. 김대수, 신경망 이론과 응용(I), 하이테크정보, 1992
  8. K. C. Gowda, E. Diday, 'Symbolic Clustering Using a Similarity Measure,' IEEE Trans on System, Man, and Cybernetics, Vol.22, No.2, p.341, 1992 https://doi.org/10.1109/21.148412
  9. Sudipto Guha, Rajeev Rastogi and Kyuseok Shim, 'CURE : An Efficient Clustering Algorithm for Large Databases,' the ACM SIGMOD Conference on Management of Data, Seattle, Washington, June, 1998 https://doi.org/10.1145/276304.276312
  10. Tian Zhang, Raghu Ramakrishnan, and Miron, 'Birch: A New Data Clustering Algotithm and Applications,' Data ?Mining and Knowledge Discovery, 1, pp.141-182, 1997 https://doi.org/10.1023/A:1009783824328
  11. http://user.chollian.net/~leesc12/lecture/start/tcomplex.htm
  12. http//www.ics.uci.edu/~mlearn/MLRepository.html