A Hybrid Clustering Technique for Processing Large Data

Kim, Man-Sun;Lee, Sang-Yong;

doi:10.3745/KIPSTB.2003.10B.1.033

The KIPS Transactions:PartB (정보처리학회논문지B)

Volume 10B Issue 1
/
Pages.33-40
/
2003
/
1598-284X(pISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

A Hybrid Clustering Technique for Processing Large Data

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

김만선 (공주대학교 대학원 컴퓨터공학과) ;
이상용 (공주대학교 정보통신공학부)

Published : 2003.02.01

https://doi.org/10.3745/KIPSTB.2003.10B.1.033 Citation PDF KSCI

Download PDF

⟨ Previous Next ⟩

Abstract

Data mining plays an important role in a knowledge discovery process and various algorithms of data mining can be selected for the specific purpose. Most of traditional hierachical clustering methode are suitable for processing small data sets, so they difficulties in handling large data sets because of limited resources and insufficient efficiency. In this study we propose a hybrid neural networks clustering technique, called PPC for Pre-Post Clustering that can be applied to large data sets and find unknown patterns. PPC combinds an artificial intelligence method, SOM and a statistical method, hierarchical clustering technique, and clusters data through two processes. In pre-clustering process, PPC digests large data sets using SOM. Then in post-clustering, PPC measures Similarity values according to cohesive distances which show inner features, and adjacent distances which show external distances between clusters. At last PPC clusters large data sets using the simularity values. Experiment with UCI repository data showed that PPC had better cohensive values than the other clustering techniques.

데이터 마이닝은 지식발견 과정에서 중요한 역할을 수행하며, 여러 데이터 마이닝의 알고리즘들은 특정의 목적을 위하여 선택될 수 있다. 대부분의 전통적인 계층적 클러스터링 방법은 적은 양의 데이터 집합을 처리하는데 적합하여 제한된 리소스와 부족한 효율성으로 인하여 대용량의 데이터 집합을 다루기가 곤란하다. 본 연구에서는 대용량의 데이터에 적용되어 알려지지 않은 패턴을 발견할 수 있는 하이브리드형 신경망 클러스터링 기법의 PPC(Pre-Post Clustrering) 기법을 제안한다. PPC 기법은 인공지능적 방법인 자기조직화지도(SOM)와 통계적 방법인 계층적 클러스터링을 결합하여 두 과정에서는 군집의 내부적 특징을 나타내는 응집거리와 군집간의 외부적 거리를 나타내는 인접거리에 따라 유사도를 측정한다. 최종적으로 PPC 기법은 측정된 유사도를 이용하여 대용량 데이터 집합을 군집화한다. PPC 기법은 UCI Repository 데이터를 이용하여 실험해 본 결과, 다른 클러스터링 기법들 보다 우수한 응집도를 보였다.

Keywords

References

장미희, 이혜영, '고차원 데이터에서 2차원 프로젝션을 이용한 클러스터링', 정보과학회 추계학술대회, 2001
Tian Zhang, Raghu Ramakrishnan, and Miron, 'Birch : an efficient data clustering method for very large database,' the ACM SIGMOD Conference on Management of Data, Montreal, Canada, June, 1996 https://doi.org/10.1145/233269.233324
Richard. Pyle, Duda and Peter E. Hart, 'Pattern Classfication and Scene Analysis,' A Wiley-Interscience Publication, New York, 1973
Berry, Linoff, 'Data Mining Techniques for Market, Sales, and Customer Support,' Jone Wiley & Sons, 1997
http://www.cis.hut.fi/sami/mipapers/bioinformatics.shtml
Kohonen, Teuvo, 'The self-organizing map,' Neurocomputing, Vol.21, pp.1-6, 1998 https://doi.org/10.1016/S0925-2312(98)00030-7
김대수, 신경망 이론과 응용(I), 하이테크정보, 1992
K. C. Gowda, E. Diday, 'Symbolic Clustering Using a Similarity Measure,' IEEE Trans on System, Man, and Cybernetics, Vol.22, No.2, p.341, 1992 https://doi.org/10.1109/21.148412
Sudipto Guha, Rajeev Rastogi and Kyuseok Shim, 'CURE : An Efficient Clustering Algorithm for Large Databases,' the ACM SIGMOD Conference on Management of Data, Seattle, Washington, June, 1998 https://doi.org/10.1145/276304.276312
Tian Zhang, Raghu Ramakrishnan, and Miron, 'Birch: A New Data Clustering Algotithm and Applications,' Data ?Mining and Knowledge Discovery, 1, pp.141-182, 1997 https://doi.org/10.1023/A:1009783824328
http://user.chollian.net/~leesc12/lecture/start/tcomplex.htm
http//www.ics.uci.edu/~mlearn/MLRepository.html

The KIPS Transactions:PartB (정보처리학회논문지B)

A Hybrid Clustering Technique for Processing Large Data

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

Abstract

Keywords

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)