데이터 형태에 적응하는 클러스터링 알고리즘

Data Clustering Algorithm Adaptive to Data Forms

  • 이기호 (홍익대학교 전자계산학과) ;
  • 이기철 (홍익대학교 전자계산학과)
  • Lee, K.H. (Dept. of Computer Science, Hong-Ik University) ;
  • Lee, K.C. (Dept. of Computer Science, Hong-Ik University)
  • 발행 : 2000.10.13

초록

클러스터링에 있어서 k-means[7], DBSCAN[2], CURE[4], ROCK[5], PAM[8], 같은 기존의 알고리즘은 원형이나 타원형 등의 어느 고정된 모양에 의해 클러스터를 결정한다. 만약 클러스터 하려는 데이터의 분포가 우연히 알고리즘의 결정된 모양과 일치하면 정확한 해를 얻을 수 있다. 하지만 자연적인 데이터의 분포에서는 발생하기 어렵다. 데이터의 형태를 추적하여 이러한 문제점을 해결한 CHAMELEON[1] 알고리즘이 최근에 발표되었다. 하지만 모양에는 독립적이나 데이터의 양이 증가함에 따라 소요되는 시간이 폭발적으로 증가한다. 이것은 기존의 마이닝 데이터들이 대용량이라는 것을 고려하면 현실에 적용하기 힘든 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 K-means[7]]를 이용한 대표를 선출하는 방법으로 CHAMELEON[1]의 문제점 개선(EF-CHAMELEON)을 시도하였으며 여러 자연적인 형태의 도형들은 아주 작은 원형들의 집합으로 구성 될 수 있다는 생각을 기본으로 잡음에 영향을 받지 않을 정도로 아주 작은 초기 다수의 소형 클러스터를 K-mean을 이용하여 구성하고 이를 다시 크러스터간의 상대적인 거리를 이용하여 다시 머지 하는 방법으로 모양에 의존적인 문제를 해결하며 비교사 학습(unsupervised learning)에 충실하기 위해 임계값을 적용 적정 단계에서 알고리즘을 멈추게 한 ADF 알고리즘을 소개한다. 실험 데이터는 기존의 여러 클러스터링 알고리즘이 판별 할 수 없었던 다양한 모양을 가지고있는 2차원 배열을 사용하여 ADF. CHAMELEON[1], EF-CHAMELEON,의 성능을 비교하였다.

키워드