범주형 데이터 집합에 대한 엔트로피 기반 군집 유효화 기술

Entropy-based Clustering Validation Technique for Categorical Data Sets

  • 박남현 (광주과학기술원 정보통신공학과) ;
  • 안창욱 (광주과학기술원 정보통신공학과) ;
  • Park Namhyun (Dept. of Information Communication, Gwangju Institute of Science and Technology) ;
  • Ahn Chang Wook (Dept. of Information Communication, Gwangju Institute of Science and Technology) ;
  • Ramakrishna R.S. (Dept. of Information Communication, Gwangju Institute of Science and Technology)
  • 발행 : 2004.11.01

초록

본 논문에서는 고차원의 특성을 가진 범주형 데이터 집합의 군집 유효화 기술에 대하여 알아본다. 먼저, 범주형 데이터 집합에 대하여 한 군집의 센트로이드를 정의함에 따라 일반적인 군집화 방법에서 사용되는 쌍 유사성 측정을 가능하게 한다. 다음으로, 범주형 데이터 집합에 대한 증분 군집 알고리즘을 통하여 도출된 결과에 대해 최적 군집 수의 결정하기 위하여 엔트로피 기반 군집 유효화 지수를 사용한다. 이를 통하여 일반적인 군집 알고리즘에서 최적 결과를 얻기 위해 필요한 문턱값 결정 문제를 손쉽게 해결한다. 마지막으로, 위의 개념들을 여러 데이터 집합에 대해 실험한다.

키워드