K-means Clustering Method according to Documentation Numbers

문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링

  • 조시성 (정인대학 컴퓨터정보학과) ;
  • 안동언 (정인대학 컴퓨터정보학과) ;
  • 정성종 (정인대학 컴퓨터정보학과) ;
  • 이신원 (전북대학교 컴퓨터공학과)
  • Published : 2003.07.01

Abstract

본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다. 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)을 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

Keywords