제약된 K-means를 위한 초기 씨드 생성방법

Initial Seed Generation for Constrained K-means

  • 서향숙 (부산대학교 정보컴퓨터공학부) ;
  • 강재호 (동아대학교 지능형 통합항만관리연구센터) ;
  • 류광렬 (부산대학교 정보컴퓨터공학부)
  • Seo, Hyang-Suk (Division of Computer Science and Engineering, Pusan National University) ;
  • Kang, Jae-Ho (Center for Intelligent & Integrated Port Management Systems, Dong-A University) ;
  • Ryu, Kwang-Ryel (Division of Computer Science and Engineering, Pusan National University)
  • 발행 : 2003.11.14

초록

군집화 시 일반적으로 개별 클래스(class) 혹은 카테고리(category) 당 하나의 군집이 형성되는 결과가 선호된다. 하지만 데이터가 비정형적인 분포를 따르는 경우에는 하나의 군집으로 개별 클래스를 온전히 표현하는 것이 불가능하거나 오히려 부자연스러운 경우가 발생할 수 있다. 본 논문에서는 예제의 클래스를 알고 있는 즉, 레이블(label)된 예제들을 그렇지 않은(unlabeled) 예제들과 함께 활용하여 군집화하는 제약된 K-means (constrained K-means) 알고리즘을 위하여 보다 자연스러운 형태의 군집이 형성될 수 있도록 초기 씨드(seed, 씨앗)를 생성하는 방안을 제안한다. 레이블된 예제들을 계층적으로 군집화하면 다양한 단계에서 제약된 K-means를 위한 씨드집합을 생성할 수 있다. 본 연구에서는 각 단계의 씨드집합을 기반으로 형성된 군집결과간의 변화정도를 측정하여 가장 적절한 것으로 추정되는 씨드집합을 선정하였다. 제안한 방안을 문서 군집화 문제에 적용하여 실험한 결과 개별 클래스마다 하나의 군집을 가정하는 경우보다 더 나은 군집을 형성할 수 있음을 확인하였다.

키워드