한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2003년도 추계학술발표논문집 (상)
- /
- Pages.283-286
- /
- 2003
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
제약된 K-means를 위한 초기 씨드 생성방법
Initial Seed Generation for Constrained K-means
- Seo, Hyang-Suk (Division of Computer Science and Engineering, Pusan National University) ;
- Kang, Jae-Ho (Center for Intelligent & Integrated Port Management Systems, Dong-A University) ;
-
Ryu, Kwang-Ryel
(Division of Computer Science and Engineering, Pusan National University)
- 발행 : 2003.11.14
초록
군집화 시 일반적으로 개별 클래스(class) 혹은 카테고리(category) 당 하나의 군집이 형성되는 결과가 선호된다. 하지만 데이터가 비정형적인 분포를 따르는 경우에는 하나의 군집으로 개별 클래스를 온전히 표현하는 것이 불가능하거나 오히려 부자연스러운 경우가 발생할 수 있다. 본 논문에서는 예제의 클래스를 알고 있는 즉, 레이블(label)된 예제들을 그렇지 않은(unlabeled) 예제들과 함께 활용하여 군집화하는 제약된 K-means (constrained K-means) 알고리즘을 위하여 보다 자연스러운 형태의 군집이 형성될 수 있도록 초기 씨드(seed, 씨앗)를 생성하는 방안을 제안한다. 레이블된 예제들을 계층적으로 군집화하면 다양한 단계에서 제약된 K-means를 위한 씨드집합을 생성할 수 있다. 본 연구에서는 각 단계의 씨드집합을 기반으로 형성된 군집결과간의 변화정도를 측정하여 가장 적절한 것으로 추정되는 씨드집합을 선정하였다. 제안한 방안을 문서 군집화 문제에 적용하여 실험한 결과 개별 클래스마다 하나의 군집을 가정하는 경우보다 더 나은 군집을 형성할 수 있음을 확인하였다.
키워드