DOI QR코드

DOI QR Code

연속형 자료에 대한 나무형 군집화

Tree-structured Clustering for Continuous Data

  • Huh Myung-Hoe (Dept. of Statistics, Korea University) ;
  • Yang Kyung-Sook (Brain Korea 21 The Education and Research Group for Korea Studies, Korea University)
  • 발행 : 2005.11.01

초록

본 연구는 반복분할(recursive partitioning)에 의한 군집화 방법을 개발하고 활용 예를 보인다. 노드 분리 기준으로는 Overall R-Square를 채택하였고 실용적인 노드 분리 결정 방법을 제안하였다. 이 방법은 연속형 자료에 대하여 나무 형태의 해석하기 쉬운 단순한 규칙을 제공하면서 동시에 변수선택기능을 제공한다. 환용 예로서 Fisher의 붓꽃데이터와 Telecom 사례에 적용해 보았다. K-평균 군집화와 다른 몇 가지 사항이 관측되었다.

The aim of this study is to propose a clustering method, called tree-structured clustering, by recursively partitioning continuous multivariate dat a based on overall $R^2$ criterion with a practical node-splitting decision rule. The clustering method produces easily interpretable clustering rules of tree types with the variable selection function. In numerical examples (Fisher's iris data and a Telecom case), we note several differences between tree-structured clustering and K-means clustering.

키워드

참고문헌

  1. 강현철, 한상태, 최종후 (2000). 의사결정나무를 활용한 데이터마이닝 예측모형 해석, <한국통계학회 학술발표회 논문집>, 2000년 춘계. 39-44
  2. 최대우, 구자용, 최용석 (2004). 배경자료를 이용한 나무군집의 군집분석, <응용통계연구>, 17, 535-545
  3. Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J. (1984). Classification and Regression Trees, Wadsworth, CA: Belmont
  4. DeSarbo, W.S., Carrol, J.D., and Clark, L.A., and Green, P.E. (1984). Synthesized clustering: A method for amalgamating alternative clustering bases with differential weighting of variables, Psychometrika, 49, 57-78 https://doi.org/10.1007/BF02294206
  5. Kass, G. (1980). An exploratory technique for investigating large quantities of categorical data, Applied Statistics, 29, 119-219 https://doi.org/10.2307/2986296
  6. Liu, B., Xia, Y. and Yu, P.S. (2000). Clustering through decision tree construction, IBM Research Report RC21695
  7. Makarenkov, V. and Legendre, P. (2001). Optimal variable weighting for ultrametric and additive trees and k-means partitioning: methods and software, Journal of Classification, 18. 245-271
  8. Quinlan, J.R. (1993). C4.5 Programs for Machine Learning, Morgan Kaufmann, CA: San Mateo