Browse > Article
http://dx.doi.org/10.3745/KIPSTD.2011.18D.5.339

XML Document Clustering Technique by K-means algorithm through PCA  

Kim, Woo-Saeng (광운대학교 컴퓨터공학부)
Abstract
Recently, researches are studied in developing efficient techniques for accessing, querying, and storing XML documents which are frequently used in the Internet. In this paper, we propose a new method to cluster XML documents efficiently. We use a K-means algorithm with a Principal Component Analysis(PCA) to cluster XML documents after they are represented by vectors in the feature vector space by transferring them as names and levels of the elements of the corresponding trees. The experiment shows that our proposed method has a good result.
Keywords
XML Clustering; K-means algorithm; PCA;
Citations & Related Records
Times Cited By KSCI : 6  (Citation Analysis)
연도 인용수 순위
1 Gonzalez R.C., Woods R.E., "Digital Image Processing, Prentice-Hall, 2007.
2 오일석, 패턴인식, 교보문고, 2008.
3 Niagara Query Engine, http://www.cs.wisc.edu/niagara/ data.html
4 이정원, 이기호, "유사성 기반 XML 문서 분석 기법", 정보과학회 논문지: 소프트웨어 및 응용 제 29권 제 5-6호, 2002. 6.
5 황정희, 류근호,"XML 문서의 공통 구조를 이용한 클러스터링 기법", 정보과학회논문지 D: 데이타베이스 제 32권 제 6호, 2005. 12.
6 황정희, "클러스터의 주요항목 가중치 기반 XML 문서 클러스터링", 한국정보처리학회 논문지 D- 데이터베이스, 2007.
7 김우생, "비트벡터에 기반한 XML 군집화 기법", 대한전자공학 회 논문지, 2010. 9.
8 이호석, "함수 변환과 FFT에 기반한 조정자가 없는 XML 문서 클러스터링 기법", 한국정보처리학회 논문지 D-, 2007.
9 Yoon, J., Raghavan, "BitCube: Clustering and Statistical Analysis for XML Documents", Journal of Intelligent Information Systems, Vol.17, 2001.