비트벡터에 기반한 XML 문서 군집화 기법

XML Documents Clustering Technique Based on Bit Vector

  • 김우생 (광운대학교 컴퓨터소프트웨어학과)
  • 투고 : 2010.04.05
  • 발행 : 2010.09.25

초록

XML은 점점 데이터 교환과 정보 관리에서 중요하게 여겨진다. 따라서 XML 문서들을 접근, 질의, 저장하는 효율적인 방법들을 개발하기 위한 많은 노력이 진행되고 있다. 본 논문은 XML 문서들을 효율적으로 군집화 하는 새로운 기법을 제안한다. XML 문서를 군집화하기 위해 문서를 대표하는 비트 벡터를 제안한다. 두 XML 문서의 유사도는 대응하는 두 비트 벡터간의 bit-wise AND 연산에 의해서 측정된다. 실험 결과 XML 문서의 특징으로 비트 벡터가 사용되었을 때 군집화가 제대로 그리고 효율적으로 형성됨을 알 수 있다.

XML is increasingly important in data exchange and information management. A large amount of efforts have been spent in developing efficient techniques for accessing, querying, and storing XML documents. In this paper, we propose a new method to cluster XML documents efficiently. A bit vector which represents a XML document is proposed to cluster the XML documents. The similarity between two XML documents is measured by a bit-wise AND operation between two corresponding bit vectors. The experiment shows that the clusters are formed well and efficiently when a bit vector is used for the feature of a XML document.

키워드

참고문헌

  1. R. Behrens, "A Grammar based model for XML schema integration" Proc. of the 17th British National Conf. on Databases, pp.172-190, 2000.
  2. A. Doucet, H. Ahonen-Myka, "Naive clustering of a large XML document collection" Proc. 1st Annual Workshop of the Initiative for the Evaluation of XML retrieval(INEX), Germany, pp.81-88, 2002.
  3. J. Yoon, V. Raghavan, V. Chakilam, "BitCube: clustering and statistical analysis for XML documents": Proc. of the 13th Int. Conf. on Scientific and Statistical Database Management, Fairfax, Virginia, 2001.
  4. J. Yoon, V. Raghavan, V. Chakilam, L. Kerschberg, "BitCube: a 3-D bitmap indexing for XML documents" Journal of Intelligent Information Systems, Vol. 17, pp.241-254, 2001. https://doi.org/10.1023/A:1012861931139
  5. A. Tagarelli, A. Greco, "Toward semantic XML clustering" 6th SIAM International Conference on Data Mining(SDM '06), pp. 188-199. Bethesda, Maryland, USA, 2006.
  6. H. Lee, "An Unsupervised clustering technique of XML documents based on function transform and FFT" Journal of Korea Information Processing Society, 2007.
  7. J. Liu, T. Jason, L. Wang, W. Hsu, K.G. Herbert, "XML clustering by principal component analysis" Proc. of the 26th IEEE International Conference on Tools with Artificial Intelligence, 2004.
  8. 황정희, 류근호 "유사 구조 기반 XML 문서의 점진적 클러스터링" 정보과학회 논문지-데이터베이스 제 31권 제 6호, 2004. 12
  9. Niagara Query Engine, http://www.cs.wisc.edu/niagara/data.html