순차 패턴 마이닝을 사용한 두 XML 문서간 최대 유사 경로 추출

Extracting Maximal Similar Paths between Two XML Documents using Sequential Pattern Mining

  • 이정원 (이화여자대학교 컴퓨터학과) ;
  • 박승수 (이화여자대학교 컴퓨터학과)
  • 발행 : 2004.10.01

초록

최근 XML 저장 기법, 질의 최적화, 인덱싱 등의 XML 관련 기술이 활발히 연구되고 있다. 이와 관련하여 하나의 DTD나 XML Schema로 정의된 고정 구조를 공유하는 문서 집합이 아니라 다양한 구조를 가진 문서 집합인 경우 다중 문서간의 구조적 유사성이나 차이점 등을 파악할 필요가 있다. 예를 들어 서로 다른 사이트나 문서 관리 시스템에서 도출된 문서들을 합병하거나 분류할 필요가 있을 때, 문서를 처리하기 위해 공유 구조를 발견하는 일은 매우 중요하다. 본 연구에서는 다양한 문서들의 구조를 구성하는 경로들간의 유사성을 파악하기 위해 기존의 순차패턴 마이닝 알고리즘(1)을 변형하여 두 XML 문서간 최대 유사 경로를 추출한다. 몇 가지 실험을 통해 본 논문에서 제안한 변형된 순차패턴 마이닝 알고리즘이 두 문서간의 최대 유사 경로를 찾아내고 또한 두 문서간의 정확한 공유 경로 및 최대 유사 경로를 정확히 찾을 수 있음을 보인다. 또한 실험 결과 분석을 위해 최대 유사 경로를 기반으로 정의된 유사성 척도가 XML 문서를 정확하게 분류할 있음을 보인다.

Some of the current main research areas involving techniques related to XML consist of storing XML documents, optimizing the query, and indexing. As such we may focus on the set of documents that are composed of various structures, but that are not shared with common structure such as the same DTD or XML Schema. In the case, it is essential to analyze structural similarities and differences among many documents. For example, when the documents from the Web or EDMS (Electronic Document Management System) are required to be merged or classified, it is very important to find the common structure for the process of handling documents. In this paper, we transformed sequential pattern mining algorithms(1) to extract maximal similar paths between two XML documents. Experiments with XML documents show that our transformed sequential pattern mining algorithms can exactly find common structures and maximal similar paths between them. For analyzing experimental results, similarity metrics based on maximal similar paths can exactly classify the types of XML documents.

키워드

참고문헌

  1. R. Srikant and R. Agrawal, 'Mining Sequential Patterns: Generalizations and Performance Improvements,' In Proc. of the Fifth Int'l Conf. on Extending Database Technology (EDBT), March 1996
  2. J. Shamungasunadarm, Bridging relational Technology and XML, Dissertation of University of Wisconsin-Medison, 2001
  3. Y. Papakonsstantinou, XML and the Automation of Web Information Processing, Tutorial given at the International Conference on Data Engineering, 1999
  4. C. M. Hoffmann and M. J. O'Donnell, 'Pattern Matching in Trees,' Journal of ACM 29(1), pages 68-95, Jan. 1982 https://doi.org/10.1145/322290.322295
  5. P. Kilpelainen and H. Mannila, 'The Tree Inclusion Problem,' In Proc. the International Joint Conference on the Theory and Practice of Software Development (TAPSOFT' 91), Vol. 1: Colloqium on Trees in Algebra and Programming (CAAP , 91), pages 202-214, 1991
  6. K. Wang and H. Liu, 'Discovering Typical Structures of Documents: a Road Map Approach,' In Proc. of SIGIR, pages 146-154, 1998 https://doi.org/10.1145/290941.290982
  7. I. D. Baxter, A. Yahin, L. Moura, M. Sant' Anna, and L. Bier, 'Clone Detection using Abstract Syntax Tree,' In Proc. of the ICSM' 98, Nov. 1998 https://doi.org/10.1109/ICSM.1998.738528
  8. 장성순, 서선애, 이광근, '프로그램 유사성 검사기' 제28회 한국정보과학회 추계학술대회 논문집, pages 334-336, 2001
  9. R. Agrawal, R. Srikant, 'Fast Algorithms for Mining Association Rules,' In Proc. of the 20th Int'l Conference on Very Large Databases, 1994
  10. A. V. Aho, R. Sethi, and J. D. Ullman, Compilers : Principles, Techniques, and Tools, Addison-Wesley, 1986
  11. J. W. Lee, K. Lee, and W. Kim, 'Preparations for Semantics-based XML Mining,' In Proc. of IEEE International Conference on Data Mining (ICDM '01), pages 345-352, Nov./Dec. 2001
  12. C.Fellbaum, WordNet : An Electronic Lexical Database, Cambridge: MIT Press. 1998
  13. Jtidy, http://jtidy.sourceforge.net