Taxonomy of XML Document Types

XML 문서 타입의 분류

  • 이정원 (이화여자대학교 컴퓨터학과) ;
  • 박승수 (이화여자대학교 컴퓨터학과)
  • Published : 2005.04.01

Abstract

oping and applying XML techniques. One key aspect of our taxonomy is the support of the credibility of the result by evaluating which XML document types can be processed by a method. Another key aspect is to provide a basis for determining which is the best for target XML document types. Application with preparations for XML document mining shows that our taxonomy may present XML document types to be able to consider during the preparation process and target XML document types to be used for experiments.

XML이 가지는 표현의 유연성은 정보검색, 문서관리, 데이타 마이닝 둥의 분야에 커다란 영향을 미치고 있다. 그러나 새로운 XML 관련 기술들이 XML 문서의 특성을 체계적으로 파악하지 않고 일부 특성만을 다룰 수 있도록 개발되어 다른 타입의 XML 문서를 적용하면 성능 저하를 가져오기도 한다. 따라서 우수한 결과를 내는 방법론이라 하더라도 그 결과에 대한 신빙성을 뒷받침할 만한 척도가 미비한 실정이며 개발된 다양한 방법론을 응용 분야나 문서집합의 특성에 따라 적절하게 선택할 수 있는 기준도 모호하다. 본 논문에서는 XML이 가지는 특성을 토대로 크게 요소(element), 구조, 그리고 데이타를 중심으로 분류한 XML 문서 타입의 분류 체계(taxonomy)를 제안하고자 한다. 체계적인 XML 문서 타입의 분류체계는 새로 개발된 XML 기술들이 어떠한 XML 문서 타입을 처리 할 수 있는지를 평가할 수 있게 함으로써 결과의 신빙성을 증진시킬 수 있다. 또한 대상 XML 문서를 분류 체계에 의거하여 처리 가능한 타입들을 제시함으로써 응용 분야에 적합한 XML 기술을 선택할 수 있는 기초론 제공한다. 제안된 분류 체계를 토대로 XML 문서 마이닝에 적용해 본 결과 전처리(preparations) 과정에서 고려할 수 있는 XML 문서 타입을 밝혀내고 실험 선정 대상 문서의 타입을 제시할 수 있었다.

Keywords

References

  1. World Wide Web Consortium, 'Extensible Markup Language(XML) 1.0 (2nd Edition),' W3C Recommendation, Oct. 2000.(http://www.w3c.org/TR/REC-xml)
  2. Makoto Murata, Dongwon Lee, and Murali Mani, 'Taxonomy of XML Schema Languages using Formal Language Theory,' Extreme Markup Languages, Montreal, Canada, August. 2001
  3. Gyeong-Ja Jang and Kiho Lee, 'XML-QL to SQL Translator for Processing XML Data,' Journal of KISS(Korean Information Science and Society), Vol. 8(1) , Feb. 2002
  4. Dongwon Lee, and Wesley W. Chu, 'Comparative Analysis of Six XML Schema Languages,' SIGMOD Record 29(3), pages 76-87, 2000 https://doi.org/10.1145/362084.362140
  5. Angela Bonifati, and Stefano Ceri, 'Comparative Analysis of Five XML Query Languages,' SIGMOD Record 29(1), pages 68-79, 2000 https://doi.org/10.1145/344788.344822
  6. R. Goldman and J. Widom, 'DataGuides : Enabling Query Formulation and Optimization in Semistructured Databases,' proc. of the 23rd International Conference on Very Large Data Bases, pages 436-445, Athens, Greece, August 1997
  7. Murata Makoto, 'Hedge automata : a formal model for XML schemata,' http://xml.coverpages.org/hedgeAutomata.html
  8. S. Abiteboul, P. Buneman, and D. Suciu, Data on the Web : from relations to semistructured data and XML, Morgan-Kaufmann, 2000
  9. E. Horowitz, S. Shani, and D. Mehta, Fundamentals of Data Structures in C++, Computer Science Press, 1995
  10. P. Kilpelainen and H. Mannila, 'The Tree Inclusion Problem,' Proc. the International Joint Conference on the Theory and Practice of Software Development (TAPSOFT'91), Vol. 1: Colloqium on Trees in Algebra and Programming (CAAP '91), pages 202-214, 1991
  11. Bunke Horst and Shearer Kim, 'A Graph Distance based on the Maximal Common Subgraph,' Pattern Recognition Letters, Elsevier Science, (19)3-4 : pages 255-259, 1998 https://doi.org/10.1016/S0167-8655(97)00179-7
  12. Jason T. L. Wang et al, 'An Algorithm for Finding the Largest Approximately Common Substructures of Two Trees,' IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 20(8), pages 889-895, 1998 https://doi.org/10.1109/34.709622
  13. Seung-Won Lee et al., 'The Classification of Conflicts on Schema Integration with XML Schema,' proc. of KISS Fall Conference, 2001
  14. A.V.Aho, R.Sethi and J.D.Ullman. Compilers : Principles, Techniques, and Tools, Addison Wesley, 1986
  15. C.Fellbaum, WordNet : An Electronic Lexical Database, Cambridge: MIT Press. 1998
  16. http://www.nist.gov/dads/HTML/height/heightBalancedTree.html
  17. J. W. Lee, K. Lee, W. Kim, 'Preparation for Semantics-Based XML Mining,' In Proceedings of IEEE International Conference on Data Mining (ICDM), pp. 345-352, 2001 https://doi.org/10.1109/ICDM.2001.989538
  18. Gerard Salton and Michael J. McGill, Introduction to Modern Information Retrieval, McGraw-Hill Book Company, New York, 1993