효율적인 XML 질의 처리를 위한 적응형 경로 인덱스

Adaptive Path Index for Efficient U Query Processing

  • 민준기 (한국과학기술원 전자전산학과) ;
  • 심규석 (서울대학교 전기컴퓨터공학) ;
  • 정진완 (한국과학기술원 전자전산학과)
  • 발행 : 2004.02.01

초록

XML은 정형적(regular) 구조로부터 비정형적(irregular) 구조, 평탄한(flat) 구조로부터 깊게 내포된(deeply nested) 구조에 이르기까지 다양한 형태의 자료를 표현할 수 있다. 따라서, 현재 XML은 효율적인 데이타 교환 및 통합 기능을 제공하면서 웹 문서 표준으로 부각되고 있다. 또한, XML로 표현되어 있는 정보를 검색하기 위한 다양한 질의 언어들이 제안되었다. XPath와 XQuery같은 XML 질의 언어들은 XML 엘리먼트(element)로 이루어진 비정형적 구조를 탐색하기 위하여 경로 표현식(path expression)을 기반으로 한다. 이러한 경로 표현식을 효율적으로 처리하기 위하여 다양한 경로 인덱스들이 제안되었으나, 기존의 경로 인덱스들은 XML 데이타의 구조 정보만을 이용하여 생성된다. 따라서, 본 논문에서는 XML 데이타의 구조 정보와 질의 부하(workload)를 이용한 적응형 경로 인덱스를 제안한다. 본 논문에서 제안하는 적응형 경로 인덱스는 질의 성능을 향상하기 위하여 해쉬 트리와 그래프 구조를 이용하여 자주 사용되는 경로 정보와 XML 데이타의 구조 요약을 관리한다. 실험 결과로서, 적응형 경로 인덱스가 기존의 경로 인덱스들에 비하야 평균적으로 2배에서 69배 좋은 성능을 보였다.

XML can describe a wide range of data, from regular to irregular and from flat to deeply nested. Thus, XML is rapidly emerging as the do facto standard for the Web document format since XML supports an efficient data exchange and integration. Also, to retrieve the data represented by XML, several XML query languages are proposed. XML query languages such as XPath and XQuery use path expressions to traverse irregularly structured data which comprise B% elements. To evaluate path expressions, various path indexes are proposed. However, traditional path indexes are constructed by utilizing only the XML data structure. Therefore, in this paper, we propose an adaptive path index which utilizes the XML data structure as well as query workloads. To improve the query performance, the adaptive path index proposed by this paper manages the frequently used paths and the structural summary of the XML data using a hash tree and a graph structure. Experimental results show that the adaptive path index improves the query performance typically 2 to 69 times compared with the existing indexes.

키워드

참고문헌

  1. B. Bray, J. T. Bray, J. Paoli, C. M. Sperberg-McQueen and E. Maler, 'Extensible Markup Language(SML) 1.0,' W3C Recommendation, http://www.w3.org/TR/REC-xml, 1998
  2. P. Buneman, S. Davison, M. Fernandez, and D. Suciu, 'Adding Structure to Unstructed Data,' In Proceedings of ICDT, pp.336-350, 1997
  3. J. Clark and S. DeRose, 'XML Path Language(XPath)Version 1.0,' W3C Recommendation, http://www.w3.org/TR/xpath
  4. D. Chamberlin, D. Florescu, J. Robie, J. Simeon, and M. Stefanescu, 'XQuery : A Query Language for XML,' W3C Working Draft, 2001. http://www.w3.org/TR/xquery
  5. S. Nestorov, J. Ullman, J.Wiener, and S. Chawathe, 'Representative Objects: Concise Prepresentation of Semistructured Hierarchical Data,' In Proceedings of IEEE ICDE, pp.79-90, 1997
  6. B. Cooper, N. Sample, M. Franklin, G. Hjaltason, and M. Shadmon, 'A Fast Index for Semistructured Data,' Proceedings of VLDB, 2001
  7. R. Goldman and J. Widom, 'DataGuides: Enable Query Formulation and Optimization in Semistructured DataBases,' In Proceedings of VLDB, pp.436-445, 1997
  8. T. Milo and D. Suciu, 'Index Structures for Path Expression,' In Proceedings of ICDT, pp.277-295, 1999
  9. J. Hopcraft and J. UlIman, Introduction to Automata Theory, Language and Computation, Addison-Wesley, 1979
  10. A. Kemper and G. Moerkotte, 'Access Suport Relations: An Indexing Method for Object Bases,' Information Systems, 17(2), 1992 https://doi.org/10.1016/0306-4379(92)90008-B
  11. S. Agrawal, S. Chaudhuri, and V. Narasayya, 'Automated Selection of Materialized Views and Indexes for SQL Databases,' In Proceedings of VLDB, pp.496-505, 2000
  12. R. Agrawal and R. Srikant, 'Mining Sequential Patterns,' In Proceeding of IEEE ICDE, pp.3-14, 1995 https://doi.org/10.1109/ICDE.1995.380415
  13. M. Garofalakis, R. Rastogi, and K. Shim, 'SPIRIT: Sequential Pattern Mining with Regular Expression Constrains,' In Proceedings of VLDB, pp.223-234, 1999
  14. M. Fernandex and D. Suciu, 'Optimizing regular path expression using graph schema,' In Proceedings of IEEE ICDE, pp.14-23, 1998 https://doi.org/10.1109/ICDE.1998.655753
  15. J. McHugh and J. Widom, 'Compile-Time Path Expansion in Lore,' In Proceedings of the Workshop on Query Processing for Semistructured Data and Non-Standard Data Formats, 1999