Segment Join Technique for Processing in Queries Fast

빠른 XML질의 처리를 위한 세그먼트 조인 기법

  • Published : 2005.06.01

Abstract

Complex queries such as path alld twig patterns have been the focus of much research on processing XML data. Structural join algorithms use a form of encoded structural information for elements in an XML document to facilitate join processing. Recently, structural join algorithms such as Twigstack and TSGeneric- have been developed to process such complex queries, and they have been shown that the processing costs of the algorithms are linearly proportional to the sum of input data. However, the algorithms have a shortcoming that their processing costs increase with the length of a queery. To overcome the shortcoming, we propose the segment join technique to augment the structural join with structural indexes such as the 1-Index. The SegmentTwig algorithm based on the segment join technique performs joins between a pair of segments, which is a series of query nodes, rather than joins between a pair of query nodes. Consequently, the query can be processed by reading only a query node per segment. Our experimental study shorts that segment join algorithms outperform the structural join methods consistently and considerably for various data sets.

XML 데이타를 대상으로 선형 질의나 가지모양 질의 같은 복잡한 질의가 많이 연구되고 있다. 이와 같은 질의를 처리하기 위해 XML 데이타를 구조정보에 의해 미리 인코딩한 후, 질의 처리시 구조정보를 이용하여 빠르게 질의를 수행하는 구조 조인 알고리즘들이 제안되었다. 그 중 최근에 제안된 TwigStack 알고리즘과 TSGeneric 알고리즘은 각각 인덱스가 없는 환경과 있는 환경에서 수행시간이 입력 데이타의 양과 비례하는 최적의 성능을 보여주었다. 하지만 이들 알고리즘은 질의의 길이(질의에 나타난 엘리먼트 개수)에 비례하여 입력데이타의 양이 증가하고, 따라서 수행시간이 길어진다는 제한점이 있다. 이 논문에서는 기존의 구조 조인 알고리즘들에 구조 인덱스를 결함한 세그먼트 조인 기법을 제안한다. 이 기법은 질의 노드와 노드 간의 구조 조인과는 달리, 구조 인덱스를 이용하여 일련의 질의 노드들을 하나의 세그먼트로 식별한 후 세그먼트와 세그먼트 사이의 조인을 수행한다. 그 결과 세그먼트마다 하나의 질의 노드만을 읽음에 의해 질의를 처리할 수 있게 되어 수행성능이 향상된다. 다양한 데이타셋에 대해 인덱스가 없는 환경에서 실험 결과, 세그먼트 조인 기법을 적용한 SegmentTwig 알고리즘은 TwigStack 알고리즘보다 우수한 성능을 보였다.

Keywords

References

  1. R. Goldman and J. Widom, 'DataGuides: Enabling Query Formulation, Optimization in Semistructured Databases,' In Proceedings of VLDB Conference, pp. 436-445, 1997
  2. T. Milo and D. Suciu, 'Index Structures for Path Expressions,' In Proceedings of 7th International Conference on Database Theory, pp. 277-295, 1999 https://doi.org/10.1007/3-540-49257-7_18
  3. J. Min, C. Chung, and K. Shim, 'APEX: An Adaptive Path Index for XML Data,' In Proceedings of ACM SIGMOD Conference, pp. 121-132, 2002 https://doi.org/10.1145/564691.564706
  4. R. Kaushik, P. Shenoy, P. Bohannon, and E. Gudes, 'Exploiting Local Similarity for Efficient Indexing of Paths in Graph Structured Data,' In Proceedings of ICDE, pp. 129-140, 2002 https://doi.org/10.1109/ICDE.2002.994703
  5. R. Kaushik, P. Bohannon, J. F. Naughton, H. F. Korth, 'Covering Indexes for Branching Path Queries,' In Proceedings of the ACM SIGMOD Conference, pp. 133-144, 2002 https://doi.org/10.1145/564691.564707
  6. P. F. Dietz, 'Maintaining order in a linked list,' ACM Symposium on Theory of Computing, pp. 122-127, 1982 https://doi.org/10.1145/800070.802184
  7. Q. Li and B. Moon, 'Indexing, Querying XML Data for Path Expressions,' In Proceedings of VLDB Conference, pp. 361-370, 2001
  8. C. Zhang, J. Naughton, D. DeWitt, Q. Luo and G. Lohman, 'On Supporting Containment Queries in Relational Database Management Systems', In Proceedings of ACM SIGMOD Conference, pp. 425-436, 2001 https://doi.org/10.1145/376284.375722
  9. S. Al-Khalifa, H. V. Jagadish, N. Koudas, J. M. Patel, D. Srivastava, and Y. Wu, 'Structural Joins: A Primitive for Efficient XML Query Pattern Matching,' In Proceedings of ICDE, pp. 141-152, 2002 https://doi.org/10.1109/ICDE.2002.994704
  10. N. Bruno, N. Koudas, and D. Srivastava 'Holistic Twig Joins: Optimal XML Pattern Matching,' In Proceedings of ACM SIGMOD Conference, pp. 310-321, 2002 https://doi.org/10.1145/564691.564727
  11. S. Y. Chien, Z. Vagena, D. Zhang, V. J. Tsotras, and C. Zaniolo, 'Efficient Structural Joins on Indexed XML Documents,' In Proceedings of VLDB Conference, pp. 263-274, 2002
  12. H. Jiang, H. Lu, W. Wang, B. C. Ooi, 'XR-Tree : Indexing XML Data for Efficient Structural Joins,' In Proceedings of ICDE, pp. 253-264, 2003 https://doi.org/10.1109/ICDE.2003.1260797
  13. H. Jiang, W. Wang, H. Lu, and J. X. Yu, 'Holistic Twig Joins on Indexed XML Documents,' In Proceedings of VLDB Conference, pp. 273-284, 2003
  14. S. Y. Chien, Z. Vagena, D. Zhang, V. Tsotras, and C. Zaniolo, 'Efficient Structural Joins on Indexed XML Documents,' In Proceedings of VLDB Conference, pp. 263-274, 2002
  15. A. Berglund. S. Boag, D. Chamberlin, M. F. Fernandez, M. Kay, J. Robie, and J. Simon, 'XML Path Language (XPath) 2.0 W3C Working Draft 16,' World Wide Web Consortium, 2002, http://www.w3.org/TR/xpath20/
  16. A. R. Schmidt, F. Waas, M. L. Kersten, M. J. Carey, I. Manolescu, and R. Busse, 'XMark: A Benchmark for XML Data Management,' In Proceedings of VLDB Conference, pp. 974-985, 2002, (http://www.xml-benchmark.org)
  17. G. Miklau, University of Washington, 'XML Data Repository,' 'http://www.cs.washington.edu/research/xmldatasets/,' 2004