PIX: XML문서 검색을 위한 색인 분할 기법

PIX: Partitioned Index for Keyword Search over XML Documents

  • 이홍래 (서울대학교 컴퓨터공학부) ;
  • 이형동 (서울대학교 컴퓨터공학부) ;
  • 유상원 (서울대학교 컴퓨터공학부) ;
  • 김형주 (서울대학교 컴퓨터공학부)
  • 발행 : 2004.12.01

초록

정보 검색의 대상이 XML 문서가 되면서 구조 정보를 이용하는 것과 같은 단순한 텍스트 기반의 검색에서는 어려웠던 일이 가능해졌다. 그러나 문서 단위로 처리하던 정보를 엘리먼트 단위로 상세하게 해야 하므로 처리의 부담이 가중되어 많은 수의 엘리먼트를 효과적으로 처리할 수 있는 알고리즘이 필요하다. 본 논문에서는 결과가 될 가능성이 있는 엘리먼트들끼리 미리 분할 한 후 저장하여 처리 대상이되는 엘리먼트들의 수를 줄이는 역색인 방법을 제안한다. 분할은 특정 레벨을 기준으로 하여 이 레벨에서 공통 선조를 가질 수 있는 가의 여부에 따라 수행한다. 그리고 분할 병합을 통하여 분할하지 않은 것과 동일한 결과를 생성할 수 있도록 하였다. 이는 기존의 XML 문서에 대한 키워드 검색의 성능을 향상시키는 결과를 가져왔고 이를 실험적으로 검증하였다.

As XML documents have much richer information than plain texts, we can perform very elaborated, fine-grained search which was difficult in past years. However, as the cost of finer grained element level search is very high, the processing overhead has become a new challenge. We propose an inverted index structure called PIX, which reduces the number of elements processed by partitioning elements according to their match potentiality. We choose a base level and partition elements according to whether they have possibility of having a common ancestor higher than the level. We also propose partition merging technique by which we can get same results as unpartitioned case. Our experimental results show that the index partitioning strategy can reduce processing time considerably.

키워드

참고문헌

  1. http://www.w3.org/XML
  2. J. Robie, et al. XML query language(XQL). The Query Languages Workshop. W3c, Dec. 1998, http://www.w3.org/TrandS/QL/QL98/pp/xql.html
  3. A. Deutsch, M. Fernandez, et al. XML-QL: A query language for XML. The Query Languages Workshop. W3c, Dec. 1998
  4. XPath: XML Path language, Nov. 1999. http://www.w3.org/TR/xpath
  5. XQuery: A query language for XML, Feb. 2001. http://www.w3.org/TR/qeury
  6. J.P. Callan. Passage-Level Evidence in Document Retrieval. In Proc. of SIGIR, pp. 302-310, 1994
  7. R. Wilkinson. Effective retrieval of structured documents. In Proc. of SIGIR, pp.311-317, 1994
  8. J. Zobel, A. Moffat, et. al. Effienent retireval of partial documents. Information Processing and Management, Vol. 31, No. 3, pp. 361-377, 1995 https://doi.org/10.1016/0306-4573(94)00052-5
  9. N. Fuhr, K. Grobjohann. XIRQL: A Query Language for Information Retrieval in XML Documents. In Proc. of SIGIR, pp. 172-180, 2001
  10. A. Theobald, G. Weikum. The Index-based XXL Search Engine for Querying XML Data with Relevance Ranking. In Proc. of EDBT, pp. 477-495, 2002
  11. V. Hritidis, Y. Papakonstantinou, A. Balmin. Keyword Proximity Search on XML Graph. In Proc. of ICDE, pp. 367-377, 2003
  12. Guo, L., Shao, F., Botev, C., and Shanmugasundaram, J., 'XRANK: Ranked Keyword Search over XML Documents,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 16-27, 2003 https://doi.org/10.1145/872757.872762
  13. S. Cohen, J. Mamou, Y. Kanza, Y. Sagiv. XSEarch: A Semantic Search Engine for XML. In Proc. of VLDB, pp.45-56, 2003
  14. D. Carmel, Y. S. Maarek, M. Mandelbrod, Y. Mass, and A. Soffer, Searching XML documents via XML fragments, Proc. of the 26th Int. ACM SIGIR Conf., 2003 https://doi.org/10.1145/860435.860464
  15. L. Mignet, D. Barbosa, P. Veltri. The XML Web: a First Study. WWW 2003
  16. S. Putz. Using a Relational Database for an Inverted Text Index. XEROX Technical Report '91
  17. D. Cutting, J. Pedersen. Optimizations for Dynamic Inverted Index Maintenance. In Proc. of SIGIR, pp. 405-511, 1990 https://doi.org/10.1145/96749.98245
  18. V. N. Anh, O. Krester, A. Moffat. Vector-Space Ranking with Effective Early Termination. In Proc. of SIGIR, pp. 35-42, 2001 https://doi.org/10.1145/383952.383957
  19. A. Theobald, G. Weikum. Adding Relevance to XML. WebDB 2000
  20. D. Florescu, et al. Integrating Keyword Search into XML Query Processing.
  21. S. Brin, L. Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine. WWWW7 '98
  22. G. Salton and M. J. McGrill, 'Introduction to Modem Information Retrieval,' McGraw-Hill, New York, 1983
  23. A. Moffat, J. Zobel. Self-Indexing Inverted Files for Fast Text Retrieval. TODS Vol. 14, No. 4, pp. 349-379, 1996 https://doi.org/10.1145/237496.237497
  24. Jongik Kim, Ilhwan Choi, Hyun-Sook Lee and Hyoung-Joo Kim, 'XDBox: Impelementation of XML object repository,' in Proc. of KISS Spring Conference, April 2003
  25. http://www.sleepycat.com
  26. Initiative for the evaluation of XML retrieval
  27. http://www.ibiblio.org/xml/examples/shakespeare/