Accelerating Keyword Search Processing over XML Documents using Document-level Ranking

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상

  • 이형동 (서울대학교 컴퓨터공학과) ;
  • 김형주 (서울대학교 컴퓨터공학과)
  • Published : 2006.10.15

Abstract

XML Keyword search enables us to get information easily without knowledge of structure of documents and returns specific and useful partial document results instead of whole documents. Element level query processing makes it possible, but computational complexity, as the number of documents grows, increases significantly overhead costs. In this paper, we present document-level ranking scheme over XML documents which predicts results of element-level processing to reduce processing cost. To do this, we propose the notion of 'keyword proximity' - the correlation of keywords in a document that affects the results of element-level query processing using path information of occurrence nodes and their resemblances - for document ranking process. In benefit of document-centric view, it is possible to reduce processing time using ranked document list or filtering of low scored documents. Our experimental evaluation shows that document-level processing technique using ranked document list is effective and improves performance by the early termination for top-k query.

XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

Keywords

References

  1. http://www.w3.org/XML/
  2. L. Guo, et al. 'XRANK: Ranked Keyword Search over XML Documents,' SIGMOD, 2003 https://doi.org/10.1145/872757.872762
  3. L. Mignet, D. Barbosa, P. Veltri. 'The XML Web: a First Study,' WWW 2003 https://doi.org/10.1145/775152.775223
  4. D Florescu, et al., 'Integrating Keyword Search into XML Query Processing,' WWW, 1999
  5. V. Hritidis, Y. Papakonstantinou, A. Balmin. 'Keyword Proximity Search on XML Graph,' ICDE, 2003
  6. S. Brin, L. Page, 'The Anatomy of a Large-Scale Hypertextual Web Search Engine,' WWW7, 1998 https://doi.org/10.1016/S0169-7552(98)00110-X
  7. T. Igor, D. V. Stratis, B. Kevin, S. Jayavel, S. Eugene and Z. Chun: 'Storing and querying ordered XML using a relational database system,' ACM SIGMOD, 2002 https://doi.org/10.1145/564691.564715
  8. S. Cohen, J. Mamou, Y. Kanza, Y. Sagiv. 'XSEarch: A Semantic Search Engine for XML,' VLDB, 2003
  9. Shurug Al-Khalifa, Cong Yu, and H. V. Iagadish. 'Querying structured text in an XML database,' SIGMOD, 2003
  10. D. Carmel, Y. S. Maarek, M. Mandelbrod, Y. Mass, A. Soffer. 'Searching XML Documents via XML Fragments,' SIGIR, 2003 https://doi.org/10.1145/860435.860464
  11. R. A. Baeza-Yates and B. A. Ribeiro-Neto, Modern Information Retrieval, ACM Press /AddisonWesley, 1999
  12. Gerard Salton, James Allan, Chris Buckley, 'Approaches to Passage Retrieval in Full Text Information Systems,' SIGIR, 1993 https://doi.org/10.1145/160688.160693
  13. Ross Wilkinson, 'Effective Retrieval of Structured Documents,' SIGIR, 1994
  14. Donna Harman, Gerald Candela, 'Retrieving Records from a Gigabyte of Text on a Mini-Computer Using Statistical Ranking,' JASIS 41(8), 1990
  15. Michael Persin, Justin Zobel, Ron Sacks-Davis, 'Filtered Document Retrieval with FrequencySorted Indexes,' JASIS 47(10), 1996
  16. Ahn Ngoc Yo, Owen de Kretser, Alistair Moffat, 'Vector-Space Ranking with Effective Early Termination,' SIGIR, 2001 https://doi.org/10.1145/383952.383957
  17. Igor Tatarinov, Stratis Viglas, Kevin S. Beyer, Jayavel Shanmugasundaram, Eugene J. Shekita, Chun Zhang, 'Storing and querying ordered XML using a relational database system,' SIGMOD, 2002 https://doi.org/10.1145/564691.564715
  18. Gerard Salton, 'Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer,' Addison-Wesley, 1989
  19. Norbert Fuhr, Kai GroBjohann, 'XIRQL: A Query Language for Information Retrieval in XML Documents,' SIGIR, 2001 https://doi.org/10.1145/383952.383985
  20. Edith Cohen, 'Size-Estimation Framework with Applications to Transitive Closure and Reachability,' J. Comput. Syst, Sci. 55(3) 1997 https://doi.org/10.1006/jcss.1997.1534
  21. Andrei Z. Broder, Moses Charikar, Alan M. Frieze, Michael Mitzenmacher,' Min-Wise Independent Permutations,' STOC 1998 https://doi.org/10.1145/276698.276781
  22. ZhiyuanChen, Flip Korn, Nick Koudas, S. Muthukrishnan 'Selectivity Estimation for Boolean Queries,' PODS 2000 https://doi.org/10.1145/335168.335225
  23. http://www.sleepycat.com
  24. Initiative for the evaluation of XML retrieval
  25. Mukund Deshpande and George Karypis, 'Itembased top-N recommendation algorithms,' ACM Trans. Inf. Syst. 22(1), 2004 https://doi.org/10.1145/963770.963776
  26. Resnick, P. and Varian, H.R., 'Recommender systems,' CACM 40(3), 1997 https://doi.org/10.1145/245108.245121