의미 기반의 XML키워드 검색을 위한 효율적인 인덱스 구조

An Efficient Index Structure for Semantic-based XML Keyword Search

  • 이형동 (서울대학교 컴퓨터공학부) ;
  • 김성진 (서울대학교 컴퓨터공학부) ;
  • 김형주 (서울대학교 컴퓨터공학부)
  • 발행 : 2006.10.15

초록

XML 키워드 검색에서의 검색 결과는 일반적으로 질의 키워드를 모두 포함하는 원소 중 가장 구체적 원소들로 정의된다. 키워드 검색의 정확도 향상을 위하여 XML 원소의 레이블과 온톨로지, 개념모델, 시소러스 둥의 의미 정보가 사용되고 있다. 본 논문에서는 의미 정보를 이용하여 검색 결과로 반환 가능한 개념들이 정의되고 사용자가 검색하려는 개념이 해석 가능할 경우 효율적 질의 처리를 위한 계층 인덱스를 제안한다. 계층 인덱스는 각 키워드 포스팅의 XML 원소들을 원소가 속한 개념들의 상하 관계에 따라 구별하여 저장하고, 검색 결과 산출 가능성이 있는 개념에 속한 원소들만을 선별적으로 읽어서 제한된 조합으로 질의 결과 후보가 되는 최소 공통 선조들을 산출할 수 있도록 한다. 본 논문에서는 계층 인덱스의 구성 원리와 구성 방법, 계층 인덱스를 이용한 질의 처리 방법을 기술한다. DBLP의 XML문서와 INEX2003의 XML 문서 집합을 이용한 실험에서 의미 기반 계층 인덱스는 우수한 성능을 나타내었다.

Search results of XML keyword search are defined generally as the most specific elements containing all query keywords in the literature. The labels of XML elements and semantic information such as ontology, conceptual model, thesaurus, and so on, are used to improve the preciseness of the search results. This paper presents a hierarchical index for an efficient XML keyword query processing on the condition that returnable search concepts are defined and users' query concepts can be interpreted with the help of the semantic information. The hierarchical index separately stores the XML elements containing a keyword on the basis of the hierarchical relations of the concepts that the XML elements belong to, and makes it possible to obtain least common ancestors, which are candidates for the search results, with selectively reading the elements belonging to the concepts relevant to query concepts and without considering all the combinations of the elements having been read. This paper deals with how to organize the hierarchical index and how to process XML keyword queries with the index. In our experiment with the DBLP XML document and the XML documents in the INEX2003 test set, the hierarchical index worked well.

키워드

참고문헌

  1. F. Daniela, K. Donald and M. Ioana: 'Integrating keyword search into XML query processing,' Proceedings of the 9th international World Wide Web conference on Computer networks : the international journal of computer and telecommunications netowrking, 2000
  2. C. David, S. M. Y oelle, M. Matan, M. Y osi and S. Aya: 'Searching XML documents via XML fragments,' Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, 2003 https://doi.org/10.1145/860435.860464
  3. L. Guo, F. Shao, C. Botev and J. Shanmugasundararn: 'XRANK: Ranked keyword search over XML documents,' SIGMOD, 2003 https://doi.org/10.1145/872757.872762
  4. Y. Xu and Y. Papakonstantinou: 'Efficient keyword search for smallest LCAs in XML databases,' SIGMOD, 2005 https://doi.org/10.1145/1066157.1066217
  5. S. J. Kim, Lee, H., and Kim, H-J, 'Adaptive Partitioned Index for Efficient XML Keyword Search,' submitted for publication (Journal of Research and Practice in Information Technology) 2005
  6. F. Norbert, G. Kai and johann: 'XIRQL: a query language for information retrieval in XML documents,' Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, 2001
  7. M. C. A. Klein: 'Interpreting XML Documents via an RDF Schema Ontology,' DEXA, 2002
  8. S. Cohen: 'XSEarch: A semantic search engine for XML,' VLDB, 2003
  9. Y. Li, C. Yu and H. V. Jagadish: 'Schema-Free XQuery,' VLDB, 2004
  10. F. Norbert, G. Kai and johann, 'XIRQL: An XML query language based on information retrieval concepts,' ACM Trans. Inf. Syst, 2004 https://doi.org/10.1145/984321.984326
  11. http://www.urnl.org/, The Unified Modeling Language
  12. D. Carlson, Modeling XML Applications with UML: Practical e-Business Applications, Addison-Wesley, 2001
  13. P. Giuseppe: 'ERX: a conceptual model for XML documents,' Proceedings of the 2000 ACM symposium on Applied computing-Volume 2, 2000
  14. L. Bernadette Farias, sio, S. Ana Carolina, R. Luciano do and G. go: 'Conceptual modeling of XML schernas,' Proceedings of the 5th ACM international workshop on Web information and data management, 2003
  15. M. Ronaldo dos Santos and A. H. Carlos: 'A Rule-Based Conversion of a DTD to a Conceptual Schema,' Proceedings of the 20th International Conference on Conceptual Modeling: Conceptual Modeling, 2001
  16. I. F. Cruz, H. Xiao and F. Hsu: 'An OntologyBased Framework for XML Semantic Integration', IDEAS, 2004 https://doi.org/10.1109/IDEAS.2004.10
  17. http://inex.is.informatik.uni-duisburg.de:2003/, INEX (2003): INitiative for the Evaluation of Xml retrieval
  18. http://www.sleepycat.com/, BerkeleyDB