A Ranking Technique of XML Documents using Path Similarity for Expanded Query Processing

확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법

  • 김현주 (삼성전자 정보통신총괄) ;
  • 박소미 (서강대학교 컴퓨터공학과) ;
  • 박석 (서강대학교 컴퓨터공학과)
  • Received : 2009.07.27
  • Accepted : 2009.11.29
  • Published : 2010.04.15

Abstract

XML is broadly using for data storing and processing. XML is specified its structural characteristic and user can query with XPath when information from data document is needed. XPath query can process when the tern and structure of document and query is matched with each other. However, nowadays there are lots of data documents which are made by using different terminology and structure therefore user can not know the exact idea of target data. In fact, there are many possibilities that target data document has information which user is find or a similar ones. Accordingly user query should be processed when their term usage or structural characteristic is slightly different with data document. In order to do that we suggest a XML document ranking method based on path similarity. The method can measure a semantic similarity between user query and data document using three steps which are position, node and relaxation factors.

정보기술의 표준으로 사용되고 있는 XML환경에서 방대한 양의 데이터에 대한 사용자의 질의를 효율적이고 정확하게 처리하기 위한 연구가 이슈화되고, 특히 웹 환경에서의 XML문서들은 용어적, 구조적인 측면에서 다양한 형태로 존재하고 있다. 이러한 특성을 갖는 XML 문서들을 대상으로 사용자가 특정한 정보를 얻고자 한다면, 사용자의 질의가 가진 용어 및 구조적 특성과 정확히 일치하지 않는 문서의 정보에 대해서 추가적인 기법이 필요하다. 본 논문은 이와 같은 경우에도 동일한 용어 및 구조를 사용하던 환경에서와 마찬가지로 최상위 순위로 정보를 검색할 수 있는 기법을 제시한다. 또한 정확히 일치하지 않는 문서의 경우에 대해서도 사용자 질의 측과의 경로간 의미적 유사성을 측정하여 사용자 질의와 의미적으로 유사한 경로를 가진 순으로 문서들을 순위화하여 제공한다. 제안된 기법은 실험을 통하여 기존의 기법보다 세밀하고 정확한 검색 결과를 도출함을 보인다.

Keywords

References

  1. Y. Kanza, Y. Sagiv, "Flexible Queries over Semistructured Data," Proc. of 12th ACM SIGMODSIGACT- SIGART symposium on Principles of database systems, pp.40-51, 2001.
  2. C. X. Chen, G. A. Mihaila, S. Padmanabhan, and I. M. Rouvellou, "Query Translation Scheme for Heterogeneous XML Data Sources," Proc. of 7th annual ACM international workshop on Web information and data management, pp.31-38, 2005.
  3. S. Amer-Yahia, S. Cho, and D. Srivastava, "Tree Pattern Relaxation," Proc. 8th International Conference on Extending Database Technology: Advances in Database Technology, pp.496-513, 2002.
  4. I. Tatarinov, S. D. Viglas, K. Beyer, J. Shanmugasundaram, E. Shekita, and C. Zhang, "Storing and querying ordered XML using a relational database system," Proc. of the 2002 ACM SIGMOD international conference on Management of data, pp.204-215, 2002.
  5. WordNet – a Lexical Database for the English Language. http://www.cogsci.princeton.edu/wn/.
  6. toExcel, Extensible Markup Language (Xml) 1.0 Specifications: From the W3c Recommendations, iUniverse, Incorporated, 2000.
  7. W3C. XML path language (XPath): Version 2.0. http://www.w3.org/TR/xpath20/.