GDIT를 기반으로 한 구조적 문서의 효율적 검색과 갱신을 위한 인덱스 설계

An Indexing Scheme for Efficient Retrieval and Update of Structured Documents Based on GDIT

  • 김영자 (경상대학교 대학원 전자계산학과) ;
  • 배종민 (경상대학교 컴퓨터과학과 교수/정보통신연구센터)
  • 발행 : 2000.02.01

초록

SGML이나 XML언어를 사용하여 작성된구조적 문서들에 대한 정보검색 시스템들은 문서의 부분검색을 지원한다. 문서의 구조에 바탕을 둔 질의를 효율적으로 처리하기 위해서는 색인에 관련된 메모리 오버헤드를 줄여야 하고, 질의에 대한 응답시간이 빨라야 하고, 문서 구조에 바탕를 둔 다양한 유형의 사용자 질의를 지원해야 하며, 문서 구조에 대한 변경이 발생했을 때 색인 구조에 대한 변경사항을 최소화하여야 한다. 본 논문에서는 전체문서인스턴스트리 구조를 제안하고, 이를 기반으로 텍스트 레벨 엘리먼트만을 색인하여, 색인과 검색의 효율성을 유지하면서 자료의 추가나 삭제등의 갱신이 발생할 때, 갱신의 파장을 최소화시킬 수 있는 색인구조와 질의처리 알고리즘을 제시하고 그 성능을 분석한다.

Information retrieval systems for structured documents which are written in SGML or XML support partial retrieval of document. In order to efficiently process queries based on document structures, low memory overhead for indexing, quick response time for queries, supports to powerful types of user queries, and minimal updates of index structure for document updates are required. This paper suggests the Global Document Instance Tree(GDIT) and proposes an effective indexing scheme and query processing algorithms based on the GDIT. The indexing scheme keeps up indexing and retrieval effciency and also guarantees minimal updates of the index structure when document structures are updated.

키워드

참고문헌

  1. 이희주, 장재우, 심부성, 주종철, '구조화 문서를 위한 정보 검색 인덱스의 설계', 정보과학회 가을 학술발표논문집, Vol.24, No.2, 1997
  2. B. Lowe, J. Zobel and R. Sacks-Davis, 'A Formal Model for Databases of Structured Text,' In Proc. DASFAA'95, 1995
  3. Y. K Lee, S. J. Yoo, K. Yoon, and P. B. Berra, 'Index Structure for Structured Documents,' in Proc. Digital Libraries, 1996 https://doi.org/10.1145/226931.226950
  4. I. A. Macleod, 'Storage and retrieval of structured documents. Information Processing and Management,' 26(2), 1990 https://doi.org/10.1016/0306-4573(90)90025-W
  5. V. Christophides, S. Abiteboul, S. Cluet and M. Scholl, 'From Structured Documents to Novel Query Facilities,' ACM SIGMOD, 1994 https://doi.org/10.1145/191839.191901
  6. D. W. Shin, H. C. Jang, H. L. Jin, 'BUS: An Effective Indexing and Retrieval Scheme in Structured Documents,' in Proc. Digitial Libraries, 1998 https://doi.org/10.1145/276675.276702
  7. R. Sacks-Davis, A. Kent, K. Ramamohanarao, J. Thom, and J. Zobel, 'Atlas: a nested relational database system for text applications,' Technical Report CITRI/TR-92-52, Collaborative Information Technology Research Institute, Melbourne, Australia, 1992
  8. M. Volz, K. Aberer and K. Bohm, 'A Flexible Approach to Combine IR Semantics and Database Technology and its Application to Structured Document Handling,' GMD Technical Report No. 891, 1995
  9. M. Volz, K. Aberer and K. Bohm, 'Applying a Flexible OODBMS-IRS-Coupling to Structured Document Handling,' In Proceedings of 12th ICED, 1996 https://doi.org/10.1109/ICDE.1996.492084
  10. J. A. Thom, A. J. Kent, and R. Sacks-Davis, 'TQL : A nested relational query language,' Australian Computer Journal, 23(2), 1991
  11. G. E. Blake, M. P. Consens, P. Kilpelainen, P. Larson, T. Snider, and F. Tompa, 'Text/Relational database management systems : Harmonising SQL and SGML,' In Proc. Int. Conf. on Applications of Databases, no. 819 in Lecture Notes in Computer Science, pages 267-280, 1994
  12. K. Hirotaka, K. Hiroyuki, K. Hiroko and Y. Masatoshi, 'An Efficiently Updatable Index Scheme for Structured Document,' in proc. 9th International Workshop on Database and Expert Systems Application(DEXA), 1998 https://doi.org/10.1109/DEXA.1998.707525