A Storage and Retrieval System for Structured SGML Documents using Grove

Grove를 이용한 구조적 SGML문서의 저장 및 검색

  • Published : 2002.10.01

Abstract

SGML(ISO 8879) has been proliferated to support various document styles and to transfer documents into different platforms. SGML documents have logical structure information in addition to contents. As SGML documents are widely used, there is an increasing need for database storage and retrieval system using the logical structure of documents. However. traditional search engines using document indexes cannot exploit the logical structure. In this Paper, we have developed an SGML document storage system, which is DTD-independent and store the document type and the document instance separately by using Grove which is the document model for DSSSL and HyTime. We have used the Object Store, an object-oriented DBMS, to store the structure information appropriately without any loss of structural information. Also, we have supported a index structure for search efficiency like the relational DBMS, and constructed an effective user interface which combines content-based search with structure-based search.

플랫폼에 관계없이 한번 작성된 문서의 정보를 이기종 시스템간 공유하고 다양한 문서 형식을 지원하기 위해 SGML(1508879)이 사용되고 있다. SGML 문서는 내용뿐만 아니라 구조정보를 가지고 있다. SGML 문서가 널리 보급됨에 따라서 구조적 정보를 이용한 데이타베이스의 구축 및 검색 시스템에 대한 필요성이 고조되고 있다. 그러나, 기존의 색인어를 이용한 전문 검색 엔진으로는 문서의 구조정보를 활용할 수 없다. 본 논문에서는 DSSSL 및 HyTime의 문서 모델인 Grove를 변형한 데이타 모델을 이용하여 문서 형식에 독립적이면서, 문서 형식과 내용을 분리하여 저장하는 SGML 문서 저장 시스템을 개발하였다. 구조정보를 손실없이 저장할 수 있도록 객체 지향형 데이타베이스 시스템인 오브젝트 스토어(Object Store)를 이용하였다. 또한 엘리먼트에 대해 관계형 DBMS와 유사한 인덱스 구조를 생성하여 검색 성능을 향상시켰고, 내용기반 검색과 구조기반 검색을 효율적으로 결합한 사용자 인터페이스를 구축하였다.

Keywords

References

  1. International Organization for Standardization, 'Information processing-text and office systems-Standard Generalized Markup Language(SGML),' ISO/IEC 8879, 1986
  2. International Organization for Standardization, 'Hypermdeia/Time-based Structuring Language (Hy-Time),' ISO/IEC 10714, 1996
  3. TEI(Text Encoding Initiative), URL: http://www.tei-c.org/
  4. R. Sacks-Davis, T. Arnold-Moore and J. Zobel, 'Database systems for structured documents,' IEICE Trans. on Information and Systems, pp.1335-1342, 1995
  5. International Organization for Standardization, 'Document Style Semantics and Specification Languages(DSSSL),' ISO/IEC 10179, 1996
  6. G. Salton and M. McGill, Introduction to Modern Information Retrieval, McGraw-Hill, Tokyo, 1983
  7. J. Macleod, 'Storage and retrieval of structured documents,' Information Processing and Management, vol. 26. No.2. pp. 197-208, 1990 https://doi.org/10.1016/0306-4573(90)90025-W
  8. A. Seungupta and A. Dillon, 'Extending SGML to accommodate database functions: A methodological overview,' Journal of the American Society of Information Systems, pp. 629-637, 1997 https://doi.org/10.1002/(SICI)1097-4571(199707)48:7<629::AID-ASI10>3.0.CO;2-Q
  9. 김규태, 현득창, 이수연, 정광철, '관계형 데이터베이스를 이용한 SGML문서 처리', 정보과학회논문지(C), 제3권 제3호, pp. 238-247, 1997
  10. G.E. Blake, M.P. Consens, P. Kilpelainen, P.A. Larson, T. Snider and F.W. Tompa, 'Text/relational database management systems: Harmonizing SQL and SGML,' Proc. Applications of Databases, pp. 267-280, 1994
  11. V. Christophides, S. Abiteboul, S. Cluet and M. Scholl, 'From structured documents to novel query facilities,' Special Interest Group on Management of Data(SIGMOD), 1994 https://doi.org/10.1145/191843.191901
  12. K. Aberer, K. Bohm and C. Huser, 'The prospects of publishing using advanced database concepts,' Conf. on Electronic Publishing, 1994
  13. 김용훈, 이원석, 류은숙, 이규철, 이상기, 김현기, 이혜란, 주종철, 'SGML 문서 관리 시스템의 설계 및 구현', 한국문헌정보학회지, 제32권 제2호, pp. 157-177, 1998
  14. J. Clark, A Free, Object-oriented Toolkit for SGML Parsing and Entity Management, URL: http://www.jclark.com/sp
  15. D. Megginson, The Simple API for XML, URL: http://www.megginson.com/SAX/