A Wrapper System for Extraction and Integration of Web Information

웹 정보의 추출 및 통합을 위한 래퍼 시스템

  • 정재목 (서울대학교 컴퓨터공학부) ;
  • 김형주 (서울대학교 전기컴퓨터공학부)
  • Published : 2003.10.01

Abstract

This paper describes the data model and software development of XWS, an XWEET Web-wrapper System for generation wrapper program. To access information from various information sources, one has to convert and integrate source data into the same data model. XWS is developed as a part of XWEET project. We have implemented the XWS system using the Perl programming language stressing efficiency and ease-of-use. XWS has a few distinct features. First, data model and operator used for extracting information from HTML support a unified model of different views of HTML document. Second, it provides a user-friendly interface program to enable wrapper programmer to generate wrapper easily Third, XWS use the high-level script language designed by object-oriented methodology. In this paper, we also present the detail demonstration where it is useful for extracting article information from DBLP site.

이 논문은 웹 정보를 추출하기 위한 래퍼 프로그램을 생성해내기 위한 XWS(XWEET Web-wrapper System)의 데이타 모델과 소프트웨어 개발방법에 대해 설명하고 있다. 다양한 정보 출처에 존재하는 정보에 접근하기 위해서는 원본 데이타를 공통된 데이타 모델로 변환하고 통합해야 된다. XWS 시스템은 XWEET 프로젝트의 부분으로 개발되었다. 우리는 효율적이고 사용하기 쉬운 Perl 프로그램 언어를 사용해서 XWS 시스템을 구현하였다. XWS은 다른 시스템과 구별되는 몇 가지 특징을 가지고 있다. 첫째, HTML 페이지로부터 정보를 추출하기 위해 사용되는 데이타모델과 연산자들은 HTML 문서의 다양한 뷰를 지원할 수 있는 통합된 모델을 사용한다. 둘째, XWS는 사용자가 래퍼 프로그램을 손쉽게 생성해 내기 위한 그래픽 인터페이스 프로그램을 제공한다. 셋째, 객체지향적으로 설계된 고수준의 스크립트 언어를 사용하였다. 또한 논문에서 DBLP 사이트로부터 검색된 논문 정보를 추출하기 위한 자세한 예제를 통해 XWS의 사용법을 보이고 있다.

Keywords

References

  1. World Wide Web Consortium (W3C). Extensible Markup Language (XML) 1.0, 1998. http://www.w3.org/TR/1998/REC-xml-19980210
  2. World Wide Web Consortium (W3C). Extensible Stylesheet Language(XSL), 1998. http://www.w3.org/Style/XSL
  3. 정재목, 박상원 ,정태선, 이병준, 민경섭, 이강우, 김형주. XWEET: 웹 환경을 위한 통합 데이터베이스 시스템. 정보과학회, 28(8), 2001
  4. XWEET Team. XWEET System. Technical report, Seoul National University, Feb 2000. http://oopsla.snu.ac.kr/xweet/xweet.ps.gz
  5. D. Florescu, A. Levy, and A. Mendelzon. Database techniques for the World-Wide Web: A survey. SIGMOD Record (ACM Special Interest Group on Management of Data), 27(3):59--74, 1998 https://doi.org/10.1145/290593.290605
  6. S. Chawathe, H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J. D. Ullman, and J. Widom. The TSIMMIS project: Integration of heterogeneous information sources. In 16th Meeting of the Information Processing Society of Japan, pages 7--18, Tokyo, Japan, 1994
  7. J. Hammer, H. Garcia-Molina, S. Nestorov, R. Yerneni, M. Breunig, and V. Vassalos. Template-based wrappers in the TSIMMIS system. In Proceedings of the ACM SIGMOD International Conference on Management of Data, volume 26,2 of SIGMOD Record, pages 532--535, New York, May 13--15 1997. ACM Press https://doi.org/10.1145/253260.253395
  8. G. Huck, P. Fankhauser, K. Aberer, and E. J. Neuhold. Iedi: Extracting and synthesizing information from the web. In CoopIS 1998, pages 32--43, 1998
  9. A. Sahuguet and F. Azavant. Building lightweight wrappers for legacy web data-sources using w4f. In VLDB, 1999
  10. B.Adelberg. NoDoSE - a tool for semi-automatically extracting semi-structured data from text documents. In L. M. Haas and A. Tiwary, editors, SIGMOD 1998, Proceedings ACM SIGMOD International Conference on Management of Data, June 2-4, 1998, Seattle, Washington, USA, pages 283--294. ACM Press, 1998 https://doi.org/10.1145/276304.276330
  11. N. Kushmerick, R. Doorenbos, and D. Weld. Wrapper induction for information extraction. In International Joint Conference on Artificial Intelligence, 15, 1997
  12. A. Sahuguet and F. Azavant. Web ecology: Recycling HTML pages as XML documents using W4F. In WebDB'99, 1999
  13. T. Kistler and H. Marais. Automating the web: WebL, 1999. http://www.research.digital.com/SRC/WebL
  14. L. Liu, C. Pu, and W. Han. Xwrap: An xml-enabled wrapper construction system for web information sources. In ICDE, 2000 https://doi.org/10.1109/ICDE.2000.839475
  15. W3C. Document Object Level (DOM) Level 1 Specification, oct 1998. http://www.w3.org/TR/
  16. L. Wall, R. L. Schwartz, T. Christiansen, and S. Potter. Programming Perl. Nutshell Handbook. O'Reilly & Associates, 2nd edition, 1996
  17. J. Hammer, H. Garcia-Molina, J. Cho, R. Aranha, and A. Crespo. Extracting semistructured information from the web. Technical report, Stanford University, 1998
  18. J. K. Ousterhout. Scripting: Higher Level Programming for the 21st Century. IEEE Computer, 31(3):23--30, Mar. 1998 https://doi.org/10.1109/2.660187