유사 패턴을 갖는 HTML 문서의 XML 자동 변환

Automatically Converting HTML Documents with Similar Pattern into XML Documents

  • 발행 : 2002.06.01


최근 들어, WWW(World Wide Web)의 급속한 보급으로 많은 양의 정보가 생성되고 있다. 이로 인하여 웹은 이제 정보 교환의 도구로서 뿐 아니라 정보의 저장소로 인식되게 되었다. 현재 웹상의 많은 문서들은 HTML(Hypertext Markup Language)을 사용하여 제작되었다. HTML은 간단하고 배우기가 쉬운 반면, 데이터에 대한 기술을 명확하게 하지 못하는 단점으로 인해 정보 검색에 있어서 효율성을 제공하지 못한다. 이를 보완하기 위한 방법 중에 하나가 구조적인 언어로 부상하고 있는 XML(eXtensible Markup Language) 문서로 변환하는 것이다. XML은 웹 상에서 데이터 교환을 위해 제안된 표준 메타 언어이다. 효과적인 데이터의 교환을 위해, XML은 DTD(Document Type Definition)를 통하여 문서의 구조를 기술할 수 있고 사용자가 원하는 대로 정의할 수 있다. 이러한 구조적 유동성은 웹에서 운용되는 모든 데이터를 통합, 저장, 처리할 수 있는 기반을 제공한다. 본 논문에서는 특히 유사한 패턴을 갖는 HTML 문서의 구조를 분석하고 그에 관련된 경로 정보를 인식하는 방식을 이용하여 XML 문서로의 변환을 자동적으로 수행할 수 있는 XML 변환기를 구현하였다.

Recently, WWW(World Wide Web) has become a source of a large amount of information, and is now recognized not only as an information-sharing tool, but also as an information repository. Currently, the majority of documents on the web were created using HTML(Hypertext Markup Language). Although HTML is simple and easy to learn, its inherent lack of describing document structure makes it difficult to retrieve information effectively. One possible solution would be to convert such HTML documents into XML (extensible Markup Language) documents. This is a standard markup language for exchanging data on the web. It can describe a document structure freely by defining its own DTD (Document Type Definition). This makes it possible to integrate, store, and retrieve data on the web efficiently In this paper, we will propose a converter that automatically converts HTML documents with similar pattern into XML documents by analyzing the document structure and recognizing its path information.



  1. A. Sahuget and F. Azavant, 'WysiWyg Web Wrapper Factory (W4F),' Available at http : //
  2. L. Liu, C. Pu and W. Han, 'XWRAP : An XML-enabled Wrapper Construction System for Web Information Sour-ces,' Proc. of International Conference on Data Engine-ering, pp.611-621, 1998
  3. L. Liu, W. Han, D. Buttler and C. Pu, 'An XML-Enabled Wrapper Construction System for Web Information Sour-ces,' SIGMOD Conference, pp.540-543, 1999
  4. F. Harary, 'Graph Theory,' Addison-Wesley, Reading, MA, 1969
  5. J. R. Gruser, L. Raschid, M. E. Vidal and L. Bright, 'Wrapper Generation for Web Accessible Data Sources,' Proc. of International Conference of Cooperative Informa-tion System, pp.14-23, 1998
  6. N. Kushmerick, D. Weil and R. Doorenbos, 'Wrapper in-duction for information extraction,' Proc. of Conference on Artificial Intelligence, pp.729-737, 1997
  7. N. Ashish and C. A. Knoblock, 'Wrapper Generation for Semi-structured Internet Sources,' Proceeding of the Workshop on Management of Semi-structured Data, pp.8-15, Tucson, Arizona, 1997
  8. Taniar, Y. Jiang, J. W. Rahayu and L. Bishay, 'Structured Web Pages Management for Efficient Data Retrieval,' Proc. of International Conference on Web Information Systems Engineering, 2000
  9. G. Huck, P. Fankhauser, K. Aberer and E. Neuhold, 'Jedi : Extracting and Synthesizing Information from the Web,' Proceeding of CoopIS, pp.32-43, 1998
  10. 'Document Object Model (DOM) Level2 HTML Specifi-cation Version 1.0, W3C Working Draft, WD-DOM-Level-2-HTML-20011210,' Johnny Stenback, et al
  11. 'HTML 4.01 Specification, W3C Recommendation 24-De-cember-1999, REC-html401-19991224,' Dave Raggett, et al, December, 1999
  12. M. Peillo, K. Siddiqi and S. W. Zucker, 'Matching Hie-rarchical Structures Using Association Graphs,' Proc. of European Conference on Computer Vision, pp.3-16, Feb., 1998
  13. J. Hofbauer and K. Sigmund, 'The Theory of Evolution and Dynamical Systems,' Cambridge University Press, Cam-bridge, UK, 1988
  14. Vodnik, 'HTML complete,' Course Technology, Reading, 1999
  15. Taniar, Y. Jiang, J. W. Rahayu and L. Bishay, 'Structured Web Pages Management for Efficient Data Retrieval,' Proc. of International Conference on Web Information Sys-tems Engineering, 2000
  16. S. Lee, E. Hwang and K. Byeon, 'Template-based XML Data Integration System,' Proc. of International Confer-ence on E-Commerce, pp.1-7, Seoul, Korea, 2000
  17. K. Oh, D. Park and E. Hwang, 'Automatic Conversion of Web Pages with Common Pattern,' Proc. of International Conference on Internet Computing, pp.213-218, Las Ver-gas, 2001