• Title/Summary/Keyword: HTML 테이블

Search Result 24, Processing Time 0.021 seconds

An Efficient Method for Logical Structure Analysis of HTML Tables (HTML 테이블의 논리적 구조분석을 위한 효율적인 방법)

  • Kim Yeon-Seok;Lee Kyong-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.9
    • /
    • pp.1231-1246
    • /
    • 2006
  • HTML is a format for rendering Web documents visually and uses tables to present a relational information. Since HTML has limits in terms of information processing and management by a computer, it is important to transform HTML tables into XML documents, which is able to represent logical structure information. As a prerequisite for extracting information from the Web, this paper presents an efficient method for extracting logical structures from HTML tables and transforming them into XML documents. The proposed method consists of two phases: Area segmentation and structure analysis. The area segmentation step removes noisy areas and extracts attribute and value areas through visual and semantic coherency checkup. The hierarchical structure between attribute and value areas are analyzed and transformed into XML representations using a proposed table model. Experimental results with 1,180 HTML tables show that the proposed method performs better than the conventional method, resulting in an average precision of 86.7%.

  • PDF

An Efficient Algorithm for Detecting Tables in HTML Documents (HTML 문서의 테이블 식별을 위한 효율적인 알고리즘)

  • Kim Yeon-Seok;Lee Kyong-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.10
    • /
    • pp.1339-1353
    • /
    • 2004
  • < TABLE > tags in HTML documents are widely used for formatting layout of Web documents as well as for describing genuine tables with relational information. As a prerequisite for information extraction from the Web, this paper presents an efficient method for sophisticated table detection. The proposed method consists of two phases: preprocessing and attribute-value relations extraction. For the preprocessing where genuine or ungenuine tables are filtered out, appropriate rules are devised based on a careful examination of general characteristics of < TABLE > tags. The remaining is detected at the attribute-value relations extraction phase. Specifically, a value area is extracted and checked out whether there is a syntactic coherency Futhermore, the method looks for a semantic coherency between an attribute area and a value area of a table that may be inappropriate for the syntactic coherency checkup. Experimental results with 11,477 < TABLE > tags from 1,393 HTML documents show at the method has performed better compared with previous works, resulting in a precision of 97.54% and a recall of 99.22% in average.

  • PDF

Detecting Tables in HTML Documents (HTML 문서의 테이블 식별)

  • 김연석;이경호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.163-165
    • /
    • 2004
  • HTML의 <TABLE> 태그는 연관된 정보를 기술하기 위한 테이블은 물론이고 웹 문서의 레이아웃을 표현하기 위하여 사용된다 본 논문에서는 웹으로부터 유용한 정보를 추출하기 위한 목적의 일환으로 HTML 문서로부터 테이블을 식별하는 효율적인 방법을 제안한다. 제안된 방법은 전처리와 속성-값 연관관계에 추출의 두 단계로 구성된다. 전처리 단계에서는 진짜 테이블 또는 레이아웃용으로 사용된 <TABLE> 태그의 일반적인 특징을 반영한 규칙을 적용하여 진짜 또는 가짜로 명확히 식별이 가능한 <TABLE> 태그를 추출한다. 속성-값 연관관계 추출 단계에서는 테이블 영역을 속성 및 값 영역으로 구분한 후. 값 영역에 대하여 구문적 일관성 검사를 수행한다 또한 값 영역의 크기가 작아서 구문적 일관성 검사를 수행할 수 없는 경우, 속성-칸 영역의 의미적 일관성을 검사한다. 제안된 방법의 성능을 명가하기 위하여 1,393개의 HTML 문서로부터 추출한 11,477개의 <TABLE> 태그를 대상으로 실험한 결과. 평균적으로 97.54%의 정확률과 99.22%의 재현률을 보여 기존 연구보다 우수하였다.

  • PDF

An Efficient Method for Logical Structure Analysis of HTML Tables (HTML 테이블의 논리적 구조분석을 위한 효율적인 방법)

  • Kim Yeon-Seok;Lee Kyong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.334-336
    • /
    • 2006
  • 본 논문에서는 웹 문서로부터 정보를 추출찰기 위한 목적의 일환으로 HTML 테이블의 논리적인 구조를 추출하여 XML 문서로 변환하는 효율적인 방법을 제안한다. 제안된 방법은 영역구문과 구조분석의 두 단계로 구성된다. 영역구분 단계에서는 테이블의 잡음영역을 제거하고 정규화한 후 시각적 및 의미적 일관성 검사를 통하여 테이블에 존재하는 속성 및 값 영역을 구분한다. 또한 구조분석 단계에서는 구분된 영역에 제안된 테이블 모델을 적용하여 계층구조를 추출하며, 이로부터 XML 문서를 생성한다. 제안된 영역구분 방법의 성능을 평가하기 위하여 1,180개의 테이블을 대상으로 실험한 결과, 평균적으로 86.7%의 정확률을 보여 기존 연구보다 우수하였다.

  • PDF

HTML Document Conversion System for Effective Retrieval of Text Document (문서의 효율적인 검색을 위한 HTML 문서 변환 시스템)

  • 김수의;장대용
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.184-186
    • /
    • 2000
  • 이 연구에서는 텍스트 문서를 웹에서 HTML 문서 형태로 효율적으로 검색할 수 있는 변환 시스템을 개발하였다. 웹상에 사용자가 원하는 부분만을 HTML 문서 형태로 제공하도록 문서의 논리적인 구조를 파악하며 그 구조에 대한 정보와 각 논리 단위에 해당하는 부분의 범위 정보를 저장할 수 있도록 관계형 데이터베이스 스키마를 개발하였다. 개발한 시스템은 문서의 목차 테이블을 자동으로 구축하고 목차 테이블의 각 항목에 하이퍼링크를 설정한다. 문서를 웹에서 검색하기 위한 첫 화면은 목차 테이블이며, 그 중 한 항목이 클릭되면 그 항목의 내용이 제공되고, 만약 그 하위에 속하는 항목들이 있다면 그들에 대한 링크를 역시 제공한다. 이러한 방법으로 한 문서의 전체를 그 논리 구조에 따라 사용자가 원하는 대로 검색할 수 있다. 이 시스템은 멀티미디어 타입의 문서를 하이퍼미디어 문서 형식으로 변환할 수 있도록 확장하여 보완 개발될 수 있고, 장래에 전자 출판과 전자 도서관에 응용될 수 있다.

  • PDF

Design and Implement of an XSLT Processor Using Object-Oriented Modeling Method (객체모델링 기법을 이용한 XSLT 처리기의 설계 및 구현)

  • In, Kyung-Sook;Ha, Yan;Lee, Kyung-Whan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.508-510
    • /
    • 2001
  • 본 XSLT 처리기는 객체모델링 기법인 UML을 기반으로 설계하였고 핵심적인 부분은 XSL 스타일 시트를 HTML 패스/스타일로부터 구성해 내는 것이다 즉 문서 작성자는 XML문서를 작성하고 파싱하여 패스 테이블을 형성하고 이 패스 테이블에 작성자는 HTML패스/스타일을 추가한다. 이를 통해 XSL의 복잡한 스타일에 대한 고려없이 문서구조와 정보에 집중하여 견고한 문서를 만들 수 있다. 즉 구조 문서인 XML과 콘텐츠 타인의 대중적인 문서형인 HTML을 이용함으로써 적은 비용으로 다양한 문서 스타일을 구성할 수 있게 하여 XML 기술을 쉽게 보급시키며 컴포넌트 제작을 통해 다른 산업영역 문서교환에서 활용할 수 있다.

  • PDF

WebSiteGen : a Too for Automatic Generation of Web-based Database Applications (WebSiteGen: 웹 기반 데이터베이스 응용의 자동 생성 도구)

  • 유은자;음두헌
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.109-111
    • /
    • 2001
  • 오늘날 우리는 HTML 폼을 통해 지역 데이터베이스뿐 아니라 원격 데이터베이스도 쉽게 접근할 수 있다. HTML 폼으로 데이터베이스 응용을 구현하는 것이 쉽기는 하나 아직 HTML 폼과 CGI 프로그램은 코딩되어야만 한다. 본 논문에서는, 응용 데이터베이스 구축을 위한 SQL 문장들, 사용자 인터페이스로 사용되는 폼들, 그리고 그 품들을 통해 이루어진 질의를 처리하는 자바 서블릿을 자동으로 생성하는 소프트웨어 도구를 소개한다. 생성될 테이블들과 폼들은 응용을 위한 클래스 다이어그램으로부터 결정된다. 따라서 WebSiteGen으로 명명한 우리의 소프트웨어 도구는 웹 기반 데이터베이스 응용의 구현을 자동화 한다.

  • PDF

An Open API Proxy Server System for Widget Services (위젯 서비스를 위한 오픈 API 프록시 서버 시스템)

  • Ahn, Byung-Hyun;Lee, Hyuk-Joon;Choi, Yong-Hoon;Chung, Young-Uk
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.9
    • /
    • pp.918-926
    • /
    • 2010
  • A widget is a small application running by the users' favorite services, so they are provided with web contents without explicitly visiting the web site. Although widgets can be easily implemented with Open APIs, only a few web sites provide them because of refactoring the structures of web resource to supply Open APIs to the widget developers. This paper presents an Open API Proxy Server System for widget services. The system consists of two components: an Open API Source Code Generator and an Open API Proxy Server. The Open API Source Code Generator provides a Graphical User Interface (GUI) for users to generate the Open APIs of user's choice and sends the Open API source code generation request to the Open API Proxy Server. The Open API Proxy Server using the HTML Table Processing Library receives the HTML web page from web site and extracts useful information from the target HTML table. The proxy server converts the extracted data into the corresponding XML document which becomes available through the Open API. We verify the operation of the proposed system through experiments with the HTML tables in the example web sites.

Design and Implementation of an HTML Converter Supporting frame for the Wireless Internet (무선 인터넷을 위한 프레임 지원 HTML 변환기의 설계 및 구현)

  • 한진섭;차호정;박병준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.499-501
    • /
    • 2003
  • 본 논문은 무선 인터넷 환경에서 사용자의 편의와 상호 운용성을 고려해서 유선상의 HTML 프레임 콘텐츠를 변환시키는 프레임 지원 HTML 변환기의 설계 및 구현에 대해 기술한다. 구현된 HTML 변환기는 일반 텍스트 콘텐츠의 경우, 일대일 태그 매핑을 통해 WML 콘텐츠로 변환이 된다. 프레임으로 구성된 콘텐츠는 프레임 콘텐츠 재구성 모듈에서 일련의 재구성 과정을 거친 후에 대부분의 프레임 콘텐츠가 여러 메뉴에 대해서 보여지는 타겟 프레임은 하나로 고정되어 있는 것을 고려해서 무선 단말기의 화면에 1행 2열의 테이블 형태의 WML 콘텐츠로 변환이 된다. 즉 좌측열에는 여러 메뉴 콘텐츠를 우측열에는 타겟 프레임에 보여지게 되는 콘텐츠를 위치 시킴으로해서 프레임 콘텐츠의 변환을 수행한다. 추가적으로 이미지 맵이 포함된 콘텐츠의 변환은 이미지 맵 관련 태그를 파싱한 후, 링크되어 있는 HTML 문서의 이름을 추출해서 WML 콘텐츠 데이터로 대체하고, 해당 콘텐츠로 링크시킴으로써 변환이 가능하게 한다.

  • PDF

Automatic Generation of Web-based Database Applications (웹 기반 데이타베이스 응용의 자동 생성)

  • Eum, Du-Heon;Yu, Eun-Ja
    • Journal of KIISE:Databases
    • /
    • v.29 no.3
    • /
    • pp.207-216
    • /
    • 2002
  • Nowadays, we can easily access a remote database as well as a local database with HTML forms. Although implementing a database application with HTML forms is much simpler than implementing it with a proprietary graphical user Interface system, HTML forms and CGI programs still must be coded. We implemented a software tool that automatically generates the SQL statements that create a database for an application, the forms that are used as a user interface, and the Java servlets that retrieve the data requested through the forms. The database tables to be treated and the forms to be generated are determined by the class diagram for the application. Our software tool, which we call WebSiteGen, thus simplifies the implementation of a Web-based database application.