• 제목/요약/키워드: HTML Documents

검색결과 149건 처리시간 0.024초

HTML 테이블의 논리적 구조분석을 위한 효율적인 방법 (An Efficient Method for Logical Structure Analysis of HTML Tables)

  • 김연석;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제9권9호
    • /
    • pp.1231-1246
    • /
    • 2006
  • 시각적 렌더링 포맷인 HTML은 연관된 정보를 간결하게 표현하기 위하여 테이블을 사용한다. 그러나 HTML은 컴퓨터로 하여금 정의를 처리 및 가공하게 한다는 측면에서 한계를 갖기 때문에 논리적 구조정보의 표현이 가능한 XML 문서로의 변환이 필요하다. 본 논문에서는 웹으로부터 정보를 추출하기 위한 목적의 일환으로 HTML 테이블의 논리적인 구조를 추출하여 XML 문서로 변환하는 효율적인 방법을 제안한다. 제안된 방법은 영역구분과 구조분석의 두 단계로 구성된다. 영역구분 단계에서는 잡음영역을 제거하며 시각적 및 의미적 일관성 검사를 통하여 테이블에 존재하는 속성과 값 영역을 구분한다. 이후 구조분석 단계에서는 구분된 영역에 제안된 테이블 모델을 적용하여 계층구조를 추출하며, 이로부터 XML 문서를 생성한다. 제안된 영역구분 방법의 성능을 평가하기 위하여 1,180개의 테이블을 대상으로 실험한 결과, 평균적으로 86.7%의 정확도를 보여 기존 연구보다 우수하였다.

  • PDF

HTML을 위한 데이터베이스기반 스크립트언어의 코드 라이브러리 설계와 구현 (Design and Implementation of the script language code library based database for HTML)

  • 박영조;방혜자
    • 디지털산업정보학회논문지
    • /
    • 제9권4호
    • /
    • pp.1-10
    • /
    • 2013
  • Recently many documents have been written by HTML due to the expansion of the Internet and WWW. HTML allows scripting languages to interact between an user and an browser. Sometimes there might have problems with some functions of the script language. Some functions have the same name although the different contents and vice versa. It presents tremendous difficulties to maintain the functions. And, a file includes many functions shared among documents. If a user tries to see a HTML document, the file will be sent to the web browser in the user system. The network resource is wasted due to moving all data in the file through the network although some functions in the file is not used. So, we should design and implement the code library of a script language with a database. Each function has the name and arguments. A system of the code library manages functions with them. The system has the functions consistency and reduces the network resource consumption because there are only necessary functions in documents. Beside it is easy for the system to modify and reuse the functions.

무선 인터넷 컨텐츠의 자동 생성을 위한 WML 변환기와 WML 편집기의 설계 및 구현 (Design and Implementation of a WML Converter and WML Editor for Automatic Generation of Wireless Internet Content)

  • 전윤주;최은혜;정현숙;조혜영;이민수;용환승
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.309-318
    • /
    • 2005
  • 기존의 HTML 컨텐츠와 관련 응용들을 효과적으로 무선 인터넷 사용자들에게 전달하기 위하여 HTML 문서를 WML 기반의 문서로 효율적으로 변환하고 저작하여 양질의 컨텐츠를 제공하는 제반기술 및 연구에 대한 필요성이 커지고 있다. 본 논문에서는 HTML을 사용하여 제작된 기존 웹 페이지를 실시간으로 처리하여 WAP 환경에 적합한 언어인 WML 문서로 변환해주는 WML 변환기, 그리고 WML 문서를 WYSIWYG방식으로 생성하고 관리할 수 있는 WML 편집기를 설계하고 구현함으로써 무선 환경에 적합한 서비스의 제공이 가능하도록 하였다. 구현된 WML 변환기는 프록시 서버에 설치하여 실시간으로 변환하는 기능을 지원할 뿐만 아니라 기존의 변환기에 비해서 다양한 이미지 변환 및 링크, 프레임에 대한 태그 변환을 개선함으로써 링크를 통한 연속적인 탐색이 가능하고 프레임으로 구성된 복잡한 웹 페이지도 볼 수 있게 하였다. 이외에도 휴대폰 크기에 맞도록 WML 문서의 자동적인 카드 분리, 사용자 정의 변환 규칙의 추가를 지원한다. 또한 WYSIWYG 방식의 편리한 WML 편집기와 통합되어 있어서 WML 문서의 생성부터 출판까지 통합환경을 제공한다.

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

Design and Implementation of the Document HTML System for Preserving Content Integrity

  • Hyun Cheon Hwang;Ji Su Park;Jin Gon Shon
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.334-346
    • /
    • 2023
  • An electronic document based on PDF has been widely used in customer communication between an enterprise and a customer to deliver personalized content. However, electronic documents based on PDF in the form of paper layouts are not suitable for mobile environments because of low readability and lack of interactive interaction. Even though HTML is an essential language in a mobile environment, electronic document based on PDF is still used as it has a content integrity verification feature with a digital signature. It means that a user is sacrificing user experience in a mobile environment for content integrity and using paper-layout electronic documents. In this research, we design the Document HTML specification by setting the Document HTML conformance, adding the extended meta tags, and signing the message digest with a digital signature based on public key infrastructure (PKI). Furthermore, we implemented the Document HTML system, which has REST API services to generate and verify the Document HTML, and did experimental verification of the theory. As a result, we have confirmed that the Document HTML has both content integrity and user experience on mobile. Furthermore, the Document HTML is expected to be an alternative document format to deliver personalized content from an enterprise to a customer in a mobile environment instead of the paper layout electronic document such as PDF.

폼에 기반한 HTML 문서 생성 방법 (A Method of Form-Based HTML Documents Generation)

  • 최준용;김병기
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.292-298
    • /
    • 1999
  • An information structure of large size hypermedia application is usually hierarchical, and the sibling nodes in this structure have same or similar tags and contents. a word "개그" that means the common set of sibling nodes in the hierarchical information structure is used in this paper. It proposes a design method that divides form and content from nodes and it proposes HTML page generation algorithm from forms and contents. This method has reusability of form, maintainability of documents and reduction of cost for authoring.

  • PDF

HTML5 iframe 기반 상호작용형 융합 콘텐츠 저작을 위한 XML 데이터 모형 및 해석기 개발 (XML Data Model and Interpreter Development for Authoring Interactive Convergence Contents based on HTML5 iframe)

  • 이준정;홍준석;김우주
    • 한국콘텐츠학회논문지
    • /
    • 제20권12호
    • /
    • pp.250-265
    • /
    • 2020
  • N-Screen 환경에서 HTML5 표준 기반 콘텐츠 개발은 필연적이다. 그러나 높은 개발 비용과 개발 인프라 부족 등의 이유로 HTML5 조작형 콘텐츠 개발은 소극적이다. 이에 동영상, 오디오와 같은 멀티미디어 콘텐츠를 동적 조작 구현이 가능한 HTML5와 융합하여 사용자와 상호작용이 가능한 효율적인 콘텐츠 개발 모형을 제안하고자 한다. 제안 모형은 통합 제어용 플레이어를 포함한 HTML5 레이아웃 내에 멀티미디어와 iframe(inline frame) 영역을 구분 배치하도록 설계하였다. 상호작용형 HTML5 문서들은 화면 단위로 나누어 작성하여 iframe을 통하여 제공된다. HTML5의

HTML 태그 깊이 임베딩: 웹 문서 기계 독해 성능 개선을 위한 BERT 모델의 입력 임베딩 기법 (HTML Tag Depth Embedding: An Input Embedding Method of the BERT Model for Improving Web Document Reading Comprehension Performance)

  • 목진왕;장현재;이현섭
    • 사물인터넷융복합논문지
    • /
    • 제8권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 최근 종단 장치(Edge Device)의 수가 증가함에 따라 빅데이터가 생성되었고 특히 정제되지 않은 HTML 문서가 증가하고 있다. 따라서 자연어 처리 모델을 이용해 HTML 문서 내에서 중요한 정보를 찾아내는 기계 독해(Machine Reading Comprehension) 기술이 중요해지고 있다. 본 논문에서는 기계 독해의 여러 연구에서 준수한 성능을 보이는 BERT(Bidirectional Encoder Representations from Transformers) 모델이 HTML 문서 구조의 깊이를 효과적으 로 학습할 수 있는 HTDE(HTML Tag Depth Embedding Method)를 제안하였다. HTDE는 BERT의 각 입력 토큰에 대하여 HTML 문서로부터 태그 스택을 생성하고 깊이 정보를 추출한다. 그리고 BERT의 입력 임베딩에 토큰의 깊이를 입력으로하는 HTML 임베딩을 더한다. 이 방법은 문서 구조를 토큰 단위로 표현하여 주변 토큰과의 관계를 식별할 수 있기 때문에 HTML 문서에 대한 BERT의 정확도를 향상시키는 효과가 있다. 마지막으로 실험을 통해 BERT의 기존 임베딩 기법에 비해 HTML 구조에 대한 모델 예측 정확도가 향상됨을 증명하였다.

Semi-Automatic Ontology Construction from HTML Documents: A conversion of Text-formed Information into OWL 2

  • Im, Chan jong;Kim, Do wan
    • International Journal of Contents
    • /
    • 제12권2호
    • /
    • pp.24-30
    • /
    • 2016
  • Ontology is known to be one of the most important technologies in achieving semantic web. It is critical as it represents the knowledge in a machine readable state. World Wide Web Consortium (W3C) has been contributing to the development of ontology for the last several years. However, the recommendation of W3C left out HTML despite the massive amount of information it contains. Also, it is difficult and time consuming to keep up with all the technologies especially in the case of constructing ontology. Thus, we propose a module and methods that reuse HTML documents, extract necessary information from HTML tags and mapping it to OWL 2. We will be combining two kinds of approaches which will be the structural refinement for making an ontology skeleton and linguistic approach for adding detailed information onto the skeleton.

실시간 경매정보 비교 검색을 위한 모니터링 에이전트 시스템 (A Monitoring Agent System for the Comparative Information Search in Real Time Auction)

  • 김철기;이상용
    • 인터넷정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.1-9
    • /
    • 2001
  • 인터넷 전자상거래 기술의 발달에 따라 인터넷 경매 시장이 급속히 성장하고 있다. 인터넷 경매를 위하여 사용자는 수시로 경매 사이트를 방문하고, 경매정보를 모니터링하며, 또한 최종 가격을 평가하려고 시도한다. 그러나 사용자가 이차 같은 일들을 수작업으로 수행하는 것은 너무 비효율적이었다. 본 논문에서는 실시간 경매에서 비교 정보 검색과 사례 베이스 검색을 위한 에이전트 시스템 RAMAS(Real-Time Auction Information Monitoring Agent System)를 구현하였다. RAMAS는 사용자에게 여러 경매 사이트로부터 실시간으로 경매 정보를 제공하며, 사례 베이스로부터 적절한 가격정보도 제공하게 된다. 본 시스템을 이용하면 판매자와 구매자는 실시간 경매정도와 적절한 가격정보를 얻을 수 있다 따라서 그들은 부당한 손실 없이, 보다 효율적으로 적절한 가격에 도달할 수 있다.

  • PDF