• Title/Summary/Keyword: HTML 문서

Search Result 396, Processing Time 0.031 seconds

Converting HTML Documents to XML Documents through Interactions with Users (사용자와의 상호작용을 통한 HTML문서의 XML 문서로의 변환)

  • 김승원;민준기;정진완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.103-105
    • /
    • 2002
  • 웹에 데이터를 나타내기 위해서 사용하는 HTML은 데이터를 표시(presentation)하기 위한 언어일 뿐 데이터의 의미를 나타내지는 못한다. 이러한 HTML의 단점을 극복하고 데이터의 표시(presentation)와 의미(semantic)를 나타낼 수 있도록 한 마크업 언어가 XML이다. HTML로 나타난 정보를 제대로 이용하기 위해서는 HTML 문서의 의미(semantic)정보를 알아내야만 한다. HTML 문서를 XML 문서로 변경할 수 있다면, 변경된 문서의 의미 정보를 이용할 수 있을 것이다. HTML 문서 포멧(format)을 XML 문서 포멧(format)으로 변경하기 위한 작업으로 [1]이 있다. [1]에서는 자동으로(automatic) 변환하는 방법을 사용했다. 이러한 방법은 프로그램이 HTML 문서의 의미를 파악하는데 한계가 있기 때문에 변환된 XML 문서에서 문서의 의미를 제대로 나타내기 어렵다는 단점을 안고 있다. 본 논문에서는 HTML 문서의 의미론 제대로 나타내는 XML 문서를 만들기 위해서 사용자가 어느 정도 개려하여 최종적인 XML 문서를 만드는 방법을 제안한다. 제안한 방법은 사용자의 약간의 개입으로 원래 HTML 문서의 의미를 보다 더 잘 나타내는 XML 문서를 만들어낸다.

  • PDF

Design and Implementation of an HTML Pages Modification Detector for Meta-search Engines (메타 검색엔진을 위한 HTML 문서 변경 탐지기의 설계 및 구현)

  • Park, Sang-Wi;O, Jeong-Seok;Lee, Sang-Ho
    • The KIPS Transactions:PartD
    • /
    • v.9D no.3
    • /
    • pp.345-354
    • /
    • 2002
  • HTML pages in the web change at any time. It could cause to decrease the functionality of meta-search engines which provide users with integrated results of search engines. To solve this problem, we propose an HTML pages modification detector. It utilities information of element positions in HTML pages and the modified Jaak Vilo algorithm. The HTML page modification detector uses patterns that represent the structure of HTML expressions occurring repeatedly in HTML pages. An experiment is carried out to verify the correctness of the modification detector.

The Design and Implementation of HTML Document Integrity Management System (HTML 문서의 무결성 유지 시스템의 설계 및 구현)

  • 조이기;이영운;황인문;양수영;김원중
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2002.05a
    • /
    • pp.380-383
    • /
    • 2002
  • It Is difficult to manage broken link with dangling reference, inaccurate reference m the manual site that is consist of HTML documents of much quantity as KLDP(Korean Linux Documentation Project, http:/ /kldp.org) Web site. In this paper. we define relationship and constrain renditions that exist between Web site's HTML documents. And we design and implement HIMS(HTML Document Integrity Management System), which notify user that integrity violation happens or launch trigger operation to keep integrity between HTML documents in case of insert, delete, update.

  • PDF

The Design and Implementation of an Editor Composing DTD and SGML Document (DTD/SGML 문서 저작 도구의 설계 및 구현)

  • Hyeon, Deuk-Chang;Lee, Su-Yeon
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.4
    • /
    • pp.944-954
    • /
    • 1997
  • This study addreses the design and implrmentation of korean SGML(Standard Generalized Markup Langu-age)editor capable of ggenerating DTD(Document Type Definition)s,which can be used at the same time to gen-erate HTML documents as well] as SGML documents using interactive method.HTML is an appkication of SGML and HTML DTD is defined according to the syntax of SGML.Therefore it is possible to generate HTML documents of any versions by replacing the corresponding DTDs and using the implemented editor.This system has been implemented using GUI such as Motif and UIL(User Interface Language)in X-window system and C-language for common modules of functions.

  • PDF

XML Conversion of HTML Documents Using Web Schema (웹 스키마를 이용한 HTML 문서의 XML 변환)

  • 오금용;박동문;황인준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.175-177
    • /
    • 2001
  • 최근에 웹(Web) 사용의 지속적이 증가로 인하여 정보가 급증하고, 이로 인하여 웹은 정보교환의 의미뿐아니라 정보 저장이라는 중요한 의미를 지니게 되었다. 하지만 현재 많은 웹 페이지들이 HTML(Hyper Text Markup Language)문서로 제작되어 있어 정보관리의 의미에서 많은 부족함이 있고 이를 보완하기 위한 방법 중에 하나가 구조적이고 기능적 언어로 부상하고 있는 XML(exTensive Markup Language)을 기반으로 하여 문서를 제작하거나 변환하는 것이다. 본 논문은 HTML문서를 XML문서로 변환하는데 있어HTML문서 구조를 분석하고 분석결과를 토대로 형성되는 웹 스키마(Schema)를 이용하여 구조 중심의 변환이 이루어지도록 하는 방법에 대해서 제안한다.

  • PDF

HTML Tag Depth Embedding: An Input Embedding Method of the BERT Model for Improving Web Document Reading Comprehension Performance (HTML 태그 깊이 임베딩: 웹 문서 기계 독해 성능 개선을 위한 BERT 모델의 입력 임베딩 기법)

  • Mok, Jin-Wang;Jang, Hyun Jae;Lee, Hyun-Seob
    • Journal of Internet of Things and Convergence
    • /
    • v.8 no.5
    • /
    • pp.17-25
    • /
    • 2022
  • Recently the massive amount of data has been generated because of the number of edge devices increases. And especially, the number of raw unstructured HTML documents has been increased. Therefore, MRC(Machine Reading Comprehension) in which a natural language processing model finds the important information within an HTML document is becoming more important. In this paper, we propose HTDE(HTML Tag Depth Embedding Method), which allows the BERT to train the depth of the HTML document structure. HTDE makes a tag stack from the HTML document for each input token in the BERT and then extracts the depth information. After that, we add a HTML embedding layer that takes the depth of the token as input to the step of input embedding of BERT. Since tokenization using HTDE identifies the HTML document structures through the relationship of surrounding tokens, HTDE improves the accuracy of BERT for HTML documents. Finally, we demonstrated that the proposed idea showing the higher accuracy compared than the accuracy using the conventional embedding of BERT.

Design and Implementation of the HTML-WML Converter (무선 인터넷을 위한 HTML-WML 변환기 설계 및 구현)

  • 민영수;강형일;유재수
    • Journal of Internet Computing and Services
    • /
    • v.2 no.2
    • /
    • pp.37-50
    • /
    • 2001
  • To access massive and various HTML documents that are in the web using wireless Internet equipments, another WML document that is equal to the HTML document must be written, In the case Web documents written by HTML are massive, the construction of a WML site with the same information needs much cost of space and time, This paper designs and implements the HTML-XML converter that alleviates such a problem. The HTML-WML converter translates the Web document written by HTML to the WML document for portable wireless equipments, The HTML-XML converter has advantages that it reconstructs WML document dynamically according to portable wireless equipments and processes various image formats such as GIF, JPG, BMP, and so on, The HTML-WML converter can be used as not only a utility of the WML editor but also a real-time converter on wireless Internet.

  • PDF

Design of A Page Modification Detector for Meta-search Engines (메타 검색엔진을 위한 페이지 변경 탐지기 설계)

  • 박상위;오정석;이상호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

A Design of HTML Tag Stack and HTML Embedding Method to Improve Web Document Question Answering Performance of BERT (BERT 의 웹 문서 질의 응답 성능 향상을 위한 HTML 태그 스택 및 HTML 임베딩 기법 설계)

  • Mok, Jin-Wang;Lee, Hyun-Seob
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.583-585
    • /
    • 2022
  • 최근 기술의 발전으로 인해 자연어 처리 모델의 성능이 증가하고 있다. 그에 따라 평문 지문이 아닌 KorQuAD 2.0 과 같은 웹 문서를 지문으로 하는 기계 독해 과제를 해결하려는 연구가 증가하고 있다. 최근 기계 독해 과제의 대부분의 모델은 트랜스포머를 기반으로 하는 추세를 보인다. 그 중 대표적인 모델인 BERT 는 문자열의 순서에 대한 정보를 임베딩 과정에서 전달받는다. 한편 웹 문서는 태그 구조가 존재하므로 문서를 이해하는데 위치 정보 외에도 태그 정보도 유용하게 사용될 수 있다. 그러나 BERT 의 기존 임베딩은 웹 문서의 태그 정보를 추가적으로 모델에 전달하지 않는다는 문제가 있었다. 본 논문에서는 BERT 에 웹 문서 태그 정보를 효과적으로 전달할 수 있는 HTML 임베딩 기법 및 이를 위한 전처리 기법으로 HTML 태그 스택을 소개한다. HTML 태그 스택은 HTML 태그의 정보들을 추출할 수 있고 HTML 임베딩 기법은 이 정보들을 BERT 의 임베딩 과정에 입력으로 추가함으로써 웹 문서 질의 응답 과제의 성능 향상을 기대할 수 있다.

A Design and Implementation of General Help System (범용 도움말 시스템의 설계 및 구현)

  • 주예찬;김형국;권기항
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.641-643
    • /
    • 1998
  • 인터넷 환경의 대중화와 함께 HTML 문서의 사용 범위가 확대되면서, 많은 소프트웨어 벤더들이 HTML 문서 형식으로 도움말을 제공하고 있다. HTML 문서는 작성하기 쉽고, 문서 관계를 쉽게 나타낼 수 있다는 장점이 있지만 사용자가 원하는 정보를 찾기 어렵고 효과적으로 관리할 수 있는 방법이 부족하다. 본 논문에서는 이 문제를 해결하기 위해 웹이나 지역 머신에 위치한 HTML 문서들에서 정보를 추출하고 데이터 베이스화 시키는 도움말 시스템을 설계하고 구현한다.