• 제목/요약/키워드: HTML 문서

검색결과 396건 처리시간 0.024초

사용자와의 상호작용을 통한 HTML문서의 XML 문서로의 변환 (Converting HTML Documents to XML Documents through Interactions with Users)

  • 김승원;민준기;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.103-105
    • /
    • 2002
  • 웹에 데이터를 나타내기 위해서 사용하는 HTML은 데이터를 표시(presentation)하기 위한 언어일 뿐 데이터의 의미를 나타내지는 못한다. 이러한 HTML의 단점을 극복하고 데이터의 표시(presentation)와 의미(semantic)를 나타낼 수 있도록 한 마크업 언어가 XML이다. HTML로 나타난 정보를 제대로 이용하기 위해서는 HTML 문서의 의미(semantic)정보를 알아내야만 한다. HTML 문서를 XML 문서로 변경할 수 있다면, 변경된 문서의 의미 정보를 이용할 수 있을 것이다. HTML 문서 포멧(format)을 XML 문서 포멧(format)으로 변경하기 위한 작업으로 [1]이 있다. [1]에서는 자동으로(automatic) 변환하는 방법을 사용했다. 이러한 방법은 프로그램이 HTML 문서의 의미를 파악하는데 한계가 있기 때문에 변환된 XML 문서에서 문서의 의미를 제대로 나타내기 어렵다는 단점을 안고 있다. 본 논문에서는 HTML 문서의 의미론 제대로 나타내는 XML 문서를 만들기 위해서 사용자가 어느 정도 개려하여 최종적인 XML 문서를 만드는 방법을 제안한다. 제안한 방법은 사용자의 약간의 개입으로 원래 HTML 문서의 의미를 보다 더 잘 나타내는 XML 문서를 만들어낸다.

  • PDF

메타 검색엔진을 위한 HTML 문서 변경 탐지기의 설계 및 구현 (Design and Implementation of an HTML Pages Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.345-354
    • /
    • 2002
  • 검색엔진의 HTML문서는 수시로 변경되고 있으며, 이는 각 검색엔진의 결과 문서를 통합하여 사용자에게 제공하는 메타 검색엔진의 기능을 저하시키는 요인이 된다. 이에 대한 해결방법으로 본 논문에서는 HTML 문서의 변경을 탐지하는 HTML문서 변경 탐지기를 설계하고 구현한다. 문서 변경 탐지기는 문서 구조를 추출하기 위해 위치 정보 알고리즘과 수정된 Jaak Vilo 알고리즘을 사용하고, 그 결과로 패턴을 추출한다. 문서 변경 탐지기는 HTML문서에서 반복적으로 출현하는 구조를 표현하는 패턴을 사용한다. 또한, 문서 변경 탐지기의 정확성을 측정하기 위하여 문서 변경에 대한 전략을 세우고 이를 기반으로 실험을 수행한다.

HTML 문서의 무결성 유지 시스템의 설계 및 구현 (The Design and Implementation of HTML Document Integrity Management System)

  • 조이기;이영운;황인문;양수영;김원중
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 춘계종합학술대회
    • /
    • pp.380-383
    • /
    • 2002
  • KLDP(리눅스 한글 문서 프로젝트, http://kldp.org)와 같이 많은 분량의 HTML 문서들로 이루어진 매뉴얼 사이트를 관리하는데 가장 어려운 점은 현수 참조(dangling reference), 오문 참조 (inaccurate content reference)와 같은 깨진 링크(broken link)를 관리하는 것이다. 본 논문에서는 웹사이트의 HTML 문서들 사이에 존재하는 관계성(Relationship)과 제약 조건(Constraints)을 정의하여, HTML 문서의 삽입, 삭제, 변경이 발생할 경우 사용자에게 통지하거나, 트리거를 수행하여 HTML 문서들의 무결성(Integrity)을 유지할 수 있도록 하는 HIMS(HTML Document Integrity Management System)시스템을 설계 및 구현하였다.

  • PDF

DTD/SGML 문서 저작 도구의 설계 및 구현 (The Design and Implementation of an Editor Composing DTD and SGML Document)

  • 현득창;이수연
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.944-954
    • /
    • 1997
  • 본 연구는 인터엑티브한 방식을 사용하여 문서의 구조를 나타내는 문서 형 정의(DYD) 를 저작할 수 있고, 동시의 문서 형 정의에 기반한 범용적인 SGML 문서는 물론 HTML 문서를 편집할 수 있는 한글SGML 문서와 문서 형 정의 저작 도구로의 설계 및 구현에 관한 것이다. HTML의 문서 형 정의는 SGML의 구문에 따라 정의된 것으로 그에 따르는 HTML문서는 SGML의 한 응용이다. 그러므로 HTML의 어떤 버전의 문서도 그에 대응하는 문서 형 정의와 본 개발 저작 도구만 있으면 저작이 가능하다. 본 시스템은 그래픽 사용자 인터페이스로는 X윈도우 시스템이 Motif와 UIL을 사용하였고, 그밖에 기능 모듈은 C-언어를 이용하여 구현하였다.

  • PDF

웹 스키마를 이용한 HTML 문서의 XML 변환 (XML Conversion of HTML Documents Using Web Schema)

  • 오금용;박동문;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.175-177
    • /
    • 2001
  • 최근에 웹(Web) 사용의 지속적이 증가로 인하여 정보가 급증하고, 이로 인하여 웹은 정보교환의 의미뿐아니라 정보 저장이라는 중요한 의미를 지니게 되었다. 하지만 현재 많은 웹 페이지들이 HTML(Hyper Text Markup Language)문서로 제작되어 있어 정보관리의 의미에서 많은 부족함이 있고 이를 보완하기 위한 방법 중에 하나가 구조적이고 기능적 언어로 부상하고 있는 XML(exTensive Markup Language)을 기반으로 하여 문서를 제작하거나 변환하는 것이다. 본 논문은 HTML문서를 XML문서로 변환하는데 있어HTML문서 구조를 분석하고 분석결과를 토대로 형성되는 웹 스키마(Schema)를 이용하여 구조 중심의 변환이 이루어지도록 하는 방법에 대해서 제안한다.

  • PDF

HTML 태그 깊이 임베딩: 웹 문서 기계 독해 성능 개선을 위한 BERT 모델의 입력 임베딩 기법 (HTML Tag Depth Embedding: An Input Embedding Method of the BERT Model for Improving Web Document Reading Comprehension Performance)

  • 목진왕;장현재;이현섭
    • 사물인터넷융복합논문지
    • /
    • 제8권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 최근 종단 장치(Edge Device)의 수가 증가함에 따라 빅데이터가 생성되었고 특히 정제되지 않은 HTML 문서가 증가하고 있다. 따라서 자연어 처리 모델을 이용해 HTML 문서 내에서 중요한 정보를 찾아내는 기계 독해(Machine Reading Comprehension) 기술이 중요해지고 있다. 본 논문에서는 기계 독해의 여러 연구에서 준수한 성능을 보이는 BERT(Bidirectional Encoder Representations from Transformers) 모델이 HTML 문서 구조의 깊이를 효과적으 로 학습할 수 있는 HTDE(HTML Tag Depth Embedding Method)를 제안하였다. HTDE는 BERT의 각 입력 토큰에 대하여 HTML 문서로부터 태그 스택을 생성하고 깊이 정보를 추출한다. 그리고 BERT의 입력 임베딩에 토큰의 깊이를 입력으로하는 HTML 임베딩을 더한다. 이 방법은 문서 구조를 토큰 단위로 표현하여 주변 토큰과의 관계를 식별할 수 있기 때문에 HTML 문서에 대한 BERT의 정확도를 향상시키는 효과가 있다. 마지막으로 실험을 통해 BERT의 기존 임베딩 기법에 비해 HTML 구조에 대한 모델 예측 정확도가 향상됨을 증명하였다.

무선 인터넷을 위한 HTML-WML 변환기 설계 및 구현 (Design and Implementation of the HTML-WML Converter)

  • 민영수;강형일;유재수
    • 인터넷정보학회논문지
    • /
    • 제2권2호
    • /
    • pp.37-50
    • /
    • 2001
  • 웹 상에 존재하는 HTML로 기술된 방패하고 다양한 정보를 휴대용 무선 장비를 통해 접근할 수 있도록 하려면 HTML로 기술된 문서와 동일한 별도의 WML문서를 작성해야한다. HTML로 구축된 정보의 양이 방대할 경우, 동일한 정보를 가지는 별도의 WML사이트를 구축하는 것은 시간적, 공간적으로 많은 비용이 든다. 본 논문에서는 기존의 HTML로 기술된 웹 문서를 휴대용 무선 장비를 이용하여 접근하려고 할 때, 휴대용 무선 장비에 적합한 WML 문서로 변환해주는 HTML-WML 변환기를 설계하고 구현하였다. 구현된 HTML-WML 변환기는 휴대용 무선 장비에 따라 동적으로 WML 문서를 재구성하고 GIF, JPG, BMP 등과 같은 다양한 이미지 형태를 처리할 수 있는 장점을 가졌으며 무선 인터넷 환경에서의 실시간 변환기뿐만 아니라 WML 에디터와 같은 응용에서도 사용이 가능하다.

  • PDF

메타 검색엔진을 위한 페이지 변경 탐지기 설계 (Design of A Page Modification Detector for Meta-search Engines)

  • 박상위;오정석;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

BERT 의 웹 문서 질의 응답 성능 향상을 위한 HTML 태그 스택 및 HTML 임베딩 기법 설계 (A Design of HTML Tag Stack and HTML Embedding Method to Improve Web Document Question Answering Performance of BERT)

  • 목진왕;이현섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.583-585
    • /
    • 2022
  • 최근 기술의 발전으로 인해 자연어 처리 모델의 성능이 증가하고 있다. 그에 따라 평문 지문이 아닌 KorQuAD 2.0 과 같은 웹 문서를 지문으로 하는 기계 독해 과제를 해결하려는 연구가 증가하고 있다. 최근 기계 독해 과제의 대부분의 모델은 트랜스포머를 기반으로 하는 추세를 보인다. 그 중 대표적인 모델인 BERT 는 문자열의 순서에 대한 정보를 임베딩 과정에서 전달받는다. 한편 웹 문서는 태그 구조가 존재하므로 문서를 이해하는데 위치 정보 외에도 태그 정보도 유용하게 사용될 수 있다. 그러나 BERT 의 기존 임베딩은 웹 문서의 태그 정보를 추가적으로 모델에 전달하지 않는다는 문제가 있었다. 본 논문에서는 BERT 에 웹 문서 태그 정보를 효과적으로 전달할 수 있는 HTML 임베딩 기법 및 이를 위한 전처리 기법으로 HTML 태그 스택을 소개한다. HTML 태그 스택은 HTML 태그의 정보들을 추출할 수 있고 HTML 임베딩 기법은 이 정보들을 BERT 의 임베딩 과정에 입력으로 추가함으로써 웹 문서 질의 응답 과제의 성능 향상을 기대할 수 있다.

범용 도움말 시스템의 설계 및 구현 (A Design and Implementation of General Help System)

  • 주예찬;김형국;권기항
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.641-643
    • /
    • 1998
  • 인터넷 환경의 대중화와 함께 HTML 문서의 사용 범위가 확대되면서, 많은 소프트웨어 벤더들이 HTML 문서 형식으로 도움말을 제공하고 있다. HTML 문서는 작성하기 쉽고, 문서 관계를 쉽게 나타낼 수 있다는 장점이 있지만 사용자가 원하는 정보를 찾기 어렵고 효과적으로 관리할 수 있는 방법이 부족하다. 본 논문에서는 이 문제를 해결하기 위해 웹이나 지역 머신에 위치한 HTML 문서들에서 정보를 추출하고 데이터 베이스화 시키는 도움말 시스템을 설계하고 구현한다.