• 제목/요약/키워드: HTML 문서

검색결과 396건 처리시간 0.021초

웹 컨텐츠 변환을 위한 태그 변환기의 설계 및 구현 (Design and Implementation of Tag Converter for Transformation of Web Contents)

  • 이미경;장민수;김재홍;손주찬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1297-1300
    • /
    • 2003
  • 웹상의 컨텐츠에 인터넷 브라우저가 아닌 다양한 이기종의 클라이언트 장치가 접근하더라도, 그 장치에 필요한 형식의 컨텐츠를 실시간으로 변환해주는 문서 변환 시스템(Contents Adaptation & Transformation System)을 구현하였다. 본 논문에서 구현한 태그 변환기는 CATS 문서 변환 시스템에서 마크업 언어간의 태그 변환 기능을 수행한다. 태그 변환기는 변환 기능의 확장성 및 유연성을 확보하기 위해 태그간 변환 정보를 태그 변환기와 분리하여 관리하고 있다 원본 문서가 컨텍스트 정보와 함께 태그 변환기로 입력되면 태그 변환기는 설정파일을 참고하여 태그 변환용 XSL 문서들 중에서 변환에 사용할 XSL 문서를 결정하고 프로세서는 원본문서와 XSL 문서를 이용하여 새로운 문서를 생성하게 된다. 현재 태그 변환기는 HTML로 작성된 문서를 XHTMLBasic, WML, mHTML로 변환해주고 무선 컨텐츠간의 변환(mHTML- WML)도 지원해준다. 그리고 본 태그 변환기의 변환 규칙을 구현한 XSL문서는 유효하지 않은 형태의 HTML문서의 변환을 지원해주고 있다.

  • PDF

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

이동 통신 환경에서 효율적인 웹 문서 변환에 관한 연구 (The Study of Efficient WWW Contents Conversion in a Mobile environment)

  • 강성천;정광수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.667-669
    • /
    • 1999
  • 최근 인터넷과 이동 통신의 발달로 다양한 이동 통시 단말기 환경에서도 인터넷에 접근하는 것이 가능하게 되었다. WWW의 표준인 HTML로 작성된 많은 웹 문서들을 그대로 이동 통신 환경에 적용시키는데는 여러 가지 문제점이 있다. 본 논문에서는 그에 따른 문제점을 지적하고 이동 통신 환경에 기존의 HTML기반의 웹문서를 변환하여 새로운 환경에 적용시키는 효율적인 문서 변환 방법을 제시하며, 또한 이동통신 단말기를 위한 HTML의 부분 집합을 제안한다.

  • PDF

무선 인터넷 컨텐츠의 자동 생성을 위한 WML변환기와 WML편집기의 설계 및 구현 (Design and Implementation of a WML Converter and WML Editor for Automatic Generation of Wireless Internet Content)

  • 전윤주;최은혜;정현숙;조혜영;이민수;용환승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (C)
    • /
    • pp.641-643
    • /
    • 2003
  • HTML 컨텐츠와 관련 어플리케이션을 효과적으로 무선 인터넷 사용자들에게 전달하기 위해서는 HTML 문서를 WML 기반의 문서로 효율적으로 변환하고 저작하여 양질의 컨텐츠를 제공하는 제반기술 및 연구에 대한 필요성이 커지고 있다. 본 논문에서는 HTML을 사용하여 제작된 기존 웹 페이지를 실시간으로 처리하여 WAP 환경에 적합한 언어인 WML 문서로 변환해주는 WML 변환기와 WML 문서를 WYSIWYG방식으로 생성하고 관리할 수 있는 WML 편집기를 설계하고 구현함으로써 무선 환경에 적합한 서비스의 제공이 가능하도록 하였다.

  • PDF

쿠키를 이용한 HTML 문서의 암호화 제안 (Proposition of HTML Encryption Using Cookie)

  • 한소희;조동섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (D)
    • /
    • pp.37-40
    • /
    • 2008
  • 대부분의 인터넷 사용자들은 자신도 모르는 사이에 쿠키의 사용을 허용하고 있다. 또한 쿠키를 사용함으로써 인터넷 속도가 빨라진다는 사실도 아울러 간과하고 있다. 그리고 인터넷을 떠도는 모든 페이지는 HTML 문서로 표현된다. 따라서 누구나 웹 사이트의 소스에 쉽게 접근하여 트랙킹이나 해킹의 도구로써 사용할 수 있다. 본 논문은 필연적으로 사용하게 되는 쿠키를 키로 하여 HTML 문서의 암호화를 제안한다. 특히 웹 서버와 클라이언트 환경으로 한정하여 웹 서버가 클라이언트에게 암호화된 HTML 문서를 전송함으로써 제 3자로 하여금 클라이언트의 액티비티가 전혀 노출되지 않도록 한다.

  • PDF

HTML 문서의 테이블 식별 (Detecting Tables in HTML Documents)

  • 김연석;이경호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.163-165
    • /
    • 2004
  • HTML의 <TABLE> 태그는 연관된 정보를 기술하기 위한 테이블은 물론이고 웹 문서의 레이아웃을 표현하기 위하여 사용된다 본 논문에서는 웹으로부터 유용한 정보를 추출하기 위한 목적의 일환으로 HTML 문서로부터 테이블을 식별하는 효율적인 방법을 제안한다. 제안된 방법은 전처리와 속성-값 연관관계에 추출의 두 단계로 구성된다. 전처리 단계에서는 진짜 테이블 또는 레이아웃용으로 사용된 <TABLE> 태그의 일반적인 특징을 반영한 규칙을 적용하여 진짜 또는 가짜로 명확히 식별이 가능한 <TABLE> 태그를 추출한다. 속성-값 연관관계 추출 단계에서는 테이블 영역을 속성 및 값 영역으로 구분한 후. 값 영역에 대하여 구문적 일관성 검사를 수행한다 또한 값 영역의 크기가 작아서 구문적 일관성 검사를 수행할 수 없는 경우, 속성-칸 영역의 의미적 일관성을 검사한다. 제안된 방법의 성능을 명가하기 위하여 1,393개의 HTML 문서로부터 추출한 11,477개의 <TABLE> 태그를 대상으로 실험한 결과. 평균적으로 97.54%의 정확률과 99.22%의 재현률을 보여 기존 연구보다 우수하였다.

  • PDF

WordNet과 HTML 태그를 활용한 특정영역 정보의 웹 문서 분류 (Web Document Clustering for Specific Subject Information Using WordNet and HTML Tags)

  • 조은휘;변영태
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.28-32
    • /
    • 2002
  • 웹 상의 많은 정보들 속에서 사용자가 원하는 정보를 찾아내는 일은 쉽지 않다. 사용자가 의도하는 양질의 정보 제공을 위해 특정 영역과 관련한 정보 제공 시스템이 .개발되고 있다. 이전 시스템은 특정 영역 관련 지식베이스를 토대로 하여 웹 문서를 수집해 놓고, 사용자에게 정보를 제공한다. 본 논문에서는 전문 사이트 내에 문서간의 유사성을 토대로 하여 동물 영역에 대한 효과적인 문서 클러스타링(clustering)에 관해 실험하였다. 기존의 방법에서는 문서의 분류나 질의어와 관련한 문서 선택이나 순위 결정이 주로 텀(term)을 바탕으로 하고 있다. 본 논문에서는 각 문서 내의 텀 뿐만 아니라 HTML 태그(tag), 지식베이스에 WordNet의 계층구조를 적용한 data를 활용하고, SVD(Singular Value Decomposition)를 사용하여 문서간의 관계를 밝혀내어 문서 분류 및 수집에 이용하였다. 특정 영역의 전문 문서를 많이 제공하는 사이트에 적용하여 좋은 결과를 볼 수 있었다.

  • PDF

Form 기반의 XML 문서 편집기 구현 (Implementation of Form-based XML Document Editor)

  • 고탁현;황인준
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.267-276
    • /
    • 2002
  • 트리 구조를 기반으로 하는 기존의 XML 문서 편집은 사용자고 하여금 XML에 대한 사전 지식을 필요로 한다. 그러나 XML 문서의 작성과 활용이 보편화되기 위해서는 이러한 문서 편집 방식에서 벗어나 누구나 쉽게 작성할 수 있는 환경이 제공되어야 한다. 본 논문에서는 트리 방식의 문서 편집뿐만 아니라 문서의 양식에 근거한 form을 기반으로 하는 편집 환경도 지원하는 새로운 XML 문서 편집기를 제안한다. 특히, form을 이용한 문서 편집은 기업이나 관공서 등과 같이 정형화된 양식을 이용하여 다량의 XML 문서를 작성하는 경우에 아주 효과적이다. Form 자체는 HTML 문서로 표현이 되고 이러한 HTML form은 template XML 문서와 XSL 문서를 이용한 XSLT 적용을 통해 자동적으로 생성된다. 생성된 HTML form은 내장된 브라우저를 통해 사용자에게 보여지며, foam에 입력된 사용자 데이터는 XML 문서로 변환되어 XML 저장소에 저장된다.

이동단말을 위한 적응적 웹 문서 변환 (Adaptive Conversion of Web Content for Mobile Terminals)

  • 강성천;정광수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권6호
    • /
    • pp.635-642
    • /
    • 2000
  • 본 논문에서는 이동 단말에 적응적으로 웹 문서를 제공할 수 있는 효율적인 문서 변환 방법과 적응적 태그 단순화(tag reduction)를 수행하기 위한 RHTML(Reduced HTML)을 제안하였다. 제안한 적응적 문서 변환 방법은 마크업(markup) 오류 제거 과정을 통해 HTML(HyperText Markup Language) 문서를 XML(Extensible Markup Language)의 응용 문서로 변환한다. 이를 통해 웹 문서는 DOM(Document Object Model)을 사용하여 트리 구조로 손쉽게 다루어질 수 있게 되며, 따라서 이동 단말에서 마크업 오류를 수정하는 하드웨어의 부하를 제거할 수 있다. 또한 제안한 문서를 단순화하는 과정에서는 RHTML에 정의 된 3가지의 DTD(Document Type Definition)중 하나를 참고하여 이동 단말에 적응적으로 웹문서를 제공한다.

  • PDF

내장 문자와 사전 구조 지식을 이용한 HTMLtoVXML 변환 에이전트 개발 (Development of HTMLtoVTML Conversion Agent using Embedded Text and Priori Structural Knowledge)

  • 장영건
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.343-350
    • /
    • 2003
  • 본 연구는 음성 인터넷 서비스를 위하여 기존의 HTML 컨텐츠를 자동으로 VXML 컨텐츠로 변환하여 사용하는 방법에 관한 것이다. 문서 변환은 HTML 문서의 해석과 내용 분리에 앞서 컨텐츠의 선택이 필수적으로 요구되지만, 이미 알고 있고, 관심이 있는 내용의 집단적 선택에 대하여는 아직까지 좋은 해법이 없어 보인다. 본 논문에서는 비구조적 데이터로 구성된 웹 문서로부터 필요한 정보 묶음을 선택하기 위하여 웹 문서에 포함된 문자열, 구조에 대한 사용자의 사전 지식을 상호 반응적으로 사용하는 방법을 제안하며, 이를 구현하여 그 타당성을 입증하였다. 제안하는 방식은 기존의 구조적 방식에 의한 선택보다 사용자의 의도를 정확히 반영하며, 문서 표현의 구현 기법의 변화에 강건한 장점이 있다. 또한 컨텐츠 분리 측면에서는 XML또는 XHTML 문서변환을 중간 과정으로 사용하는 방식에 비하여 시간적으로 빠르며, 변환 과정의 부담이 작다.