• 제목/요약/키워드: HTML 태그

검색결과 108건 처리시간 0.022초

웹용 다국어 기계번역을 위한 전처리기 (A Preprocessing System for Multi-Lingual Machine Translation of Web Pages)

  • 이영우;안동원;서진원;정성종
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.204-206
    • /
    • 1998
  • 여러 언어들로 작성된 웹문서들을 다국어 기계번역기에서 번역하기 위해서는 우선 해당 웹문서가 어떠한 언어로 작성되었는지를 알아내야 한다. 코드 분석을 통하여 웹문서를 작성한 언어를 알게되면 해당 언어를 번역하는 기계번역기를 작동시킬 수 있다. 또한, 웹문서에서 기계번역의 대상은 HTML 태그를 제외한 일반 문장이다. 따라서, 웹용 기계번역의 전처리기에서 웹문서에서 HTML 태그를 분리하여야 하며 번역이 완료된 후 번역된 문서에 HTML 태그를 복원하여 웹브라우저에서 번역된 문서를 볼 수 있어야 한다. 본 논문에서는 웹용 다국어 기계번역을 위한 전처리기의 태그관리기와 코드인식기를 설명한다.

  • PDF

무선 인터넷을 위한 프레임 지원 HTML 변환기의 설계 및 구현 (Design and Implementation of an HTML Converter Supporting frame for the Wireless Internet)

  • 한진섭;차호정;박병준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (C)
    • /
    • pp.499-501
    • /
    • 2003
  • 본 논문은 무선 인터넷 환경에서 사용자의 편의와 상호 운용성을 고려해서 유선상의 HTML 프레임 콘텐츠를 변환시키는 프레임 지원 HTML 변환기의 설계 및 구현에 대해 기술한다. 구현된 HTML 변환기는 일반 텍스트 콘텐츠의 경우, 일대일 태그 매핑을 통해 WML 콘텐츠로 변환이 된다. 프레임으로 구성된 콘텐츠는 프레임 콘텐츠 재구성 모듈에서 일련의 재구성 과정을 거친 후에 대부분의 프레임 콘텐츠가 여러 메뉴에 대해서 보여지는 타겟 프레임은 하나로 고정되어 있는 것을 고려해서 무선 단말기의 화면에 1행 2열의 테이블 형태의 WML 콘텐츠로 변환이 된다. 즉 좌측열에는 여러 메뉴 콘텐츠를 우측열에는 타겟 프레임에 보여지게 되는 콘텐츠를 위치 시킴으로해서 프레임 콘텐츠의 변환을 수행한다. 추가적으로 이미지 맵이 포함된 콘텐츠의 변환은 이미지 맵 관련 태그를 파싱한 후, 링크되어 있는 HTML 문서의 이름을 추출해서 WML 콘텐츠 데이터로 대체하고, 해당 콘텐츠로 링크시킴으로써 변환이 가능하게 한다.

  • PDF

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

심층탐구 / XML

  • 김종민
    • 디지털콘텐츠
    • /
    • 7호통권86호
    • /
    • pp.82-87
    • /
    • 2000
  • XML 구조는 기존의 HTML의 단점을 보완한 SGML의 복잡함을 보완하고 호환성이 있다는 점에서 주목을 끌고 있다. SGML은 마크업 언어의 표준으로 등장했지만 규모가 커서 처리해야할 사항이 너무 많았다. 그리고 HTML은 단순하기는 하지만 사용자가 원하는 모든 작업을 수행하기에는 충분하지 못했다. HTML에 새로운 태그, JavaScript, VBScript와 같은 스크립트 언어들을 추가함으로서 이러한 한계를 극복하려는 시도도 있었다. HTML은 이러한 확장은 가능했지만, 너무 많은 회사들이 난립해 웹상에서 혼란만 초래하게 되었다. 이에 XML구조의 장점과 필요성에 대해서 짚어보았다.

  • PDF

HTML 태그 깊이 임베딩: 웹 문서 기계 독해 성능 개선을 위한 BERT 모델의 입력 임베딩 기법 (HTML Tag Depth Embedding: An Input Embedding Method of the BERT Model for Improving Web Document Reading Comprehension Performance)

  • 목진왕;장현재;이현섭
    • 사물인터넷융복합논문지
    • /
    • 제8권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 최근 종단 장치(Edge Device)의 수가 증가함에 따라 빅데이터가 생성되었고 특히 정제되지 않은 HTML 문서가 증가하고 있다. 따라서 자연어 처리 모델을 이용해 HTML 문서 내에서 중요한 정보를 찾아내는 기계 독해(Machine Reading Comprehension) 기술이 중요해지고 있다. 본 논문에서는 기계 독해의 여러 연구에서 준수한 성능을 보이는 BERT(Bidirectional Encoder Representations from Transformers) 모델이 HTML 문서 구조의 깊이를 효과적으 로 학습할 수 있는 HTDE(HTML Tag Depth Embedding Method)를 제안하였다. HTDE는 BERT의 각 입력 토큰에 대하여 HTML 문서로부터 태그 스택을 생성하고 깊이 정보를 추출한다. 그리고 BERT의 입력 임베딩에 토큰의 깊이를 입력으로하는 HTML 임베딩을 더한다. 이 방법은 문서 구조를 토큰 단위로 표현하여 주변 토큰과의 관계를 식별할 수 있기 때문에 HTML 문서에 대한 BERT의 정확도를 향상시키는 효과가 있다. 마지막으로 실험을 통해 BERT의 기존 임베딩 기법에 비해 HTML 구조에 대한 모델 예측 정확도가 향상됨을 증명하였다.

XML 문서 검색 시스템 설계 (Design of an XML Documents search system)

  • 정지문;이문목;최성
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.134-139
    • /
    • 2000
  • 컴퓨터의 보급 확대, 초고속 통신망 구축 그리고 사용하기 쉬운 브라우저의 개발에 힘입은 웹의 급속한 발전에 의해 인터넷 이용자들이 기하급수적으로 증가하게 되었다. 이러한 웹의 발전에 무엇보다도 크게 영향을 끼친 것 중의 하나가 바로 HTML(Hyper-Text Markup Language)일 것이다. HTML은 SGML(Standard Generalized Markup Language)을 기반으로 한 DTD(Document Type Definition)에 의해 정의되어 있는 한정된 태그(Tag)만을 사용하도록 되어 있어 단순한 홈페이지 작업을 하기에는 매우 용이하나 대용량의 복잡하고 다양한 작업을 하기는 쉽지 않았다. HTML의 단점을 극복하기 위해 개발된 XML은 문서에 대한 의미 공유와 서로 다른 애플리케이션 및 호환이 되지 않는 데이터베이스간의 정보 전달 기능들을 효율적으로 수행할 수 있다. 하지만, 현재 대부분의 XML문서 검색 엔진들은 문서의 구조 정보에 기반한 검색에 중점을 둔 반면, 태그의 의미를 이용한 검색은 지원하지 못한다. 본 논문에서는 XML문서의 보다 효율적인 검색을 지원하기 위해 데이터 레지스트리를 이용하여 태그의 의미를 명시하고 이에 기반한 XML문서 검색 시스템을 연구하였다.

< a href > 태그 추출을 이용한 웹 문서 구조화 (Web site construction using tag extraction)

마크업 패턴을 이용한 웹 검색 (Web Information Retrieval Exploiting Markup Pattern)

  • 김민수;김민구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.407-411
    • /
    • 2007
  • HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.

XML 기반의 이기종 DBMS간 데이터 복제 웹 에이전트 설계 및 구현 (Design and Implementation of Data Replication Web Agent between Heterogeneous DBMSs based on XML)

  • 유선영;임재홍
    • 한국항해항만학회지
    • /
    • 제26권4호
    • /
    • pp.427-433
    • /
    • 2002
  • 최근 인터넷에서 사용되고 있는 하이퍼텍스트 생성 언어(HTML : Hyper Text Markup Language)는 제한된 태그(Tag)들을 사용하기 때문에 문서를 구조화시키지 못해 정보 축적과 정의추출 방법이 비효율적이고 추출한 정보의 가공이 어렵다. 그러나 확장성 생성 언어 (XML ; eXtensible Markup Language)는 사용자가 문서상에 사용될 태그를 자유롭게 정의할 수 있고 다른 사람들도 그 태그를 사용할 수 있기 때문에 HTML에 비해 정보 축적과 정보추출 방법이 용이하다. 서로 다른 데이터베이스를 사용하고 있는 항만 관련 업체들간의 물류에 관한 정보를 공유하거나 교환하기 위해서는 HTML이 아닌 XML이 더 적합하다. 본 논문에서는 항만업체들의 요구를 수용하기 위해 XML을 이용하여 웹에서 이기종 데이터베이스 관리 시스템(DBMS ; Database Management System)간의 데이터 복제 및 정보를 교환할 수 있는 웹 에이전트 시스템을 설계하고 구현하였다.

빈도 분석을 이용한 HTML 텍스트 추출 (HTML Text Extraction Using Frequency Analysis)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권9호
    • /
    • pp.1135-1143
    • /
    • 2021
  • 최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위해서는 웹 크롤러에 빅데이터 분석에 필요한 본문이 포함된 HTML태그와 스타일 속성을 명시해야 하는 번거로움이 있다. 본 논문에서는 HTML태그와 스타일 속성을 명시하지 않고 웹 페이지에서 출현하는 텍스트의 빈도를 이용하여 본문을 추출하는 방법을 제안하였다. 제안한 방법에서는 수집된 모든 웹 페이지의 DOM 트리에서 텍스트를 추출하여 텍스트의 출현 빈도를 분석한 후, 출현 빈도가 높은 텍스트를 제외시킴으로써 본문을 추출하였으며, 본 연구에서 제안한 방법과 기존 방법의 정확도 비교를 통해서 본 연구에서 제안한 방법의 우수성을 검증하였다.