• 제목/요약/키워드: HTML 태그

검색결과 108건 처리시간 0.032초

가중치를 가지는 웹문서 색인기법에 관한 연구 (A Study of Indexing Methods with weight-value of Web document)

  • 김종영;김철수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2459-2462
    • /
    • 2002
  • 검색된 문헌들에 대한 항해 시간을 줄이기 위해서 검색된 문헌들의 문헌 순위화가 필수적이다. 문헌 순위화를 위해서는 문헌 순위화를 위한 순위화 정보가 필요하다. 본 논문에서는 검색된 문헌들에 대한 순위화를 보다 효율적으로 수행하기 위한 정보를 제공하기 위하여 HTML 문서에 대한 색인 과정에서 다양한 가중치를 가지는 색이어 추출 방법에 관하여 연구하였다. 웹문서들은 태그로 이루어지며 중요한 색인어들은 특정 태그 속에 포함되어 있다는 것에 착안하여 색인어의 중요도에 영향을 줄 수 있는 태그를 선별하고, 선별된 태그들에 대해 휴리스틱 정보를 이용하여 중요도를 부여한 후 선별된 태그에 영향을 받는 문장들에서 추출된 색인어에 대하여 가중치를 부여하는 방법을 이용하였다. 색인어 추출을 형태소 분석기를 이용하였다. 색인어들이 다양한 가중치를 가지므로 검색 과정에서 검색된 문헌들에 대하여 효율적인 순위화가 가능하여 관련 문헌을 보다 빠르게 찾을 수 있는 환경을 제공할 수 있다.

  • PDF

HTML 태그페턴을 이용한 웹정보추출시스템 (Web Information Extraction using HTML Tag Pattern)

  • 박병권
    • 한국정보시스템학회:학술대회논문집
    • /
    • 한국정보시스템학회 2005년도 춘계학술대회 발표 논문집
    • /
    • pp.79-92
    • /
    • 2005
  • To query the vast amount of web pages which are available i]l the Internet, it is necessary to extract the encoded information in the web pages for converting it into structured data (e.g. relational data for SQL) or semistructured data (e.g. XML data for XQuery), In this paper, we propose a new web information extraction system, PIES, to convert web information into XML documents. PIES is based on a user-specified target schema and HTML tag pattern descriptions. The web information is extracted by the pattern descriptions and validated by the target schema. We designed a new language to describe extraction rules, and a new regular expression to describe HTML tag patterns. We implemented PIES and applied it to the US patent web site to evaluate its correctness. It successfully extracted more than thousands of US patent data and converted them into XML documents.

  • PDF

초등학생을 위한 HTML 텍스트 에디터 개발 연구 (A Study on HTML Text Editor Development for Elementary School Students)

  • 이은영;김갑수
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2006년도 하계학술대회
    • /
    • pp.257-262
    • /
    • 2006
  • PISA의 연구 결과에 따르면 컴퓨터 활용 빈도나 ICT 활용 환경 등의 양적 활용 실태는 세계적인 수준이나 프로그램이나 소프트웨어 활동 등의 컴퓨터 질적 활용 정도는 제고될 필요성이 있는 것으로 나타났다. 이는 초등 컴퓨터 교육에도 시사하는 바가 크다. 하지만 인적 물적 여건 등으로 인해 프로그래밍 교육을 초등학교 현장에 바로 적용하기에는 무리가 있다. 따라서 본 논문에서는 언어의 복잡성이 낮고 프로그래밍 단계와 과정이 간단한 HTML을 현장에 효과적으로 적용하기 위한 텍스트 에디터를 개발하고 개선점을 찾아보았다. 텍스트 에디터는 우선 태그를 직접 칠 필요가 없으며 학생들이 쉽게 학습할 수 있도록 도움말을 제시해 주었고 간단한 이미지 뷰어 기능을 통해 쉽게 이미지를 넣을 수 있도록 하였다. 개발된 텍스트 에디터의 효과를 설문지로 조사한 결과 쉽게 HTML 문서를 작성할 수 있어 학습에 도움이 된다는 점과 도움말을 제시한 부분은 긍정적으로 평가된 반면 보다 UI를 좀더 개선해야 한다는 결과가 나왔다.

  • PDF

ASP System구축을 위한 액티브 서버 환경연구 (The Active Server Environment for ASP System develop)

  • 최정호;최성
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.319-323
    • /
    • 2000
  • ASP는 HTML태그와 같이 사용되므로 HTML에 대해서 자세해 알고 있어야 이 부분을 공부하는 데 별 무리가 없을 것이다. 프로그래밍에 대해서 어느 정도 기초적인 지식이 있다고 가정하겠으며 파일 입/출력이나 데이터 베이스의 표준 언어인 SQL 정도는 어느 정도 지식이 필요하다. 또한 HTML 파일 작성에 필요한 자바 스크립트나 비주얼 베이직 스크립트는 물론이고 그 외 HTML 파일의 내용을 요구에 맞게 배치하게 위해 사용하는 CSS1의 기본적인 내용 정도는 알고 있어야 한다고 본다. 뿐만 아니라 CGI 프로그래밍과 웹 서버와 클라이언트의 상호 작용 관계, 그리고 웹 서버 관리하는 방법 등의 내용을 완벽하게 갖추고 있다고는 생각하지는 않는다. 하지만 앞으로 진행해 나가면서 직접 설명을 하지는 않겠지만 이와 같은 기술들이 모두 사용이 될 것이고, ASP는 다른 웹 애플리케이션 언어보다 쉽고, 웹에서의 많은 응용과, 무한한 가능성을 내포하고 있다는 것을 말하고 싶다. 그러므로 ASP에 접근하는 방법에 있어서 운영하는 방법을 연구하였다.

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

전문 웹 사이트에서의 통계적 기법과 태그 정보를 이용한 문서 분류 (Web Document Clustering Using Statistical Techniques & Tag Information on the Specific-Domain Web site)

  • 조은휘;변영태
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.297-302
    • /
    • 2002
  • 특정 영역에 대해 사용자에게 관련 정보를 제공하는 서비스를 위해 정보 에이전트를 개발하고 있다. 이 시스템은 웹 상에서 문서를 수집해 오는데 특정 영역과 관련한 지식베이스를 토대로 하고 있는데, 이들 중 몇몇 전문 사이트 내의 정보가 많이 포함되어 있음을 볼 수 있다. 그러므로 전문 사이트 내의 관련 문서 수집은 중요한 의의가 있다. 본 논문에서는 이들 전문 사이트 내의 전문 문서 수집을 위해 문서간의 유사성을 토대로 클러스터링 한다. 즉, 문서내의 텀(term)과 HTML 태그(tag), 지식베이스의 WordNet 계층구조를 data로 하고 SVD(Singular Value Decomposition)을 사용하여 문서간의 관계를 밝혀내었다.

  • PDF

기계학습을 활용한 소셜 텍스트의 주요 정보 추출 기법 (Extracting Significant Information from Social Text using Machine Learning)

  • 김소현;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.742-745
    • /
    • 2016
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 데이터로부터 유용한 데이터를 추출하는 작업은 매우 중요하다. 이에 본 논문은 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한 뒤 태그의 깊이 특징을 이용하여 주요 본문을 찾는 방법을 제안한다. 직접 수집한 데이터를 이용한 실험에서 태그 분류 정확도가 0.990, 본문을 찾아낸 문서의 비율이 80.5%로 나왔다.

XML 기반의 대용량 유사 문서 편집기/변환기 구현 (Implementation of an XML-Based Editor/Transformer for Large Volume of Similar Documents)

  • 황인준
    • 한국전자거래학회지
    • /
    • 제9권1호
    • /
    • pp.21-38
    • /
    • 2004
  • 최근 웹이 보편화되면서 웹은 이제 거대한 정보의 보고로서 중요한 의미를 가지게 되었다. 현재 웹 상에 존재하는 많은 문서들은 HTML로 작성되어 있다. HTML은 간단하고 배우기가 쉬운 반면, 고정된 태그 등으로 정보 검색에 있어서 비효율적이다. 이러한 단점을 보완하기 위해 XML이 제안되어 현재 다양한 응용에 활용되고 있다. XML은 HTML에 비해 구조적이고 또한 정보의 의미를 적절하게 표현할 수 있어 정보 검색에 있어서 훨씬 효과적이다. 이러한 추세에 맞추어 본 논문에서는 XML 문서를 다양하고 효과적으로 생성하고 관리하는 XML 문서 관리기를 제안한다. 시스템의 특징으로는 첫째, 문서의 양식을 반영하는 폼을 제공하여 XML을 잘 모르는 일반 사용자도 쉽게 새로운 문서를 작성할 수 있게 하였으며 둘째, 이미 존재하는 비슷한 구조를 가지는 HTML문서에 대해서는 자동적인 XML문서로의 변환을 제공하여 기존의 HTML문서도 XML를 통해 관리와 검색을 가능하게 한다. 마지막으로 GUI상에서 문서의 DTD를 편집할 수 있게 하여 DTD 작성을 용이하게 하였다.

  • PDF

태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출 (HTML Text Extraction Using Tag Path and Text Appearance Frequency)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1709-1715
    • /
    • 2021
  • 웹 페이지에서 필요한 텍스트를 정확하게 추출하기 위해 본문이 존재하는 곳의 태그와 스타일 속성을 웹 크롤러에 명시하는 방법은 웹 페이지 구성이 변경될 때마다 본문을 추출하는 로직을 수정해야 하는 문제가 있다. 이러한 문제점을 해결하기 위해 이전 연구에서 제안한 텍스트의 출현 빈도를 분석하여 본문을 추출하는 방법은 웹 페이지의 수집 채널에 따라 성능 편차가 크다는 한계점이 있었다. 따라서 본 논문에서는 텍스트의 출현 빈도뿐만 아니라 웹 페이지의 DOM 트리로부터 추출된 텍스트 노드의 부모 태그 경로를 분석하여 다양한 수집 채널에서 높은 정확도로 본문을 추출하는 방법을 제안하였다.

Java 프로그램의 정보공유를 위한 XML DTD 설계 (The Design of XML DTD for Information Sharing of Java Program)

  • 장근실;유철중;장옥배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.510-512
    • /
    • 1999
  • 개발환경이 고정된 장소에서 분산된 장소로 점차 변함에 따라서 프로젝트나 프로그래밍에 관련된 주변인들 사이에 발생할 수 있는 정보 공유와 교환이 어려워지고 있다. 인터넷과 인트라넷의 급격한 증가로 인해 개발자들은 분산된 환경에서 작업을 수행하는 일이 많아지면서 기존의 HTML을 이용한 문서의 공유나 교환은 HTML의 제한점들로 인해 많은 부담이 된다. 본 논문에서는 분산환경에서 정보공유와 교환을 위해 HTML의 제한점들을 보안하여 확장성이 뛰어나고, 사용자 정의 태그를 지원하며, 문서의 논리적인 정보를 제공할 수 있는 XML을 이용하여 급격한 사용자 증가를 얻고 있는 Java 프로그램을 대상을 하는 정보 공유와 교환에 필요한 정보들을 각 모듈별로 제안하고, 제안된 정보에 대한 HML DTD를 설계한다.

  • PDF