• 제목/요약/키워드: web content extraction

검색결과 38건 처리시간 0.026초

HTML 논리적 구조분석을 통한 본문추출 알고리즘 (Text Extraction Algorithm using the HTML Logical Structure Analysis)

  • 전현지;고찬
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권3호
    • /
    • pp.445-455
    • /
    • 2015
  • 인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며, 이로 인해 다양한 웹 저작 도구 및 새로운 웹 표준의 출현과 웹에 대한 접근성이 보다 편리해지면서 매우 다양한 종류의 웹 콘텐츠들이 아주 빠르게 생산되고 있다. 하지만 웹 문서는 여러 블록으로 나누어 다양한 주제를 담아내고 있으며, 각각의 블록들이 서로 연관성이 없는 주제를 다루는 경우가 많을 뿐만 아니라 네비게이션, 단순한 장식물, 광고, 저작권 정보 등과 같이 콘텐츠로 볼 수 없는 블록들도 존재한다. 이러한 문제를 해결하기 위해 HTML 웹 문서의 정확한 본문영역만을 추출하여 사용자 요구조건을 충족하고 효과적으로 정보를 학습할 수 있도록 하며, 추후에는 문서를 체계적으로 관리할 수 있게 최적화된 웹 검색 시스템으로서의 재구성 방법을 제안하고자 한다.

빈도 분석을 이용한 HTML 텍스트 추출 (HTML Text Extraction Using Frequency Analysis)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권9호
    • /
    • pp.1135-1143
    • /
    • 2021
  • 최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위해서는 웹 크롤러에 빅데이터 분석에 필요한 본문이 포함된 HTML태그와 스타일 속성을 명시해야 하는 번거로움이 있다. 본 논문에서는 HTML태그와 스타일 속성을 명시하지 않고 웹 페이지에서 출현하는 텍스트의 빈도를 이용하여 본문을 추출하는 방법을 제안하였다. 제안한 방법에서는 수집된 모든 웹 페이지의 DOM 트리에서 텍스트를 추출하여 텍스트의 출현 빈도를 분석한 후, 출현 빈도가 높은 텍스트를 제외시킴으로써 본문을 추출하였으며, 본 연구에서 제안한 방법과 기존 방법의 정확도 비교를 통해서 본 연구에서 제안한 방법의 우수성을 검증하였다.

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 (Intelligent Web Crawler for Supporting Big Data Analysis Services)

  • 서동민;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.575-584
    • /
    • 2013
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.

스타일 기반 키워드 추출 및 키워드 마이닝 프로파일 기반 웹 검색 방법 (An Efficient Web Search Method Based on a Style-based Keyword Extraction and a Keyword Mining Profile)

  • 주길홍;이준휘;이원석
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1049-1062
    • /
    • 2004
  • World Wide Web의 대중화로 인해 전자 정보량이 급속하게 증가하였고, 이러한 많은 양의 다양한 정보에 대한 효율적인 검색 시스템의 필요성이 증대되었다. 정확한 검색 결과를 제공하기 위해 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 웹 검색 방법에 있어서 목표 검색어만을 가지고 검색을 수행하는 기존 검색 방법과 달리 검색어가 나타나는 문맥 정보를 추가하여 검색하는 방법을 제안하고 구현하였다. 또한 본 논문에서는 제안된 새로운 키워드 추출 방법으로 추출된 키워드를 기반으로 키워드 마이닝 프로파일에 기반한 웹 검색 시스템을 제안하고 구현하였다. 이는 원하는 정보를 대표하는 목표 검색어만 가지고 검색을 수행하는 기존의 검색방법과 달리 검색어가 포함된 문맥정보를 추가하여 검색하기 때문에 기존의 검색방법보다 정확하고 효율적인 정보를 제공한다. 특정 도메인으로부터 순위가 매겨진 도메인 키워드 리스트를 작성하여 이를 기준으로 기존의 출현빈도기반의 차이를 실험을 통하여 보였으며, 예제 기반 질의를 바탕으로 키워드 마이닝 프로파일을 만들어 검색을 수행하는 검색 방법으로 이의 효용성을 실험을 통해 검증하였다.

RSS와 OLAP 큐브를 이용한 FOAF의 동적 관리 기법 (A Dynamic Management Method for FOAF Using RSS and OLAP cube)

  • 손종수;정인정
    • 지능정보연구
    • /
    • 제17권2호
    • /
    • pp.39-60
    • /
    • 2011
  • 웹 2.0 기술이 소개된 이후 소셜 네트워크 서비스는 미래 정보기술의 기초로서 중요하게 인식되고 있다. 이에, 웹2.0 환경에서 소셜 네트워크를 구축하기 위하여 온톨로지 기반의 사용자 프로필 기술 도구인 FOAF를 활용하기 위한 다양한 연구가 이뤄지고 있다. 그러나 FOAF를 이용하여 소셜 네트워크를 생성 및 관리하는 대부분의 방법은 시간의 흐름에 따라 변화하는 사용자의 소셜 네트워크를 자동적으로 반영하기 어려운 단점이 있으며 다양한 소셜 미디어 서비스가 제공되는 환경에서는 FOAF를 동적으로 관리하기가 쉽지 않다. 따라서 본 논문에서는 기존 FOAF를 이용한 소셜 네트워크 추출방법의 한계를 극복하기 위하여 사용자 프로파일 기술 언어인 FOAF와 웹 저작물 출판 매커니즘인 RSS를 OLAP 시스템에 적용시켜 동적으로 FOAF를 갱신하고 관리하기 위한 방법을 제안한다. 본 논문에서 제안하는 방법은 수집한 FOAF와 RSS 파일들을 스타스키마로 설계된 데이터베이스에 넣어 OLAP 큐브를 생성한다. 그리고 OLAP 연산을 이용하여 사용자의 연결관계를 분석하고 FOAF에 그 결과를 반영한다. 본 논문에서 제안하는 방법은 이기종 분산처리 환경 하에서 데이터의 상호호환성을 보장할 뿐만 아니라 시간의 흐름에 따른 사용자의 관심 및 이슈 등의 변화를 효과적으로 반영한다.

소형 화면 단말기를 위한 웹 문서 변환 기법 (Web Document Transcoding Technique for Small Display Devices)

  • 신희숙;마평수;조수선;이동우
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1145-1156
    • /
    • 2002
  • 본 논문에서는 기존의 일반 PC 화면에 적합하도록 작성된 웹 문서를 무선 환경의 핸드헬드 계열의 소형 단말기 화면에서도 효율적으로 표현되어지도록 변환하는 기법을 제시한다. 이는 선행 연구에서 나타나는 단순한 텍스트 위주의 추출 및 요약 형식의 변환과는 달리, 시각적인 분리에 근거한 내용 블록 단위를 설정하고 이를 기본으로 변환을 수행함으로써 보다 정확한 변환 결과를 얻으며, 내용 블록 단위들의 재배치와 새로운 인덱스 형식의 재표현을 통하여 편리한 인터페이스로 좌우스크롤 없는 웹 문서를 제공한다 이를 위하여 본 논문에서는 Layout-Forming Tag Analysis Algorithm과 Component Grouping Algorithm을 사용하여 시각적 표현을 주도하는 태그 정보에 대한 구조적인 분석 및 내용 블록 단위의 추출을 시도하고, 분리된 블록들의 분류와 재구성 및 인덱스 생성 과정을 통하여 소형 단말에 적합한 웹 문서를 생성한다. 웹문서 변환 시스템은 프락시 서버에서 동작하도록 설계되었고, 프로토타입의 구현을 통하여 제시하는 변환 기법을 평가하였다. 실제 웹 문서에 대한 검증 과정을 거쳤고, 복잡한 구조의 웹 문서에 대해 적합한 변환 결과를 보였다.

웹에서 축출된 정보를 이용한 축구 경기의 시맨틱 인덱싱 (Semantic Indexing for Soccer Videos Using Web-Extracted Information)

  • ;김명훈;설상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.41-45
    • /
    • 2007
  • The rapid growing of video content production leads to the necessity of developing more complex indexing systems in order to efficiently allow searching, retrieval and presentation of the desired segments of videos. This paper presents a method for indexing soccer video through automatic extraction of information from internet. The proposed paper defines a metadata structure to formally represent the knowledge of soccer matches and provides an automatic method to extract semantic information from web-sites. This approach improves the capability to extract more reliable and richer semantic Information for soccer videos. Experimental results demonstrate that the proposed method provides an efficient performance.

  • PDF

XML데이터를 위한 효율적인 구조 정보 추출 기법 (Efficient Structural Information Extraction for XML Data)

  • 민준기
    • 정보처리학회논문지D
    • /
    • 제14D권3호
    • /
    • pp.285-292
    • /
    • 2007
  • XML 데이터가 웹 상의 데이터 표현 및 교환의 표준으로 각광 받음으로써, XML에 대한 관심이 증대되고 있다. XML 문서의 구조 정보는 몇 가지 중요한 역할을 수행한다. 이러한 중요성에도 불구하고 XML 문서의 구조정보는 필수 요소가 아니다. 따라서, 이러한 구조 정보를 추출하기 위한 다양한 연구들이 진행되어 왔다. 본 논문에서, 우리는 XML 문서를 위한 간결하고 정확한 DTD를 추출하는 기법을 제안한다. 특히 XML 문서의 구조 정보를 위한 DTD의 내용 모델을 DTD와 XML Schema의 혼합 내용(mixed contents)의 타당성 제약 조건을 이용하여 제한하고 본 논문에서 제안하는 몇 가지 경험적 규칙들을 적용함으로써, 우리는 간결성과 효율적을 이룩하였다. 실제 DTD를 이용한 실험을 통하여 본 논문에서 제안하는 기법이 기존의 접근 방법들에 비하여 뛰어남을 보였다.

이기종 CBIR 시스템을 위한 FEMAL (FEMAL for Heterogeneous CBIR System)

  • 김현종;박영배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권9호
    • /
    • pp.853-867
    • /
    • 2005
  • 지금까지 많은 내용 기반 이미지 검색 방법들이 제안되고 있다. 이 시스템들은 각 시스템마다 다른 이미지 데이타를 이용하고, 다른 특징 추출방법에 따라 다른 특징 추출 데이타를 생성하므로, 각 시스템의 검색 성능을 비교 평가할 수가 없다 특히 웹상에서, 동일한 이미지 데이타를 서로 다른 사이트에 있는 내용 기반 이미지 검색 시스템에 적용하여 검색 성능을 비교 평가할 수 없는 문제점이 있다. 이와 같은 문제점을 해결하기 위해서, 각각의 특정한 검색시스템에서 생성된 특징 추출 데이타를 웹상의 다른 검색 시스템에서 인식할 수 있도록, XML 기반의 FEMAL을 제안한다. FEMAL을 이용한 실험에서, 특징 추출 데이타를 서로 통신하고 통합이 가능함을 보이고, 검색 성능의 비교 평가가 가능함을 보인다.

Contents Analysis and Synthesis Scheme for Music Album Cover Art

  • Moon, Dae-Jin;Rho, Seung-Min;Hwang, Een-Jun
    • 전기전자학회논문지
    • /
    • 제14권4호
    • /
    • pp.305-311
    • /
    • 2010
  • Most recent web search engines perform effective keyword-based multimedia contents retrieval by investigating keywords associated with multimedia contents on the Web and comparing them with query keywords. On the other hand, most music and compilation albums provide professional artwork as cover art that will be displayed when the music is played. If the cover art is not available, then the music player just displays some dummy or random images, but this has been a source of dissatisfaction. In this paper, in order to automatically create cover art that is matched with music contents, we propose a music album cover art creation scheme based on music contents analysis and result synthesis. We first (i) analyze music contents and their lyrics and extract representative keywords, (ii) expand the keywords using WordNet and generate various queries, (iii) retrieve related images from the Web using those queries, and finally (iv) synthesize them according to the user preference for album cover art. To show the effectiveness of our scheme, we developed a prototype system and reported some results.