• 제목/요약/키워드: web content extraction

검색결과 38건 처리시간 0.03초

Main Content Extraction from Web Pages Based on Node Characteristics

  • Liu, Qingtang;Shao, Mingbo;Wu, Linjing;Zhao, Gang;Fan, Guilin;Li, Jun
    • Journal of Computing Science and Engineering
    • /
    • 제11권2호
    • /
    • pp.39-48
    • /
    • 2017
  • Main content extraction of web pages is widely used in search engines, web content aggregation and mobile Internet browsing. However, a mass of irrelevant information such as advertisement, irrelevant navigation and trash information is included in web pages. Such irrelevant information reduces the efficiency of web content processing in content-based applications. The purpose of this paper is to propose an automatic main content extraction method of web pages. In this method, we use two indicators to describe characteristics of web pages: text density and hyperlink density. According to continuous distribution of similar content on a page, we use an estimation algorithm to judge if a node is a content node or a noisy node based on characteristics of the node and neighboring nodes. This algorithm enables us to filter advertisement nodes and irrelevant navigation. Experimental results on 10 news websites revealed that our algorithm could achieve a 96.34% average acceptable rate.

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

뉴스 웹 페이지에서 기사 본문 추출에 관한 연구 (A Study on Extracting News Contents from News Web Pages)

  • 이용구
    • 정보관리학회지
    • /
    • 제26권1호
    • /
    • pp.305-320
    • /
    • 2009
  • 웹을 통해 제공되는 뉴스 페이지의 경우 필요한 정보 뿐 아니라 많은 불필요한 정보를 담고 있다. 이러한 불필요한 정보는 뉴스를 처리하는 시스템의 성능 저하와 비효율성을 가져온다. 이 연구에서는 웹 페이지로부터 뉴스 콘텐츠를 추출하기 위해 문장과 블록에 기반한 뉴스 기사 추출 방법을 제시하였다. 또한 이들을 결합하여 최적의 성능을 가져올 수 있는 방안을 모색하였다. 실험 결과, 웹 페이지에 대해 하이퍼링크 텍스트를 제거한 후 문장을 이용한 추출 방법을 적용하였을 때 효과적이었으며, 여기에 블록을 이용한 추출 방법과 결합하였을 때 더 좋은 결과를 가져왔다. 문장을 이용한 추출 방법은 추출 재현율을 높여주는 효과가 있는 것으로 나타났다.

Design and Implementation of Web Crawler with Real-Time Keyword Extraction based on the RAKE Algorithm

  • Zhang, Fei;Jang, Sunggyun;Joe, Inwhee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.395-398
    • /
    • 2017
  • We propose a web crawler system with keyword extraction function in this paper. Researches on the keyword extraction in existing text mining are mostly based on databases which have already been grabbed by documents or corpora, but the purpose of this paper is to establish a real-time keyword extraction system which can extract the keywords of the corresponding text and store them into the database together while grasping the text of the web page. In this paper, we design and implement a crawler combining RAKE keyword extraction algorithm. It can extract keywords from the corresponding content while grasping the content of web page. As a result, the performance of the RAKE algorithm is improved by increasing the weight of the important features (such as the noun appearing in the title). The experimental results show that this method is superior to the existing method and it can extract keywords satisfactorily.

The Concept and Application Methods of Intelligent Content

  • Yoon Yong-Bae;Chae Song-Hwa;Kim Won-Il
    • International Journal of Contents
    • /
    • 제2권3호
    • /
    • pp.1-5
    • /
    • 2006
  • Intelligent Content is defined as detailed information or fragment of content which contains a semantic data structure. This semantic structure makes possible to do various intelligent operations. There are wide range of content-oriented applications such as classification, retrieval, extraction, translation, presentation and question-answering. The concept of Intelligent Content is applied to various fields like MPEG and Semantic Web. In this paper, we discuss the several important researches of Intelligent Content and how to apply this conception to these fields.

  • PDF

PC 클러스터를 이용한 실시간 분산 웹 영상 내용기반 검색 시스템에 관한 연구 (A Study on the Real-time Distributed Content-based Web Image Retrieval System using PC Cluster)

  • 이은애;하석운
    • 한국멀티미디어학회논문지
    • /
    • 제4권6호
    • /
    • pp.534-542
    • /
    • 2001
  • 최근의 내용기반 영상 검객 시스템은 한정된 수의 영상을 저장해 놓은 단일의 서버를 이용하고 있다. 이로 인해 웹 상의 다양한 영상을 원하는 웹 사용자의 요구를 만족시키지 못하고 있다. 수많은 웹 영상을 대상으로 하는 내용기반 영상 검색 시스템은 무엇보다도 실시간에 기반을 두어야 한다. 이를 구현하기 위해서는 영상 수집과 특징 추출에 걸리는 많은 소모 시간 문제가 해결되어야 한다. 최근, 고속의 데이터 처리를 목적으로 부하분산 PC클러스터가 개발되고 있다. 본 논문에서는 많은 시간을 요하는 영상 수집과 특징 추출 작업을 부하분산 PC클러스터의 종속 컴퓨터들에 분배함으로써 전체 검색 시간을 감소시켰으며, 이를 통해 실시간 웹 영상 검색의 가능성을 발견할 수 있었다.

  • PDF

Cloth Product Recognition based on Siamese Network with Body Region Extraction method

  • Budiman, Sutanto Edward;Kurniawan, Edwin;Lee, Seung Heon;Lee, Jae Seung;Lee, Suk-Ho
    • International journal of advanced smart convergence
    • /
    • 제11권2호
    • /
    • pp.128-134
    • /
    • 2022
  • Nowadays, people consume a lot of content such as web dramas or K-pop videos through mobile devices such as smartphones, and the market for indirect advertisements through these web dramas or K-pop videos is also increasing every year. In order to lead to the immediate purchase of indirect products in web dramas, a system that allows consumers to purchase immediately at the time the products appear in the drama is needed. In this paper, we propose a system to allow viewers to purchase products worn by celebrities immediately when viewers see and click on them. When a user clicks on a video, it recognizes the product worn by the celebrity, and displays information on the screen on the most similar product corresponding to the recognized product, allowing them to go to the seller's site where they can purchase it. In order for such a system to operate stably, a pose estimation and siamese network-based system is proposed. The proposed system will primarily be released as a streaming service in the form of an app or web page that connects the products in web dramas or other K-pop video contents screened on the mobile with e-commerce. Furthermore, in the future, the technology is expected to be used globally in various industries such as smart mobility and display kiosks.

주제기반 모바일 웹 콘텐츠 적응화 (Topic-Specific Mobile Web Contents Adaptation)

  • 이은실;강진범;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권6호
    • /
    • pp.539-548
    • /
    • 2007
  • 모바일 콘텐츠 적응화는 데스크탑 PC 용으로 제작되고 표현된 웹 콘텐츠를 크기와 정보량이 제한된 사용자의 무선 모바일 디바이스 환경에 맞게 변환하여 표현해주는 적응화 기술을 말한다. 기존의 웹 콘텐츠 적응화 방법은 대부분 장치 의존적인 접근 방법을 취했다. 또한 소형 장치에 맞게 콘텐츠를 변환하는 작업이 대부분 수동으로 이루어졌고 콘텐츠와 연관된 문맥 정보가 제공되지 않았다. 이 외에도 사용자의 선호도를 반영하지 못하여 모든 사용자에게 동일한 정보를 제공하였다. 이와 같이 기존의 모바일 콘텐츠 적응화 방법은 범용성, 확장성, 사용자 적응성에 문제가 있었고, 그 결과 사용자는 방대한 양의 콘텐츠 중에서 자신이 원하는 정보를 선택하는데 어려움을 겪을 수밖에 없었다. 이러한 문제점을 해결하기 위해 본 논문에서는 모바일 디바이스에 대한 새로운 웹 콘텐츠 적응화 기법을 제시한다. 제안하는 기법의 특징은 모바일 디바이스 적응화와 사용자 적응화를 동시에 적용하는 자동화된 콘텐츠 적응화를 시도하였다는 것이다. 이를 위해 웹 콘텐츠 적응화 과정을 블록 필터링, 블록 제목 추출, 블록 콘텐츠 요약, 학습을 통한 개인화 등의 4 단계로 구성하였다. 이러한 과정을 통해 웹페이지를 블록 단위로 나눠서 불필요한 블록을 제거하고 사용자가 필요로 하는 콘텐츠 블록만을 선별하여 모바일 디바이스에 나타내며, 학습을 통해 사용자가 관심을 가지는 정보를 정보목록의 상위에 놓음으로써 사용자가 선호정보를 편리하게 사용할 수 있도록 하였다. 온라인 뉴스사이트를 서점을 대상으로 한 일련의 실험을 통해 제안하는 모바일 웹 콘텐츠 적응화의 성능을 평가하였으며 디바이스 적응화와 사용자 적응화 모두 만족한 결과를 얻을 수 있었다.

An effective approach to generate Wikipedia infobox of movie domain using semi-structured data

  • Bhuiyan, Hanif;Oh, Kyeong-Jin;Hong, Myung-Duk;Jo, Geun-Sik
    • 인터넷정보학회논문지
    • /
    • 제18권3호
    • /
    • pp.49-61
    • /
    • 2017
  • Wikipedia infoboxes have emerged as an important structured information source on the web. To compose infobox for an article, considerable amount of manual effort is required from an author. Due to this manual involvement, infobox suffers from inconsistency, data heterogeneity, incompleteness, schema drift etc. Prior works attempted to solve those problems by generating infobox automatically based on the corresponding article text. However, there are many articles in Wikipedia that do not have enough text content to generate infobox. In this paper, we present an automated approach to generate infobox for movie domain of Wikipedia by extracting information from several sources of the web instead of relying on article text only. The proposed methodology has been developed using semantic relations of article content and available semi-structured information of the web. It processes the article text through some classification processes to identify the template from the large pool of template list. Finally, it extracts the information for the corresponding template attributes from web and thus generates infobox. Through a comprehensive experimental evaluation the proposed scheme was demonstrated as an effective and efficient approach to generate Wikipedia infobox.

해외사례 분석을 통한 국가바람지도 웹서비스 전략수립 (Case Study to Setup Web-Service Strategy of National Wind Atlas)

  • 김현구;황효정
    • 신재생에너지
    • /
    • 제5권4호
    • /
    • pp.3-8
    • /
    • 2009
  • This global case study pursues diversification and intensification for an application system of the national wind atlas which has been developed to support national strategy building and promotion of wind energy dissemination. We chose nine counties' national wind atlas and compared their map area, extraction height, temporal and spatial resolutions, download services, etc. to derive a best practice for the Korea wind atlas application system. Therefore, the web service content is designed to offer high-resolution height information of which covers wind turbine rotor sweeping area and time-series dataset which can be downloaded for further analysis by users. It is anticipated that the system and web service would contribute greatly to wind energy policy making, business and research sectors.

  • PDF