• 제목/요약/키워드: Web News Page

검색결과 24건 처리시간 0.033초

Design and Adaptation for Internet News Data Extraction Middleware(INDEM) System

  • Sun, Bok-Keun
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.55-62
    • /
    • 2016
  • In this paper, we propose the INDEM(Internet News Data Extraction Middleware) system for the removal of the unnecessary data in internet news. Although data on the internet can be used in various fields such as source of data of IR(Information Retrieval), Data mining and knowledge information service, it contains a lot of unnecessary information. The removal of the unnecessary data is a problem to be solved prior to the study of the knowledge-based information service that is based on the data of the web page. The INDEM system parses html and explores the XPath, and it is to perform the analysis. The user simply utilize INDEM by implementing an abstract class that provides INDEM, and can obtain the analysis information. INDEM System through this process delivers the analysis information including the main contents of news site to the users. In this paper, the INDEM system was adapted in a stand-alone and web service system and it was evaluated on the basis of 16 news site. As a result, performance of the INDEM system is affected in html source data size and complexity of used html grammar than the main news data size.

A Study of Main Contents Extraction from Web News Pages based on XPath Analysis

  • Sun, Bok-Keun
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권7호
    • /
    • pp.1-7
    • /
    • 2015
  • Although data on the internet can be used in various fields such as source of data of IR(Information Retrieval), Data mining and knowledge information servece, and contains a lot of unnecessary information. The removal of the unnecessary data is a problem to be solved prior to the study of the knowledge-based information service that is based on the data of the web page, in this paper, we solve the problem through the implementation of XTractor(XPath Extractor). Since XPath is used to navigate the attribute data and the data elements in the XML document, the XPath analysis to be carried out through the XTractor. XTractor Extracts main text by html parsing, XPath grouping and detecting the XPath contains the main data. The result, the recognition and precision rate are showed in 97.9%, 93.9%, except for a few cases in a large amount of experimental data and it was confirmed that it is possible to properly extract the main text of the news.

Main Content Extraction from Web Pages Based on Node Characteristics

  • Liu, Qingtang;Shao, Mingbo;Wu, Linjing;Zhao, Gang;Fan, Guilin;Li, Jun
    • Journal of Computing Science and Engineering
    • /
    • 제11권2호
    • /
    • pp.39-48
    • /
    • 2017
  • Main content extraction of web pages is widely used in search engines, web content aggregation and mobile Internet browsing. However, a mass of irrelevant information such as advertisement, irrelevant navigation and trash information is included in web pages. Such irrelevant information reduces the efficiency of web content processing in content-based applications. The purpose of this paper is to propose an automatic main content extraction method of web pages. In this method, we use two indicators to describe characteristics of web pages: text density and hyperlink density. According to continuous distribution of similar content on a page, we use an estimation algorithm to judge if a node is a content node or a noisy node based on characteristics of the node and neighboring nodes. This algorithm enables us to filter advertisement nodes and irrelevant navigation. Experimental results on 10 news websites revealed that our algorithm could achieve a 96.34% average acceptable rate.

Realization of a Remote Management System for Process Inspection of Chip-Mounter

  • Lim, Sun-Jong;Joon Lyon
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.91.4-91
    • /
    • 2002
  • Today, Internal offers WWW(World Wide Web), remote control, file transfer and e-mail service. Among the services, WWW takes large portion because of convenient GUI, easy information search and unlimited information registration. WWW service gives the comfort in life such as goods purchase, information search, real-time news, internet TV and medical diagnosis. Remote Monitoring Server(RMS) Ssystem that uses internet and WWW is constructed for chip mounter. Hardware base consists of RMS, chip mounter and C/S(Customer Service) service. Software includes DBMS and various modules in server home page. Web browser provide product num her, bad product number, troubl...

  • PDF

개인화된 뉴스 서비스를 위한 소셜 네트워크 기반의 콘텐츠 추천기법 (Content-based Recommendation Based on Social Network for Personalized News Services)

  • 홍명덕;오경진;가명현;조근식
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.57-71
    • /
    • 2013
  • 세계에는 수많은 사람들이 살아가고 있고, 사람들의 일상으로부터 매일, 매 시간 단위로 새로운 뉴스가 발생한다. 발생되는 뉴스는 예정된 일과 예상하지 못한 일들을 포함하고 있다. 발생하는 뉴스의 거대한 양과 이를 전달하는 수많은 미디어들로 인해 사람들은 뉴스 콘텐츠를 이용하는데 많은 시간을 소비하게 된다. 하지만 미디어에 시시각각 나타나는 속보와 실시간 이슈의 대부분이 가십 기사로 이루어져 있어 사용자들이 자신의 성향에 맞는 뉴스를 선별하고, 뉴스로부터 정보를 획득하는 것은 쉽지 않은 일이다. 또한 사용자의 관심사가 시간에 따라 변하기 때문에 뉴스 제공에 있어 사용자의 변하는 관심사를 반영하는 것이 요구된다. 본 논문에서는 사용자의 최근 관심사를 기반으로 사용자 선호도에 맞는 뉴스를 제공하기 위한 콘텐츠 기반의 추천 기법 및 시스템을 제안한다. 사용자의 최근 선호도를 파악하기 위하여 소셜 네트워크 서비스인 Facebook 사용자의 정보와 최근 게시글을 이용하여 동적으로 사용자 프로파일을 생성하여 이를 뉴스 서비스에 활용하고, 사용자 선호도에 적합한 뉴스를 추출하기 위해서 뉴스 콘텐츠의 분석을 요구한다. 뉴스 콘텐츠 분석을 위해 미디어에서 제공되는 뉴스의 카테고리를 사용하고, 뉴스 방송원고의 분석 및 주요 키워드 추출을 통해 뉴스 프로파일을 생성한다. 사용자 프로파일과 뉴스 프로파일 간의 유사도 측정을 위해서는 두 프로파일 간 형식의 일치화가 요구되므로 사용자 프로파일을 뉴스 프로파일과 동일한 형태로 생성한다. 사용자가 시스템에 접속하면 시스템은 사용자 프로파일에 명시된 선호도를 기반으로 뉴스 프로파일과의 유사도를 측정하고, 사용자 선호도에 가장 적합한 뉴스들을 제공하게 된다. 또한 사용자에게 제공된 뉴스 프로파일과 다른 뉴스 프로파일들 간에 유사도를 측정하여 유사도가 높은 관련된 뉴스들을 제공하게 된다. 제안한 개인화된 뉴스 서비스의 성능을 평가하기 위해 사용자에게 추천된 뉴스에 대한 사용자 평가와 시스템 예측값의 오차를 기반으로 6Sub-Vectors 벤치마크 알고리즘과 성능 평가를 수행하였고, 실험 결과를 통해 제안한 시스템의 우수성을 입증하였다.

시멘틱 웹 환경에서의 개인화 검색 (Personalized Search Service in Semantic Web)

  • 김제민;박영택
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.533-540
    • /
    • 2006
  • 웹에 분산된 모든 윈 페이지는 구조가 서로 다르다. 시멘틱 웹 환경은 이형적인 구조를 갖는 웹 페이지들의 메타데이터 바탕으로 시멘틱 검색이 가능하다. 그러나 일반적으로 사용자의 요구에 따른 시멘틱 김색은 상황에 따라 엄청난 수의 검색 결과를 내놓는다. 따라서 검색 결과에 대해 각 사용자에 맞는 검색 결과 순위를 적용할 필요가 있다. Culture Finder는 시멘틱 웹 검색 에이전트들이 개인화 된 문화 정보를 검색할 수 있도록 도움을 준다. Culture Finder는 웹에 존재하는 각 웹 페이지에 대한 메타 데이터를 작성하고, 시멘틱 검색을 이행하며 사용자 프로파일을 기반으로 삼아 검색 결과에 대한 순위 점수를 계산한다. Culture Finder에는 개인화 된 시멘틱 검색을 효율적으로 실행하기 위해 중요한 5가지 기법이 적용되었다. 사용자의 검색 행위로부터 사용자 프로파일을 생성하기 위한 기계 학습기법, 시멘틱 웹 검색 에이전트를 위한 효율적인 시멘틱 검색 기법, 사용자 질의의 효과적인 파악을 위한 질의 분석 기법, 각 사용자에게 적합한 검색 결과를 제공하기 위한 순위 적용 기술, 메타데이터를 생성하기 위한 상위 온톨로지 표현 방법, 본 논문에서는 Culture Finder의 구조를 통해서 시멘틱 개인화 검색에 대한 기법을 제안한다.

래퍼 기반 경제 데이터 수집 시스템 설계 및 구현 (Wrapper-based Economy Data Collection System Design And Implementation)

  • 박철호;구영현;유성준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.227-230
    • /
    • 2015
  • 경제의 흐름, 주가 등을 분석, 예측을 위해 경제 뉴스, 주가 등 데이터 수집이 필요하다. 일반적인 웹 크롤러는 자동적으로 웹서버를 방문하면서 웹페이지 내용을 분석하고 URL들을 추출하면서 웹 문서를 수집한다. 반면 특정한 주제의 문서만을 수집할 수 있는 크롤러 형태도 있다. 특정 사이트에서 경제 뉴스 정보만 수집하기 위하여 사이트의 구조를 분석하고 직접적으로 데이터를 수집해올 수 있는 래퍼 기반 웹 크롤러 설계가 필요하다. 본 논문에서는 빅데이터를 기반으로, 경제뉴스 분석 시스템을 위한 크롤러 래퍼를 설계, 구현하여 경제 전문 분야의 뉴스 데이터를 수집하였다. 2000년부터 현재까지 미국 자동차 시장의 주식 데이터를 래퍼 기반으로 가져오고, 사이트 상에서의 데이터가 업데이트되는 주기를 판단하여 주기적으로 업데이트 함으로써 중복되지 않게 하였다. 그리고 미국, 한국의 경제 기사를 래퍼 기반의 웹 크롤러를 사용하여 수집하고, 향후 분석이 쉽게 데이터를 정형화 시켜 저장한다.

  • PDF

웹 서버 연동의 실시간 디지털 정보 디스플레이 시스템 (Realtime Digital Information Display System based on Web Server)

  • 이세훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권1호
    • /
    • pp.153-161
    • /
    • 2009
  • 이 논문에서는 인터넷상의 실시간 날씨 정보, 실시간 뉴스, 생활 정보 같은 콘텐츠나 특정 홈페이지 또는 자체에서 제작한 각종 홍보 및 광고용 플래시 및 동영상 콘텐츠를 자동 실행하는 DID(Digital Information Display) 서비스를 설계 및 구현하였다. 제안된 DID 시스템은 클라이언트/서버 구조를 갖으며, 서버는 웹서버로부터 스케줄 정보를 받아 클라이언트에게 관련 정보와 데이터를 전송하여, 일시적인 네트워크 장애를 극복할 수 있다. 또한 웹페이지 필터링 기능으로 특정 페이지의 부분적인 정보 추출을 하여 실시간으로 서비스해줌으로써 DID 서비스의 광고효과를 증대할 수 있다.

Information Sharing and Evaluation as Determinants of Spread of Fake News on Social Media among Nigerian Youths: Experience from COVID-19 Pandemic

  • Sulaiman, Kabir Alabi;Adeyemi, Ismail Olatunji;Ayegun, Ibrahim
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제10권4호
    • /
    • pp.65-82
    • /
    • 2020
  • This study examined information sharing and evaluation as determinants of the spread of fake news among Nigerian youths on social media using experience from COVID-19 pandemic. A descriptive survey design was adopted for the study and a Web-based questionnaire (Google Forms) was used to collect data for the study. The total responses of 278 were collected from the participants, which represents the unit of analysis. The finding of the study revealed that most Nigerian youths used Facebook, Twitter, WhatsApp and Instagram to share information on COVID-19. However, only a few Nigerians used Linkedln and other types of social media to share information on COVID-19. It was also found that building a relationship with social media communities, enjoyment and risk taking, and political inclination influence the sharing behavior of Nigerian youths during the COVID-19 pandemic. Results show that social media handle/page found sharing of fake news on COVID-19 especially on the treatment, vaccines numbers of cases and symptoms. The study concludes that there is a positive relationship between information evaluation and the spreading of fake news on COVID-19 among Nigerians. Information sharing and evaluation should be done with the utmost level of objectivity and sincerity.

스마트폰 도입이 포털사이트 이용에 미친 영향: 스마트폰 이용자의 웹 트래픽 분석을 통한 탐색적 연구 (The Influence of the Introduction of Smart Phone on Using Portal Sites: An Exploratory Study by the Analysis on Smart Phone Users' Web Traffic)

  • 김위근
    • 한국언론정보학보
    • /
    • 제64권
    • /
    • pp.109-135
    • /
    • 2013
  • 이 연구는 스마트폰 이용이 기존 미디어 환경에서 가장 영향력이 있었던 포털의 이용에 어떤 영향을 미치는가를 경험적으로 검증하고자 실시됐다. 이를 위해 스마트폰 이용자의 실제 이용 행동인 트래픽 데이터를 종단적으로 수집해 분석했다. 연구결과, 먼저 PC 웹에서 가장 많은 이용을 보이는 포털 유형은 스마트폰이 본격적으로 보급되고 일상화된 2년 사이에 이용시간의 약 15%, 페이지뷰의 약 35%가 줄어든 것으로 확인됐다. 포털 섹션별로는 커뮤니티, 뉴스미디어, 동영상, 모바일, 게임 섹션 등에서 이용이 줄어든 것으로 나타났다. 다음으로, 스마트폰을 통한 모바일 웹 이용에서 포털이 차지하는 비율은 PC 웹 이용보다 훨씬 높은 것으로 확인됐다. PC 웹 이용 트래픽의 3분의 1 이상이 포털에서 발생했지만, 스마트폰을 통한 모바일 웹 이용 트래픽에서는 3분의 2 이상이었다. 모바일 포털 섹션 중에서는 뉴스미디어 섹션의 이용이 가장 많았다. 한편, 스마트폰 도입 이후 전체적으로 포털 섹션 중 뉴스미디어, 커뮤니케이션, 생활 섹션 등은 이용이 크게 늘어난 반면에, 커뮤니티, 모바일, 게임 섹션 등은 이용이 크게 줄어든 것으로 확인됐다.

  • PDF