• 제목/요약/키워드: Web News

검색결과 247건 처리시간 0.023초

래퍼 기반 경제 데이터 수집 시스템 설계 및 구현 (Wrapper-based Economy Data Collection System Design And Implementation)

  • 박철호;구영현;유성준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.227-230
    • /
    • 2015
  • 경제의 흐름, 주가 등을 분석, 예측을 위해 경제 뉴스, 주가 등 데이터 수집이 필요하다. 일반적인 웹 크롤러는 자동적으로 웹서버를 방문하면서 웹페이지 내용을 분석하고 URL들을 추출하면서 웹 문서를 수집한다. 반면 특정한 주제의 문서만을 수집할 수 있는 크롤러 형태도 있다. 특정 사이트에서 경제 뉴스 정보만 수집하기 위하여 사이트의 구조를 분석하고 직접적으로 데이터를 수집해올 수 있는 래퍼 기반 웹 크롤러 설계가 필요하다. 본 논문에서는 빅데이터를 기반으로, 경제뉴스 분석 시스템을 위한 크롤러 래퍼를 설계, 구현하여 경제 전문 분야의 뉴스 데이터를 수집하였다. 2000년부터 현재까지 미국 자동차 시장의 주식 데이터를 래퍼 기반으로 가져오고, 사이트 상에서의 데이터가 업데이트되는 주기를 판단하여 주기적으로 업데이트 함으로써 중복되지 않게 하였다. 그리고 미국, 한국의 경제 기사를 래퍼 기반의 웹 크롤러를 사용하여 수집하고, 향후 분석이 쉽게 데이터를 정형화 시켜 저장한다.

  • PDF

자동요약시스템 구축에 대한 연구 - 웹 상의 보도기사를 중심으로 - (A Study on the Construction of the Automatic Summaries - on the basis of Straight News in the Web -)

  • 이태영
    • 정보관리학회지
    • /
    • 제23권4호
    • /
    • pp.41-67
    • /
    • 2006
  • 웹의 보도기사에 관한 자동요약시스템을 구축하기 위하여 담화구조와 지식기반 기법을 적용한 글구조 프레임과 제 규칙들을 작성하였다. 프레임에는 문단과 문장 및 절의 역할, 문단과 문장의 성질, 역할을 구분하는 판별규칙, 주요문장 발췌규칙, 그리고 요약문 작성규칙 슬롯이 포함되었다. 문맥정의, 고유명사 등을 안내하는 'if-needed'와 변화된 슬롯 값을 알려주는 if-changed 패싯도 구비되었다. 슬롯이나 패싯의 실제 값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 의미흐름의 연결성을 유지하면서 요약 문장들을 통합, 분리, 합성하는 재구성은 유사도공식, 구문정보, 담화구조와 지식기반 방법에서 도출한 제 규칙 및 문맥정의를 이용하였고 비평과 같은 새로운 문장을 생성하였다.

토픽 분석을 활용한 웹 카테고리별 방문자 관심 이슈 식별 방안 (Identifying the Interests of Web Category Visitors Using Topic Analysis)

  • 최성이;김남규
    • Journal of Information Technology Applications and Management
    • /
    • 제21권4_spc호
    • /
    • pp.415-429
    • /
    • 2014
  • With the advent of smart devices, users are able to connect to each other through the Internet without the constraints of time and space. Because the Internet has become increasingly important to users in their everyday lives, reliance on it has grown. As a result, the number of web sites constantly increases and the competition between these sites becomes more intense. Even those sites that operate successfully struggle to establish new strategies for customer retention and customer development in order to survive. Many companies use various customer information in order to establish marketing strategies based on customer group segmentation A method commonly used to determine the customer groups of individual sites is to infer customer characteristics based on the customers' demographic information. However, such information cannot sufficiently represent the real characteristics of customers. For example, users who have similar demographic characteristics could nonetheless have different interests and, therefore, different buying needs. Hence, in this study, customers' interests are first identified through an analysis of their Internet news inquiry records. This information is then integrated in order to identify each web category. The study then analyzes the possibilities for the practical use of the proposed methodology through its application to actual Internet news inquiry records and web site browsing histories.

MyNews : 모바일 환경에서 사용자 관심사를 고려한 XML 문서 트랜스코딩 (MyNews : Personalized XML Document Transcoding Technique for Mobile Device Users)

  • 송특섭;이진상;이경호;손원성;고승규;최윤철;임순범
    • 정보처리학회논문지B
    • /
    • 제12B권2호
    • /
    • pp.181-190
    • /
    • 2005
  • 기존의 웹 컨텐츠를 PDA나 핸드폰등 모바일 디바이스에서 표현하기 위해서는 단말기의 낮은 성능상의 제약으로 인해 적절한 변환이 필요하다. 이와 같이 단말기의 성능을 고려하여 컨텐츠를 변환하는 것을 트랜스 코딩이라 한다. 현재까지 트랜스코딩에 대한 연구들은 사용자의 관심사항온 반영하기 보다는 단말기의 성능을 고려한 연구가 주로 이루어지고 있다. 이는 서비스 제공자 중신의 컨텐츠 변환으로 사용자의 관심사항을 반영하기 곤란하다. 현재 웹컨텐츠의 경우 개인화에 대한 연구가 진행되고 있으나 주로 컨텐츠를 기반으로 하거나 웹로그를 분석하는 등의 방법을 사용하고 있기 때문에 사용자의 명시적인 관심사항을 반영하기 곤란하다. 따라서 본 논문에서는 사용자가 웹문서에서 특정 주제에 대한 관심사항을 명시적으로 표현하는 경우 효과적인 트랜스코딩 기법을 제안한다.

Fake News Detector using Machine Learning Algorithms

  • Diaa Salama;yomna Ibrahim;Radwa Mostafa;Abdelrahman Tolba;Mariam Khaled;John Gerges;Diaa Salama
    • International Journal of Computer Science & Network Security
    • /
    • 제24권7호
    • /
    • pp.195-201
    • /
    • 2024
  • With the Covid-19(Corona Virus) spread all around the world, people are using this propaganda and the desperate need of the citizens to know the news about this mysterious virus by spreading fake news. Some Countries arrested people who spread fake news about this, and others made them pay a fine. And since Social Media has become a significant source of news, .there is a profound need to detect these fake news. The main aim of this research is to develop a web-based model using a combination of machine learning algorithms to detect fake news. The proposed model includes an advanced framework to identify tweets with fake news using Context Analysis; We assumed that Natural Language Processing(NLP) wouldn't be enough alone to make context analysis as Tweets are usually short and do not follow even the most straightforward syntactic rules, so we used Tweets Features as several retweets, several likes and tweet-length we also added statistical credibility analysis for Twitter users. The proposed algorithms are tested on four different benchmark datasets. And Finally, to get the best accuracy, we combined two of the best algorithms used SVM ( which is widely accepted as baseline classifier, especially with binary classification problems ) and Naive Base.

An Analysis of Card News and Deconstructing News Values in Curated News Contents in the Digital Era

  • 홍성철;배정근
    • 인터넷정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.105-111
    • /
    • 2017
  • 본 연구는 새로운 뉴스 콘텐츠로서 카드뉴스를 분석하고 디지털시대에 뉴스가치의 변화에 대해 살펴보았다. 본 연구는 지난 2015년 하반기에 국내 언론사를 통해 보도된 1020개의 카드뉴스에 대한 내용분석을 통해, 뉴스가치에 대한 전통적인 개념들이 변화되고 있음을 확인하였다. 카드뉴스는 새롭게 취재하여 기사화하기보다는 저장된 기존 뉴스들을 재활용하면서, 뉴스가치로서 시의성 보다는 정보제공과 사회적 가치, 오락적 요소를 강조하고 있다. 이는 새로운 뉴스전달방식으로써 카드뉴스는 기존 뉴스에 대한 대체재가 아니라 보완재임을 보여준다. 또한 역피라밋 형태의 글쓰기보다는 리스트 나열형의 기사 작성 방식이 선호되고, 취재원으로서 길거리 일반인(Man-on-the streets)이 자주 인용됨이 발견되었다.

AWS를 활용한 분산 웹 크롤러 기반 가스 안전 이슈 분석 (Issue Analysis on Gas Safety Based on a Distributed Web Crawler Using Amazon Web Services)

  • 김용영;김용기;김대식;김미혜
    • 디지털융복합연구
    • /
    • 제16권12호
    • /
    • pp.317-325
    • /
    • 2018
  • 새로운 경제적 가치를 창출하고 국가경쟁력을 강화할 목적으로 세계 각국의 정부와 주요 민간 기업들은 빅데이터에 지속적인 관심과 과감한 투자를 하고 있다. 뉴스와 같이 객관적인 데이터를 수집하기 위해서, 데이터 무결성 및 품질의 확보는 전제되어야 한다. 포털 뉴스와 같이 객관적이고 방대한 데이터를 바탕으로 의사결정이나 트렌드 분석을 하고자 하는 연구자나 실무자의 경우, 기존 크롤러 방식을 이용할 경우 데이터 수집 자체가 차단되는 문제점이 발생한다. 본 연구에서는 Amazon Web Services (AWS)에서 제공하는 클라우드 서비스 플랫폼을 이용하여 기존 크롤러 방식의 문제점을 해결하여 웹 데이터를 수집하는 방법을 구현하였다. 또한 이를 바탕으로 국민의 안전과 직결되는 가스 안전 관련 기사를 수집하여 가스 안전과 관련된 이슈를 분석하였다. 본 연구를 통해 가스 안전을 확보하기 위해 5가지 분류, 즉 사고/발생, 예방, 유지/관리, 정부/정책, 그리고 대상 등을 기준으로 가스 안전을 위한 전략이 수립되고, 체계적으로 운영되어야 함으로 확인하였다.

유비쿼터스 환경을 위한 RSS 뉴스 채널 컨텐츠의 개인화 모바일 서비스 기법 (A Personalized Mobile Service Method of RSS News Channel Contents for Ubiquitous Environment)

  • 한승현;류동엽;임영환
    • 정보처리학회논문지D
    • /
    • 제14D권4호
    • /
    • pp.427-434
    • /
    • 2007
  • 무선단말기는 유비쿼터스 환경을 위한 최적의 장치지만 무선단말기를 이용한 인터넷 서비스는 데스크 탑 환경에 비해 제한적이다. 따라서 본 연구에서는 컨텐츠 기반의 개인화를 이용한 무선 인터넷 서비스 방법에 대해 제안한다. 기존의 웹사이트의 뉴스기사 검색에서 제공하는 RSS와 연계된 웹 컨텐츠에서 빠르게 데이터를 획득하고, 개인화 기법을 적용하여 수많은 뉴스 채널에서 빠르고 쉽게 선호하는 컨텐츠를 이용할 수 있다. 제안 방법을 사용함으로써 컨텐츠 제작비용을 줄일 수 있으며 사용자들의 선호도에 대응하는 개인화된 모바일 웹 뉴스 컨텐츠를 제공할 수 있다.

웹크롤링을 활용한 뉴스 어뷰징 추론 모델 (News Abusing Inference Model Using Web Crawling)

  • 정경록;박구락;정영석;남기복
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.175-176
    • /
    • 2018
  • 기존 신문이나 티브이가 아닌 온라인과 모바일로 뉴스를 보는 사람이 더 많아지면서, 포털 사이트 뉴스난에 다른 언론사의 기사보다 더 많이 노출되기 위한 경쟁의 심화로 뉴스 어뷰징은 심각한 사회 문제로까지 대두되었다. 본 논문은 온라인상에서 생성, 유통되는 많은 뉴스 중에서 이용자의 시간을 낭비하고 양질의 정보를 찾기 힘들게 하는 뉴스 어뷰징을 판단하는 모델을 제안한다. 제안된 모델은 크롤링 기술을 사용하여 뉴스의 제목과 내용을 가져온 후 인공지능 기술을 이용한 유사도 검사로 기사의 어뷰징 여부를 판단하여 양질의 뉴스 정보를 사용자에게 제공될 수 있다.

  • PDF

키워드의 유사도와 가중치를 적용한 연관 문서 추천 방법 (Method of Related Document Recommendation with Similarity and Weight of Keyword)

  • 임명진;김재현;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1313-1323
    • /
    • 2019
  • With the development of the Internet and the increase of smart phones, various services considering user convenience are increasing, so that users can check news in real time anytime and anywhere. However, online news is categorized by media and category, and it provides only a few related search terms, making it difficult to find related news related to keywords. In order to solve this problem, we propose a method to recommend related documents more accurately by applying Doc2Vec similarity to the specific keywords of news articles and weighting the title and contents of news articles. We collect news articles from Naver politics category by web crawling in Java environment, preprocess them, extract topics using LDA modeling, and find similarities using Doc2Vec. To supplement Doc2Vec, we apply TF-IDF to obtain TC(Title Contents) weights for the title and contents of news articles. Then we combine Doc2Vec similarity and TC weight to generate TC weight-similarity and evaluate the similarity between words using PMI technique to confirm the keyword association.