• Title/Summary/Keyword: 뉴스 데이터

Search Result 544, Processing Time 0.03 seconds

COVID_19 fake news and real news discrimination system (코로나19 가짜뉴스와 진짜뉴스 판별 시스템)

  • Lee, Jimin;Lee, Jisun;Woo, Jiyoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.411-412
    • /
    • 2022
  • 본 논문에서는 코로나19 뉴스와 코로나19 가짜뉴스의 데이터셋을 활용하여 입력 받은 뉴스가 가짜뉴스일 확률을 예측한다. 가짜 뉴스 본문에는 코로나19, 대통령, 정부, 가짜, 언론 등의 키워드의 빈도가 높았다. 위의 키워드를 토대로 나이브 베이즈 모델링을 하여 이를 적용해 가짜 뉴스를 가려내는 웹페이지를 개발하였다.

  • PDF

News Data Analysis Technique using Graph Mining (그래프 마이닝을 이용한 뉴스 데이터 분석 기법)

  • Lee, ChangJu;Park, Kisung;Han, Yongkoo;Lee, Young-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.730-733
    • /
    • 2015
  • 대용량의 인터넷 뉴스 데이터로부터 유용한 정보를 찾기 위해 연관 키워드, 핫 키워드 분석과 같은 다양한 분석 기술들이 연구되고 있다. 기존의 토픽 모델 기반의 기법은 키워드들간의 연관성을 제대로 표현하지 못하여 마이닝한 연관 키워드와 핫 키워드의 정확도가 낮은 문제점이 있다. 최근, 뉴스 데이터를 뉴스 내의 단어를 버텍스로, 같은 문장내의 단어들을 에지로 연결하는 그래프 기반의 모델링기법이 연구되었다. 이러한 뉴스 그래프 DB에서 그래프 마이닝 기술을 적용하면 연관 키워드, 핫 키워드를 마이닝 할 수 있다. 본 논문은 그래프 마이닝 기술 기반의 효과적인 뉴스 데이터 분석 기술을 제안한다. 실제 뉴스 데이터를 통해 마이닝한 유용한 뉴스 그래프 패턴들을 보이고 뉴스 데이터 분석에 효과적으로 활용될 수 있음을 보인다.

New Data Buffering Scheme for News On Demand (NOD 데이터를 위한 새로운 버퍼링 기법)

  • 박용운;백건효;서원일;김영주;정기동
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1997.11a
    • /
    • pp.173-179
    • /
    • 1997
  • 본 연구에서는 실시간 데이터와 비 실시간 데이터가 복합적으로 존재하는 뉴스 데이터에 적합하도록 버퍼 캐쉬를 실시간 데이터와 비 실시간 데이터 영역으로 분할 한 후, 로그 데이터를 이용하여 접근 가능성이 높은 실시간 뉴스데이터를 프리팻칭하여 둠으로써 실시간 뉴스 데이터의 운영을 효과적으로 할 수 있는 새로운 버퍼 캐쉬 알고리즘을 제안한다. 이 방식을 이용함으로써 전체 뉴스 요청 건수 중 30% 이상의 요청 건수들이 디스크를 접근하지 않고 버퍼의 데이터를 접근함으로써 버퍼링 기법을 사용하지 않은 경우보다 실시간 지원에 필요한 디스크 접근 수를 줄일 수 있다.

  • PDF

Survey of Fake News Detection Techniques and Solutions (가짜뉴스 판별 기법 및 해결책 고찰)

  • Lee, HyeJin;Kim, Jinyoung;Paik, Juryon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.01a
    • /
    • pp.37-39
    • /
    • 2020
  • 인터넷 상에서의 허위정보 생산과 유통은 주로 가짜 뉴스를 통하여 이루어진다. 과거에는 신문이나 공중파 TV등 뉴스 기사의 생산과 유통이 매우 제한적이었지만 지금은 인터넷의 발달로 누구나 쉽게 뉴스를 생산하고 유통할 수 있다. 뉴스 생산의 용이성은 정보 공유의 즉각성과 수월성이라는 장점을 제공하지만 반대로 불확실한 뉴스 남발로 인한 정보의 신뢰성 하락과 선량한 피해자를 양산하는 단점 또한 존재한다. 이는 가짜 뉴스가 사회적 문제로 대두되고 있는 이유이다. 에이전트나 스파이더 등의 소프트웨어를 통해 인터넷으로 급속도로 전파되는 가짜 뉴스를 전통 방식인 소수의 전문가가 수동으로 잡아내는 것은 불가능하다. 이에 기술발달로 잡아내기 힘들어진 가짜뉴스에 대해, 역으로 발달된 기술을 활용하여 잡아내려는 시도가 늘어나고 있다. 본 논문에서는 가짜뉴스를 판별하는 다양한 기법들을 탐색하고 해결방안을 제시하고자 한다.

  • PDF

Time Window based Cache Replacement Strategy using Popularity and Life of News-Demand Data (NOD(News On Demand) 데이터의 인기도와 생명주기를 이용하는 시간 윈도우에 기반한 캐시 재배치 기법)

  • 최태욱;박성호;김영주;정기동
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.101-103
    • /
    • 1998
  • 뉴스기사를 구성하는 NOD데이터는 VOD(Video on Demand) 데이터와는 달리 미디어의 종류 및 크기, 시간적인 접근 지역성, 사용자와 상호 작용성 등의 차이점을 가질 뿐만 아니라 새로운 뉴스기사가 수시로 생성되고 사용자가 인기도가 높은 기사와 최신의 뉴스기사에 더 많이 접근하는 특성을 가진다. 본 논문에서는 현재 서비스중인 전자신문의 로그파일을 분석하여 NOD 뉴스기사의 인기도가 Zipf분포와 다름을 보이고, 뉴스기사의 생명주기Lifr Cycle)에 따른 접근 확률분포 제시한다. NOD 데이터의 접근 편기성으로 인하여 데이터 캐싱을 통한 NOD 서버의 성능 향상을 기대할 수 있으나 뉴스기사의 생명주기가 짧고 접근시간대별로 사용자 접근형태가 변하는 등의 이유로 단순히 인기도만 고려한 캐싱은 빈번한 데이터 재배치 문제로 인해 높은 캐시 관리비용을 야기한다. 따라서 본 논문에서는 뉴스 기사의 접근 편기성에 나타나는 인기도(popularity)와 생명주기를 조합한 척도를 제안하고 이를 이용한 재배치를 제안한다.

  • PDF

COVID-19 Cascade Dataset for Fake News Detection (COVID-19 가짜뉴스 탐지를 위한 전파 데이터셋)

  • Han, So-Eun;Kang, Yoonsuk;Ko, Yunyong;Ahn, Jeewon;Kim, Yusim;Oh, Seong Soo;Park, Heejin;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.312-313
    • /
    • 2021
  • 가짜뉴스가 사회연결망 상에서 빠르게 전파되면서 사회적 혼란을 야기하고 있어 가짜뉴스를 탐지하는 것이 중요한 문제로 대두되고 있다. 최근 가짜뉴스 탐지 연구에서 사회연결망의 전파 정보를 활용한 방법이 기존 뉴스 컨텐츠 기반 가짜뉴스 탐지 방법보다 효과적임을 보였다. 따라서 본 논문에서는 기존 CoAID 데이터셋을 기반으로 사회연결망상의 전파 데이터를 포함하는 COVID-19 Cascade 데이터셋을 소개한다. COVID-19 Cascade 를 활용하면 전파 기반 가짜뉴스 탐지 방법에도 적용이 가능하다. 이후 간단한 분석을 통해 진짜뉴스와 가짜뉴스의 차이를 확인한다.

COVID-19 Korean Fake News Detection using Named Entity and User Reproliferation Information (개체명 및 사용자 재확산 정보를 이용한 한국어 COVID-19 가짜 뉴스 검출)

  • Park, Chaewon;Kang, Jiwon;Lee, Daeun;Lee, Munyoung;Han, Jinyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.85-90
    • /
    • 2021
  • 코로나바이러스감염증-19로 인한 팬데믹 상황이 지속되면서 감염증 정보의 불확실성으로 인해 코로나 관련 루머가 온라인상에서 빠르게 전파되고 있다. 이러한 코로나 관련 가짜 뉴스를 사전에 탐지하기 위해, 본 연구에서는 한국어 코로나 가짜 뉴스 데이터셋을 구축하고, 개체명과 사용자 재확산 정보를 이용한 한국어 가짜 뉴스 탐지 모델을 제안한다. 가짜 뉴스 팩트체킹 언론인 서울대팩트체크센터에서 코로나 관련 루머 및 가짜 뉴스에 대한 검증 기사를 수집한 후, 기사로부터 개체명 추출 모델을 통해 주제 키워드를 추출하고, 이를 이용해 유튜브 상의 사용자 재확산 정보를 수집하여 데이터셋을 구성하였다. BERT 기반의 제안 모델을 다양한 비교군과 비교하였고, 특성 조합에 따른 실험을 통해 각 특성 정보(기사 텍스트, 개체명 데이터, 유튜브 데이터)가 가짜 뉴스 탐지 성능에 미치는 영향을 알아보았다.

  • PDF

CoAID+ : COVID-19 News Cascade Dataset for Social Context Based Fake News Detection (CoAID+ : 소셜 컨텍스트 기반 가짜뉴스 탐지를 위한 COVID-19 뉴스 파급 데이터)

  • Han, Soeun;Kang, Yoonsuk;Ko, Yunyong;Ahn, Jeewon;Kim, Yushim;Oh, Seongsoo;Park, Heejin;Kim, Sang-Wook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.4
    • /
    • pp.149-156
    • /
    • 2022
  • In the current COVID-19 pandemic, fake news and misinformation related to COVID-19 have been causing serious confusion in our society. To accurately detect such fake news, social context-based methods have been widely studied in the literature. They detect fake news based on the social context that indicates how a news article is propagated over social media (e.g., Twitter). Most existing COVID-19 related datasets gathered for fake news detection, however, contain only the news content information, but not its social context information. In this case, the social context-based detection methods cannot be applied, which could be a big obstacle in the fake news detection research. To address this issue, in this work, we collect from Twitter the social context information based on CoAID, which is a COVID-19 news content dataset built for fake news detection, thereby building CoAID+ that includes both the news content information and its social context information. The CoAID+ dataset can be utilized in a variety of methods for social context-based fake news detection, thus would help revitalize the fake news detection research area. Finally, through a comprehensive analysis of the CoAID+ dataset in various perspectives, we present some interesting features capable of differentiating real and fake news.

Linked Open Data Construction for Korean Healthcare News (국내 언론사 보건의료 뉴스의 Linked Open Data 구축)

  • Jang, Jong-Seon;Cho, Wan-Sup;Lee, Kyung-hee
    • The Journal of Bigdata
    • /
    • v.1 no.2
    • /
    • pp.79-89
    • /
    • 2016
  • News organizations are looking for a way that can be reused accumulated intellectual property in order to find a new insights. BBC is a worldwide media that continually enhances the value of the news articles by using Linked Data model. Thus, utilizing the Linked Data model, by reusing the stored articles, can significantly improve the value of news articles. In this paper, we conducted a study of Linked Data construction for the healthcare news from a newspaper company. The object names associated with medical description or connected to other published information have been constructed into Linked Open Data service. The results of the study are to systematically organize the news data that were accumulated rashly, and to provide the opportunity to find new insights that could not be found before by connecting to other published information. It may be able to contribute to reused news data. Finally, using SPARQL query language can contribute to interactively searched news data.

  • PDF

Fake News Detection based on Convolutional Neural Network and Sentiment Analysis (합성곱신경망과 감성분석 기반의 가짜뉴스 탐지)

  • Lee, Tae Won;Yang, Yeongwook;Park, Ji Su;Shon, Jin Gon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.64-67
    • /
    • 2021
  • 가짜뉴스는 뉴스 기사 형식을 갖는 날조된 정보를 의미하며, 최근 모바일 인터넷 장치의 보급과 소셜 네트워크 서비스의 대중화로 온라인 확산이 가속화되고 있다. 기존 연구는 가짜뉴스의 탐지를 위해 뉴스의 주제목, 부제목, 리드, 본문 등 뉴스 기사를 이루는 구성요소를 비롯하여 언론사, 기자, 날짜, 확산 경로 등의 메타 데이터를 대상으로 분석하였다. 그러나 뉴스의 제목과 본문 및 메타 데이터 등은 내용 수정이 쉬워, 다량의 데이터를 학습한 모델이라 하더라도 높은 정확도를 장기간 유지하기 어려울 수 있다. 이러한 문제점을 해결하기 위하여 본 논문은 합성곱 신경망을 이용해 문맥 정보를 분석하고 장단기 메모리 기반의 감성분석을 추가로 수행한다. 문맥 정보와 가짜뉴스 유포자가 쉽게 수정할 수 없는 감성 변화 패턴을 활용하여 성능이 개선된 가짜뉴스 탐지 모델을 제안한다.