DOI QR코드

DOI QR Code

CoAID+ : COVID-19 News Cascade Dataset for Social Context Based Fake News Detection

CoAID+ : 소셜 컨텍스트 기반 가짜뉴스 탐지를 위한 COVID-19 뉴스 파급 데이터

  • 한소은 (한양대학교 컴퓨터소프트웨어학과) ;
  • 강윤석 (한양대학교 컴퓨테이셔널 사회과학연구센터) ;
  • 고윤용 (한양대학교 인공지능 혁신인재교육 연구단) ;
  • 안지원 (한양대학교 컴퓨터소프트웨어학과) ;
  • 김유심 (Arizona State University 행정학과) ;
  • 오성수 (한양대학교 행정학과) ;
  • 박희진 (한양대학교 정보통신학부) ;
  • 김상욱 (한양대학교 정보통신학부)
  • Received : 2021.09.24
  • Accepted : 2021.11.17
  • Published : 2022.04.30

Abstract

In the current COVID-19 pandemic, fake news and misinformation related to COVID-19 have been causing serious confusion in our society. To accurately detect such fake news, social context-based methods have been widely studied in the literature. They detect fake news based on the social context that indicates how a news article is propagated over social media (e.g., Twitter). Most existing COVID-19 related datasets gathered for fake news detection, however, contain only the news content information, but not its social context information. In this case, the social context-based detection methods cannot be applied, which could be a big obstacle in the fake news detection research. To address this issue, in this work, we collect from Twitter the social context information based on CoAID, which is a COVID-19 news content dataset built for fake news detection, thereby building CoAID+ that includes both the news content information and its social context information. The CoAID+ dataset can be utilized in a variety of methods for social context-based fake news detection, thus would help revitalize the fake news detection research area. Finally, through a comprehensive analysis of the CoAID+ dataset in various perspectives, we present some interesting features capable of differentiating real and fake news.

최근 전 세계적으로 COVID-19이 유행하는 상황 속에서 이와 관련된 가짜뉴스가 심각한 사회적 혼란을 야기하고 있다. 이러한 배경에서 가짜뉴스를 정확하게 탐지하기 위해, 뉴스가 소셜 미디어를 통해 파급되는 과정과 같은 소셜 컨텍스트 정보를 활용하는 소셜 컨텍스트 기반 탐지 기법들이 널리 사용되고 있다. 그러나 대부분의 기 구축된 가짜뉴스 탐지를 위한 데이터들은 뉴스 자체의 내용 정보 위주로 구성되어, 소셜 컨텍스트 정보를 거의 포함하지 않는다. 즉, 이 데이터들에는 소셜 컨텍스트 기반 탐지 기법을 적용할 수 없으며, 이러한 데이터의 한계는 가짜뉴스 탐지 연구 분야의 발전을 저해하는 방해 요소이다. 본 논문은 이러한 한계를 극복하기 위해, 기존의 저명한 가짜뉴스 데이터인 CoAID 데이터를 기반으로, 소셜 컨텍스트 정보를 추가적으로 수집하여, CoAID 데이터의 뉴스 내용 정보와 해당 뉴스들의 소셜 컨텍스트 정보를 모두 포함하는 CoAID+ 데이터를 구축한다. 본 논문에서 구축한 CoAID+ 데이터는 기존의 대부분의 소셜 컨텍스트 기반 탐지 기법들에 적용될 수 있으며, 향후 새로운 소셜 컨텍스트 기반 탐지 기법들에 대한 연구도 더욱 활성화시킬 수 있을 것으로 기대된다. 마지막으로, 본 논문은 다양한 관점에서 CoAID+ 데이터를 분석하여 진짜뉴스와 가짜뉴스의 파급 패턴 및 키워드에 따른 파급 패턴도 파악하여 소개한다.

Keywords

Acknowledgement

이 논문은 정부의 재원으로 정보통신기획평가원(No.2020-0-01373, 인공지능대학원지원(한양대학교)) 및 한국연구재단(No.2018R1A5A7059549)의 지원을 받아 수행된 연구임.

References

  1. K. Shu, A. Sliva, S. Wang, J. Tang, and H. Liu, "Fake news detection on social media: A data mining perspective," In Proceeding of the ACM SIGKDD Explorations Newsletter, Vol.19, No.1, pp.22-36, 2017. https://doi.org/10.1145/3137597.3137600
  2. Y. Liu and Y. F. Wu, "Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks," In Proceeding of the AAAI Conference on Artificial Intelligence, 2018.
  3. K. Shu, D. Mahudeswaran, S. Wang, and H. Liu, "Hierarchical propagation networks for fake news detection: Investigation and exploitation," In Proceeding of the International AAAI Conference on Web and Social Media, Vol.14, pp.626-637, 2020.
  4. F. Monti, F. Frasca, D. Eynard, D. Mannion, and M. M. Bronstein, "Fake news detection on social media using geometric deep learning," arXiv preprint arXiv:1902.06673, 2019.
  5. K. Shu, S. Wang, and H. Liu, "Beyond news contents: The role of social context for fake news detection," In Proceeding of the Twelfth ACM International Conference on Web Search and Data Mining, pp.312-320, 2019.
  6. S. Vosoughi, D. Roy, and S. Aral, "The spread of true and false news online," Science, Vol.359, No.6380, pp.1146-1151, 2018. https://doi.org/10.1126/science.aap9559
  7. L. Cui and D. Lee, "Coaid: Covid-19 healthcare misinformation dataset," arXiv preprint arXiv:2006.00885, 2020.
  8. X. Zhou, A. Mulay, E. Ferrara, and R. Zafarani, "Recovery: A multimodal repository for covid-19 news credibility research," In Proceeding of the 29th ACM International Conference on Information & Knowledge Management, pp.3205-3212, 2020.
  9. G. K. Shahi and D. Nandini, "FakeCovid--A multilingual cross-domain fact check news dataset for COVID-19," arXiv preprint arXiv:2006.11343, 2020.
  10. M. Abdul-Mageed, A. Elmadany, E. M. B. Nagoudi, D. Paddi, K. Verma, and R. Lin, "Mega-cov: A billion-scale dataset of 100+ languages for covid-19," arXiv preprint arXiv:2005.06012, 2020.
  11. C. Castillo, M. Marcelo, and B. Poblete, "Predicting information credibility in time-sensitive social media," Internet Research, 2013.
  12. A. Gupta, P. Kumaraguru, C. Castillo, and P. Meier, "Tweetcred: Real-time credibility assessment of content on twitter," International conference on social informatics, Springer, Cham, 2014.
  13. Z. Jin, J. Cao, Y. Zhang, and J. Luo, "News verification by exploiting conflicting social viewpoints in microblogs," In Proceeding of the AAAI Conference on Artificial Intelligence, Vol.30. No.1, 2016.
  14. E. Tacchini, G. Ballarin, ML.Vedova, S. Moret and L. Alfaro, "Some like it hoax: Automated fake news detection in social networks," arXiv preprint arXiv:1704.07506, 2017.
  15. S. Badaskar, S. Agarwal, and S. Arora, "Identifying real or fake articles: Towards better language modeling," In Proceeding of the Third International Joint Conference on Natural Language Processing: Volume-II, 2008.
  16. B. Riedel, et al. "A simple but tough-to-beat baseline for the Fake News Challenge stance detection task," arXiv preprint arXiv:1707.03264, 2017.
  17. H. Ahmed, I. Traore, and S. Saad, "Detection of online fake news using n-gram analysis and machine learning techniques," International Conference on Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments, Springer, Cham, 2017.
  18. M. Potthast, J. Kiesel, K. Reinartz, J. Bevendorff, and B. Stein, "A stylometric inquiry into hyperpartisan and fake news," arXiv preprint arXiv:1702.05638, 2017.
  19. S. Han, Y. Kang, Y. Ko, J. Ahn, Y. Kim, S. Oh, H. Park, and S. Kim, "COVID-19 Cascade Dataset for Fake News Detection," The KIPS Spring Conference 2021, Vol.28, No.1, pp.312-313, 2021.