DOI QR코드

DOI QR Code

Initial Small Data Reveal Rumor Traits via Recurrent Neural Networks

초기 소량 데이터와 RNN을 활용한 루머 전파 추적 기법

  • Received : 2017.02.01
  • Accepted : 2017.04.17
  • Published : 2017.07.15

Abstract

The emergence of online media and their data has enabled data-driven methods to solve challenging and complex tasks such as rumor classification problems. Recently, deep learning based models have been shown as one of the fastest and the most accurate algorithms to solve such problems. These new models, however, either rely on complete data or several days-worth of data, limiting their applicability in real time. In this study, we go beyond this limit and test the possibility of super early rumor detection via recurrent neural networks (RNNs). Our model takes in social media streams as time series input, along with basic meta-information about the rumongers including the follower count and the psycholinguistic traits of rumor content itself. Based on analyzing millions of social media posts on 498 real rumors and 494 non-rumor events, our RNN-based model detected rumors with only 30 initial posts (i.e., within a few hours of rumor circulation) with remarkable F1 score of 0.74. This finding widens the scope of new possibilities for building a fast and efficient rumor detection system.

온라인 소셜미디어의 등장으로 방대한 사용자 데이터가 수집되고 이는 루머의 탐지와 같은 복잡하고 도전적인 사회 문제를 자료 기반 기법으로 해결할 수 있게끔 한다. 최근 딥러닝 기반 모델들이 이러한 문제를 해결하기 위한 빠르고 정확한 기법 중의 하나로서 소개되었다. 하지만 기존에 제시된 모델들은 전파 종료 후 작동하거나 오랜 관찰기간을 필요로 하여 활용성이 제한된다. 이 연구에서는 초기 소량 데이터만을 활용하는 recurrent neural networks (RNNs) 기반의 빠른 루머 분류 알고리즘을 제안한다. 제시된 모델은 소셜미디어 스트림을 시계열 자료로 변환하여 사용하며, 이 때 시계열 데이터는 팔로워 수와 같이 정보 전파자 관련 정보는 물론 주어진 컨텐츠에서 추론한 언어심리학적 감성의 점수로 구성된다. 수백만의 트윗을 포함하는 498개의 실제 루머 및 494개의 비루머 사례 분석을 통해 이 연구는 제안하는 RNN 기반 모델이 초기 30개의 트윗 만으로도 (초기 수시간) 0.74 F1의 높은 성능을 보임을 확인한다. 이러한 결과는 실제 응용가능한 수준의 빠르고 효율적인 루머 분류 알고리즘 개발의 초석이 된다.

Keywords

References

  1. Allport, G.W. and Postman, L.J., The psychology of rumor, Russell & Russell, 1965.
  2. Huberman, B. A., Romero, D.M., Wu, F., Social networks that matter, Twitter under the microscope, First Monday, 2008.
  3. Ma, J., et al., Detecting Rumors from Microblogs with Recurrent Neural Networks, International Joint Conference on Artificial Intelligence, 2016.
  4. O. Oh, M. Agrawal, and H. R. Rao, Community intelligence and social media services, A rumor theoretic analysis of tweets during social crises, Mis Quarterly, 37(2):407-426, 2013. https://doi.org/10.25300/MISQ/2013/37.2.05
  5. Pennebaker, J.W., Boyd, R.L., Jordan, K., & Blackburn, K. (2015). The development and psychometric properties of LIWC2015. Austin, TX: University of Texas at Austin.
  6. V. Qazvinian, E. Rosengren, D. R. Radev, and Q. Mei, Rumor has it: Identifying misinformation in microblogs, Proc. of the Conference on Empirical Methods in Natural Language Processing, 2011.
  7. C. Castillo, M. Mendoza, and B. Poblete, Information credibility on twitter, Proc. of the Int'l Conference on World Wide Web, 2011.
  8. Pennebaker, J.W., et al., The development and psychometric properties of LIWC, UT Faculty/Researcher Works (2015).
  9. Tieleman, T. and Hinton, G. Lecture 6.5-rmsprop, Divide the gradient by a running average of its recent magnitude, Coursera: Neural Networks for Machine Learning, 4, 2012.