DOI QR코드

DOI QR Code

품사별 출현 빈도를 활용한 코로나19 관련 한국어 가짜뉴스 탐지

COVID-19-related Korean Fake News Detection Using Occurrence Frequencies of Parts of Speech

  • 김지혁 (국민대학교 비즈니스IT전문대학원) ;
  • 안현철 (국민대학교 비즈니스IT전문대학원)
  • Jihyeok Kim (Graduate School of Business IT, Kookmin University) ;
  • Hyunchul Ahn (Graduate School of Business IT, Kookmin University)
  • 투고 : 2023.05.15
  • 심사 : 2023.06.19
  • 발행 : 2023.06.30

초록

2019년 12월부터 현재까지 지속되고 있는 코로나19 팬데믹으로 인해 대중들은 감염병 대응을 위한 정보를 필요로 하게 되었다. 하지만 소셜미디어에서 유포되는 코로나19 관련 가짜뉴스로 인해 대중들의 건강이 심각하게 위협받고 있다. 특히 코로나19와 관련된 가짜뉴스가 유사한 내용으로 대량 유포될 경우 사실인지 거짓인지 진위를 가리기 위한 검증에 소요되는 시간이 길어지게 되어 우리 사회의 전반에 심각한 위협이 될 수 있다. 이에 학계에서는 신속하게 코로나19 관련 가짜뉴스를 탐지할 수 있는 지능형 모델에 대한 연구를 활발하게 수행해 오고 있으나, 대부분의 기존 연구에 사용된 데이터는 영문으로 구성되어 있어 한국어 가짜뉴스 탐지에 대한 연구는 매우 드문 실정이다. 이에 본 연구에서는 소셜 미디어 상에서 유포되는 한국어로 작성된 코로나19 관련 가짜뉴스 데이터를 직접 수집하고, 이를 기반으로 한 지능형 가짜뉴스 탐지 모델을 제안한다. 본 연구의 제안모델은 언어학적 특성 중 하나인 품사별 빈도 정보를 추가적으로 활용하여, 기존 연구에서 주로 사용되어 온 문서 임베딩 기법인 Doc2Vec 기반 가짜뉴스 탐지 모델의 예측 성능을 제고하고자 하였다. 실증분석 결과, 제안 모델이 비교 모델에 비해 Recall 및 F1 점수가 높아져 코로나19 관련 한국어 가짜뉴스를 보다 정확하게 판별함을 확인하였다.

The COVID-19 pandemic, which began in December 2019 and continues to this day, has left the public needing information to help them cope with the pandemic. However, COVID-19-related fake news on social media seriously threatens the public's health. In particular, if fake news related to COVID-19 is massively spread with similar content, the time required for verification to determine whether it is genuine or fake will be prolonged, posing a severe threat to our society. In response, academics have been actively researching intelligent models that can quickly detect COVID-19-related fake news. Still, the data used in most of the existing studies are in English, and studies on Korean fake news detection are scarce. In this study, we collect data on COVID-19-related fake news written in Korean that is spread on social media and propose an intelligent fake news detection model using it. The proposed model utilizes the frequency information of parts of speech, one of the linguistic characteristics, to improve the prediction performance of the fake news detection model based on Doc2Vec, a document embedding technique mainly used in prior studies. The empirical analysis shows that the proposed model can more accurately identify Korean COVID-19-related fake news by increasing the recall and F1 score compared to the comparison model.

키워드

과제정보

이 논문 또는 저서는 2022년 대한민국 교육부와 한국연구재단의 인문사회분야 중견연구자지원사업의 지원을 받아 수행된 연구임(NRF-2022S1A5A2A01048638)

참고문헌

  1. 국립재난안전연구원. (2020). Future Safety Issue 제2의 팬데믹 인포데믹으로 인한 혼돈의 시대, from https://www.ndmi.go.kr/home/sub.do?menukey=6031&mode=view&no=1316137 (2020/10/12)
  2. 길호현. (2018). 텍스트마이닝을 위한 한국어 불용어 목록 연구. 우리말글, 78, 1-25. https://doi.org/10.18628/URIMAL.78..201809.1
  3. 김수연, 안석호, 김동현, 이의종, 서영덕. (2022, June). 형태소 분석기의 품사별 정확성 분석. In Proceedings of KIIT Conference (pp. 378-381).
  4. 민희. (2022). 가짜 뉴스 확산, 그 이후: 보수와 진보의 가짜 뉴스 노출과 제도 신뢰의 편향. 정치정보연구, 25(3), 151-180.
  5. 박수선. (2023, January 30). 예산 대폭 깎인 팩트체크넷, 결국 문 닫는다, PD저널, Available at http://www.pdjournal.com/news/articleView.html?idxno=74609(Accessed 2023. 4. 19)
  6. 손승혜, 이귀옥, 홍주현, 최지향, 정은정. (2018). 트위터는 어떻게 가짜 뉴스를 유통시키는가?: <교통법규 개정설>과 <9월 전쟁설>의 트위터 유통 패턴과 유력자, 빈출단어 분석. 사이버 커뮤니케이션학보, 35(4), 203-251.
  7. 송찬우, 안현철. (2022). Tag2vec 기반의 지능형 불법도박 사이트 탐지 모형 개발. 지능정보연구, 28(4), 211-227. https://doi.org/10.13088/JIIS.2022.28.4.211
  8. 신성윤, 신광성, 이현창. (2020). 적은 데이터 세트를 기반으로 한 동물 이미지의 향상된 딥 러닝. 한국컴퓨터정보학회 학술발표논문집, 28(1), 247-248.
  9. 심재승, 이재준, 정이태, 안현철. (2020). 워드 임베딩을 활용한 한국어 가짜 뉴스 탐지 모델에 관한 연구. 한국컴퓨터정보학회 학술발표논문집, 28(2), 199-202.
  10. 심홍진, 황유선. (2010). 마이크로블로깅 (microblogging) 이용동기에 관한 연구: 트위터(twitter) 를 중심으로. 한국방송학보, 24(2), 192-234.
  11. 안형준. (2020). SNS 의 이벤트와 텍스트의 언어심리학적 특성 간의 관계. 한국정보기술학회논문지, 18(5), 91-100.
  12. 원혜진, 이현영, 강승식. (2020). 대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교. 한국정보과학회 학술발표논문집, 401-403.
  13. 이장근, 김해연, 장적, 김용환. (2022). 가짜 뉴스 영향력 인식의 효과에 관한 연구: 매체별 가짜뉴스 제 3 자 인식이 가짜 뉴스 규제 및 미디어 교육 필요성에 미치는 영향. 한국콘텐츠학회논문지, 22(12), 316-326.
  14. 이종구. (2020, March 22). 방역한다며 메탄올 뿌린 뒤 중독 증세...'정보 전염병' 피해, YTN, Available at https://www.ytn.co.kr/_ln/0103_202003222000523006_018 (Accessed 2023. 4. 19)
  15. 이지민, 이지선, 우지영. (2022). 코로나 19 가짜뉴스와 진짜 뉴스 판별 시스템. 한국컴퓨터 정보학회 학술발표논문집, 30(1), 411-412.
  16. 정세민, 이세영, 안유나, 김보경. (2021, November). 품사에 따른 영화 리뷰 감성분석 연구. In Proceedings of KIIT Conference, 651-654.
  17. 정예림, 김지희, 유형선. (2020). Word2Vec 을 활용한 제품군별 시장규모 추정 방법에 관한 연구. 지능정보연구, 26(1), 1-21. https://doi.org/10.13088/JIIS.2020.26.1.001
  18. 정이태, 안현철. (2022). 그래프 임베딩을 활용한 코로나 19 가짜 뉴스 탐지 연구-사회적 참여 네트워크의 이용 여부에 따른 탐지 성능비교. 지능정보연구, 28(1), 197-216. https://doi.org/10.13088/JIIS.2022.28.1.197
  19. 한국언론진흥재단_뉴스빅데이터_메타데이터_가짜뉴스, Retrieved from https://www.data.go.kr/data/15086437/fileData.do (Accessed 2023. 4. 19)
  20. 한국언론진흥재단_뉴스빅데이터_메타데이터_코로나, Retrieved from https://www.data.go.kr/data/15069309/fileData.do (Accessed 2023. 4. 19)
  21. 한소은, 강윤석, 고윤용, 안지원, 김유심, 오성수, 박희진, 김상욱. (2022). CoAID+: 소셜 컨텍스트 기반 가짜 뉴스 탐지를 위한 COVID-19 뉴스 파급 데이터. 정보처리학회논문지. 소프트웨어 및 데이터 공학, 11(4), 149-156.
  22. 한지원, 김영욱. (2023). 댓글의 방향과 강도가 코로나 19 관련 가짜 뉴스 수용에 미치는 영향: 체계적 정보처리의 매개효과 및 동조 성향의 조절효과 중심 분석. 한국언론학보, 67(1), 230-271.
  23. 현윤진, 김남규. (2018). 뉴스와 소셜 데이터를 활용한 텍스트 기반 가짜 뉴스 탐지 방법론. 한국전자거래학회지, 23(4), 19-39. https://doi.org/10.7838/JSEBS.2018.23.4.019
  24. Open-Korean-Text(OKT), Retrieved from https://github.com/open-korean-text/open-korean-text (Accessed 2023. 4. 19)
  25. Bondielli, A., & Marcelloni, F. (2019). A survey on fake news and rumour detection techniques. Information Sciences, 497, 38-55. https://doi.org/10.1016/j.ins.2019.05.035
  26. Bovet, A., & Makse, H. A. (2019). Influence of fake news in Twitter during the 2016 US presidential election. Nature Communications, 10(1), 7.
  27. Cui, L., & Lee, D. (2020). Coaid: Covid-19 healthcare misinformation dataset. arXiv preprint arXiv:2006.00885.
  28. Lazer, D. M., Baum, M. A., Benkler, Y., Berinsky, A. J., Greenhill, K. M., Menczer, F., ... & Zittrain, J. L. (2018). The science of fake news. Science, 359(6380), 1094-1096. https://doi.org/10.1126/science.aao2998
  29. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  30. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013, December). Distributed representations of words and phrases and their compositionality. In Proceedings of the 26th International Conference on Neural Information Processing Systems-Volume 2 (pp. 3111-3119).
  31. Ngada, O., & Haskins, B. (2020, December). Fake news detection using content-based features and machine learning. In 2020 IEEE Asia-Pacific Conference on Computer Science and Data Engineering (CSDE) (pp. 1-6). IEEE.
  32. Patwa, P., Sharma, S., Pykl, S., Guptha, V., Kumari, G., Akhtar, M. S., ... & Chakraborty, T. (2021). Fighting an infodemic: Covid-19 fake news dataset. In Combating Online Hostile Posts in Regional Languages during Emergency Situation: First International Workshop, CONSTRAINT 2021, Collocated with AAAI 2021, Virtual Event, February 8, 2021, Revised Selected Papers 1 (pp. 21-29). Springer International Publishing.
  33. Shu, K., Sliva, A., Wang, S., Tang, J., & Liu, H. (2017). Fake news detection on social media: A data mining perspective. ACM SIGKDD Explorations Newsletter, 19(1), 22-36.
  34. Tandoc Jr, E. C., Lim, Z. W., & Ling, R. (2018). Defining "fake news" A typology of scholarly definitions. Digital Journalism, 6(2), 137-153. https://doi.org/10.1080/21670811.2017.1360143
  35. Vosoughi, S., Roy, D., & Aral, S. (2018). The spread of true and false news online. Science, 359(6380), 1146-1151. https://doi.org/10.1126/science.aap9559