Acknowledgement
이 논문은 2020년도 한국연구재단의 국제협력사업(NRF-2020K2A9A2A11103842)과 2021년도 한국전자통신연구원 주요사업의 지원을 받아 수행된 연구임(21ZT1100, 수도권 지역 산업기반 ICT융합기술 지원사업).
코로나바이러스감염증-19로 인한 팬데믹 상황이 지속되면서 감염증 정보의 불확실성으로 인해 코로나 관련 루머가 온라인상에서 빠르게 전파되고 있다. 이러한 코로나 관련 가짜 뉴스를 사전에 탐지하기 위해, 본 연구에서는 한국어 코로나 가짜 뉴스 데이터셋을 구축하고, 개체명과 사용자 재확산 정보를 이용한 한국어 가짜 뉴스 탐지 모델을 제안한다. 가짜 뉴스 팩트체킹 언론인 서울대팩트체크센터에서 코로나 관련 루머 및 가짜 뉴스에 대한 검증 기사를 수집한 후, 기사로부터 개체명 추출 모델을 통해 주제 키워드를 추출하고, 이를 이용해 유튜브 상의 사용자 재확산 정보를 수집하여 데이터셋을 구성하였다. BERT 기반의 제안 모델을 다양한 비교군과 비교하였고, 특성 조합에 따른 실험을 통해 각 특성 정보(기사 텍스트, 개체명 데이터, 유튜브 데이터)가 가짜 뉴스 탐지 성능에 미치는 영향을 알아보았다.
이 논문은 2020년도 한국연구재단의 국제협력사업(NRF-2020K2A9A2A11103842)과 2021년도 한국전자통신연구원 주요사업의 지원을 받아 수행된 연구임(21ZT1100, 수도권 지역 산업기반 ICT융합기술 지원사업).