Detecting Improper Sentences in a News Article Using Text Mining

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템

  • Kim, Kyu-Wan (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
  • Sin, Hyun-Ju (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
  • Kim, Seon-Jin (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
  • Lee, Hyun Ah (Dept. of Computer Software Engineering, Kumoh National Institute of Technology)
  • 김규완 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
  • 신현주 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
  • 김선진 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
  • 이현아 (금오공과대학교, 컴퓨터소프트웨어공학과)
  • Published : 2017.10.13

Abstract

SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

Keywords