Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2017.10a
- /
- Pages.294-297
- /
- 2017
- /
- 2005-3053(pISSN)
Detecting Improper Sentences in a News Article Using Text Mining
텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템
- Kim, Kyu-Wan (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
- Sin, Hyun-Ju (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
- Kim, Seon-Jin (Dept. of Computer Software Engineering, Kumoh National Institute of Technology) ;
- Lee, Hyun Ah (Dept. of Computer Software Engineering, Kumoh National Institute of Technology)
- 김규완 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
- 신현주 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
- 김선진 (금오공과대학교, 컴퓨터소프트웨어공학과) ;
- 이현아 (금오공과대학교, 컴퓨터소프트웨어공학과)
- Published : 2017.10.13
Abstract
SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.