DOI QR코드

DOI QR Code

Swear Word Detection through Convolutional Neural Network

딥러닝 기반 욕설 탐지

  • Kim, Yumin (School of Electronics & Computer Engineering, Chonnam National University) ;
  • Gang, Hyobin (School of Electronics & Computer Engineering, Chonnam National University) ;
  • Han, Suhyeun (School of Electronics & Computer Engineering, Chonnam National University) ;
  • Jeong, Hieyong (School of Electronics & Computer Engineering, Chonnam National University)
  • 김유민 (전남대학교 전자컴퓨터공학부) ;
  • 강효빈 (전남대학교 전자컴퓨터공학부) ;
  • 한수현 (전남대학교 전자컴퓨터공학부) ;
  • 정희용 (전남대학교 전자컴퓨터공학부)
  • Published : 2021.11.04

Abstract

개인의 소셜미디어 활동이 활발해지면서 익명성을 악용하여 타인에게 욕설을 주저없이 해버리는 사용자가 늘고 있다. 본 연구는 욕설이 난무하는 채팅창에서 욕설 데이터를 크롤링하여 데이터셋을 구축하여 컨볼루션 네트워크로 학습시켰을 때 욕설을 탐지하고, 전체 문장에서 그 탐지한 욕설의 위치를 파악하여 블러링 처리를 할 수 있는지를 확인하는 것을 목적으로 한다. 전처리 작업으로 한글과 공백을 제외하고 형태소 단위로 토큰화한 후 불용어를 제거해서 패딩처리를 하였다. 학습 모델로는 1차원 컨볼루션을 사용하여 수집한 데이터의 80%를 훈련에 사용하고 나머지 20%를 테스트에 사용하였다. 키워드를 이용한 단순 분류 모델과 비교하였을 때, 본 연구에서 이용한 모델이 약 14% 정확도가 향상된 것을 확인할 수 있었다. 테스트에서 전체 문장에서 욕설이 포함되었을 때 욕설과 그 위치 정보를 잘 획득하는 것도 확인할 수 있었다.

Keywords

Acknowledgement

이 논문은 2021년도 전남대학교 SW중심대학 산학협력프로젝트와 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업(2021R1I1A305521011)의 연구비 지원을 받아 수행되었음.