DOI QR코드

DOI QR Code

Token Classification for Detecting Modified Profanity

변형된 비속어 탐지를 위한 토큰 분류

  • Sung-Min Ko (Dept. of Computer Science and Engineering, Incheon National University) ;
  • Youhyn Shin (Dept. of Computer Science and Engineering, Incheon National University)
  • 고성민 (인천대학교 컴퓨터공학부) ;
  • 신유현 (인천대학교 컴퓨터공학부)
  • Published : 2023.11.02

Abstract

비속어 탐지 기법으로 주로 사용되는 비속어 데이터베이스 활용 방식 혹은 문장 자체를 혐오, 비혐오로 분류하는 방식은 변형된 비속어 탐지에 어려움이 있다. 본 논문에서는 자연어 처리 태스크 중 하나인 개체명 인식 방법에서 착안하여 시퀀스 레이블링 기반의 비속어 탐지 방법을 제안한다. 한국어 악성 댓글 중 비속어 부분에 대해 레이블링 된 데이터셋을 구축하여 실험을 진행하고, 이를 통해 F1-Score 약 0.88 의 결과를 보인다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 학석사연계 ICT 핵심인재양성사업의 연구결과로 수행되었음 (IITP-2023-RS-2023-00260175)