• 제목/요약/키워드: 비속어 검출

검색결과 7건 처리시간 0.023초

영작문 자동평가를 위한 비속어 검출과 미등록어 분류 (Swear Word Detection and Unknown Word Classification for Automatic English Writing Assessment)

  • 이경호;김성권;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.381-388
    • /
    • 2014
  • 본 논문에서는 중 고등 수준 단문형 영어 작문시험의 자동채점 시스템을 위한 사전 미등록어 분류기 구현에 대해 다룬다. 영어 자동채점 과정에서 발생하는 사전 미등록어의 유형을 정의하고 각 유형에 대한 검출 방법에 대해 논의하였다. 또한 영작문 답안에서 나타날 수 있는 비속어의 유형을 정의하고 검출 방법에 대해 연구하였다. 영작문 자동평가 시스템의 모듈로서 비속어 검출 기능이 포함된 미등록어 분류기를 구현하였다. 미등록어 분류와 비속어 검출 방법에 대한 성능을 실제 시험 데이터에 적용하여 그 성능을 평가하였다.

웹 게시판 비속어 처리 프로그램의 설계 및 구현 (Design and Implementation of a Swearing Remover Program on Web board)

  • 조아영
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권10호
    • /
    • pp.1317-1328
    • /
    • 2001
  • 기존의 웹 게시판 비속어 처리 프로그램들은 입력 차단형이라는 한계성 때문에 비속어의 모양이 조금만 변형이 되어도 비속어를 차단하지 못하는 문제점이 있었다. 이러한 한계성을 극복하기 위하여 본 논문에서는 인터넷의 열려있는 게시판에 대해 분석 및 삭제/치환하는 감시형 프로그램을 개발하였다. 이를 위해 먼저 웹 상의 비속어 패턴을 분류하였고 이를 바탕으로 이러한 패턴들을 분석할 수 있는 토크나이저를 개발하였다. 그리고 각 게시판에 대한 토크나이징 및 비속어 삭제/치환 모듈을 스레드로 구현하여 각각 병렬적으로 작업제어가 되도록 구현하였다. 이 프로그램을 웹 게시판의 데이터에 실험적으로 작동시킨 결과 대부분의 비속어를 검출하여 91.9%의 재현율을 보였으나 형태소적 변형 비속어와 문맥적 비속어의 검출에는 다소 미흡함을 나타내었다. 이 프로그램은 품사적, 의미적 중의어와 문맥적 비속어의 처리에 있어서 이 프로그램의 수동모드의 확장을 통해 앞으로 더욱 보완되어야 할 것이다. 이 프로그램은 게시판 사용자들을 적절한 단어사용에로 유도하며, 공공기관, 학교, 방송국 등의 게시판 관리자의 수작업을 대체해 줄 수 있을 것으로 기대된다.

  • PDF

웹 게시판 비속어 처리 프로그램의 설계 및 구현 (Design and Implementation of a Slang Remover Program on Web board)

  • 조아영;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1075-1078
    • /
    • 2001
  • 현재까지 게시판의 비속어 처리프로그램은 비속어를 발견하면 입력을 할 수 없도록 차단하는 차단식 프로그램이었다. 이런 프로그램은 사이버 상의 의사표현의 자유를 차단한다. 또한 어떤 단어의 경우는 비속어가 아닌데도 차단되어 입력을 원천봉쇄하기도 한다. 그래서 비속어를 차단하지 않고 처리해 주며 신생 비속어도 처리를 쉽게 해 주며 검출에 유연성을 제공하는 프로그램이 필요하다. 본 논문에서는 데이터베이스 상에서 구현된 게시판을 대상으로 비차단식, 유연성이 있는 비속어 추출 프로그램을 설계하고 구현하였다.

  • PDF

딥러닝 기반 비속어 필터링 채팅 프로그램 설계 및 구현 (Design and Implementation of Profanity Filtering Chat Program Based on Deep Learning)

  • 이건환;박주찬;최동원;이연경;최호빈;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.998-1001
    • /
    • 2019
  • 최근에 게임이나 채팅 프로그램 내에서의 비속어 필터링은 금칙어 기반으로 운영되고 있다. 하지만 금칙어 기반의 프로그램은 여러 한계점을 보이며, 따라서, 본 논문에서는 'Text-CNN'을 활용한 딥러닝 기법에 기반하여 비속어 필터링 프로그램을 제안한다. 데이터의 자질을 '자모' 단위로 전처리하여 학습시키고 어느 부분이 비속어인지 검출하여 마스킹 처리하는 'LIME 알고리즘'을 사용하여 우리의 프로그램을 이용하는 사용자들에게 바른 언어습관을 지향하며 더 나아가 올바른 인터넷 문화를 조성할 수 있도록 필터링 채팅 프로그램을 제안한다.

실시간 채팅 환경에서 문장 분석을 이용한 대상자 및 비속어 검출 (Target and Swear Word Detection Using Sentence Analysis in Real-Time Chatting)

  • 염충석;장준영;장유환;김현철;박희민
    • 반도체디스플레이기술학회지
    • /
    • 제20권1호
    • /
    • pp.83-87
    • /
    • 2021
  • By the increase of internet usage, communicating online became an everyday thing. Thereby various people have experienced profanity by anonymous users. Nowadays lots of studies tried to solve this problem using artificial intelligence, but most of the solutions were for non-real time situations. In this paper, we propose a Telegram plugin that detects swear words using word2vec, and an algorithm to find the target of the sentence. We vectorized the input sentence to find connections with other similar words, then inputted the value to the pre-trained CNN (Convolutional Neural Network) model to detect any swears. For target recognition we proposed a sequential algorithm based on KoNLPY.

양방향 장단기 메모리 신경망을 이용한 욕설 검출 (Abusive Detection Using Bidirectional Long Short-Term Memory Networks)

  • 나인섭;이신우;이재학;고진광
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.35-45
    • /
    • 2019
  • 욕설과 비속어를 포함한 악성 댓글에 대한 피해는 최근 언론에 나오는 연애인의 자살뿐만 아니라 사회 전반에서 다양한 형태로 증가하고 있다. 이 논문에서는 양방향 장단기 메모리 신경망 모델을 이용하여 욕설을 검출하는 기법을 제시하였다. 웹 크룰러를 통해 웹상의 댓글을 수집하고, 영어나 특수문자 등의 사용하지 않은 글에 대해 불용어 처리를 하였다. 불용어 처리된 댓글에 대해 문장의 전·후 관계를 고려한 양방향 장단기 메모리 신경망 모델을 적용하여 욕설 여부를 판단하고 검출하였다. 양방향 장단기 메모리 신경망을 사용하기 위해 검출된 댓글에 대해 형태소 분석과 벡터화 과정을 거쳤으며 각 단어들에 욕설 해당 여부를 라벨링하여 진행하였다. 실험 결과 정제하고 수집된 총 9,288개의 댓글에 대해 88.79%의 성능을 나타내었다.

  • PDF

형태소 분석을 통한 악성 댓글 필터링 방안 (A Filtering Method of Malicious Comments Through Morpheme Analysis)

  • 하예람;천준석;왕인서;박민욱;우균
    • 한국콘텐츠학회논문지
    • /
    • 제21권9호
    • /
    • pp.750-761
    • /
    • 2021
  • 인터넷 기사에 대한 댓글은 토론 및 소통 등 긍정적 효과도 있지만, 악성 댓글은 사람의 목숨을 앗아가는 정도로 심각한 문제이다. 이런 측면에서 악성 댓글을 자동으로 검출하는 것은 중요한 문제이다. 그러나 현재 채택되고 있는 금칙어 바탕의 댓글 필터 방안은, 특히 한글 댓글의 경우 효과적이지 못한 실정이다. 이 논문에서는 형태소 분석을 통해 비속어 형태소와 존대어 형태소를 구별함으로써 댓글 필터링을 수행하는 방법을 제안한다. 이들 두 형태소를 바탕으로 댓글 건전도를 계산하고, 또한 건전도를 바탕으로 한 댓글 충격량 계산방법을 여럿 제안한다. 악성 댓글을 대상으로 한 실험을 수행한 결과, 포털에서 수행되고 있는 클린봇보다 재현율이 37.93% 포인트 개선되었으며 F-지수 값은 47.66 포인트 개선된 것으로 나타났다. 이 결과에 따르면, 형태소 분석을 기초로 한 새로운 필터 방법이 금칙어를 바탕으로 한 방법의 좋은 대안이 될 수 있을 것으로 기대된다.