• 제목/요약/키워드: 비속어

검색결과 40건 처리시간 0.024초

변형된 비속어 탐지를 위한 토큰 분류 (Token Classification for Detecting Modified Profanity)

  • 고성민;신유현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.498-499
    • /
    • 2023
  • 비속어 탐지 기법으로 주로 사용되는 비속어 데이터베이스 활용 방식 혹은 문장 자체를 혐오, 비혐오로 분류하는 방식은 변형된 비속어 탐지에 어려움이 있다. 본 논문에서는 자연어 처리 태스크 중 하나인 개체명 인식 방법에서 착안하여 시퀀스 레이블링 기반의 비속어 탐지 방법을 제안한다. 한국어 악성 댓글 중 비속어 부분에 대해 레이블링 된 데이터셋을 구축하여 실험을 진행하고, 이를 통해 F1-Score 약 0.88 의 결과를 보인다.

웹 게시판에서 비속어사용실태와 문제 해결 방안의 제시 (Usage Analysis of Swearing Words on Web Board and Proposal of Problems Resolution Method)

  • 조동욱
    • 한국콘텐츠학회논문지
    • /
    • 제3권4호
    • /
    • pp.1-10
    • /
    • 2003
  • 최근 인터넷상의 웹 자유게시판에 쓰여지는 글들이 비속어를 많이 사용함으로써 인터넷 역기능의 대표적인 문제로 대두되고 있다. 이를 위해 본 연구에서는 웹 게시판에서 사용되는 비속어에 대한 실태 파악을 통해 비속어가 쓰여진 단어나 문장을 기술적으로 차단하는 방법론을 개발하고자 한다. 이는 크게 세 단계로 나누어 개발이 진행된다. 첫째가 비속어 사용 실태 및 이를 차단키 위한 알고리즘의 개발, 둘째가 비속어의 정도 차이를 파악키 위한 구체적이고 방대한 설문조사의 수행, 셋째가 이를 프로그램하여 실제 웹 상에서 비속어가 어느 정도 효과적으로 차단이 가능한지에 대한 시스템 구현 등으로 나누어진다. 본 논문은 이 같은 전체 시스템 중 첫째 단계인 웹 게시판에서의 비속어 사용 실태와 이를 해결키 위한 알고리즘 개발 부분에 대해 다루고자 한다.

  • PDF

웹 게시판 비속어 처리 프로그램의 설계 및 구현 (Design and Implementation of a Slang Remover Program on Web board)

  • 조아영;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1075-1078
    • /
    • 2001
  • 현재까지 게시판의 비속어 처리프로그램은 비속어를 발견하면 입력을 할 수 없도록 차단하는 차단식 프로그램이었다. 이런 프로그램은 사이버 상의 의사표현의 자유를 차단한다. 또한 어떤 단어의 경우는 비속어가 아닌데도 차단되어 입력을 원천봉쇄하기도 한다. 그래서 비속어를 차단하지 않고 처리해 주며 신생 비속어도 처리를 쉽게 해 주며 검출에 유연성을 제공하는 프로그램이 필요하다. 본 논문에서는 데이터베이스 상에서 구현된 게시판을 대상으로 비차단식, 유연성이 있는 비속어 추출 프로그램을 설계하고 구현하였다.

  • PDF

단어와 문장의 의미를 고려한 비속어 판별 방법 (Swearword Detection Method Considering Meaning of Words and Sentences)

  • 이명호;임명진;신주현
    • 스마트미디어저널
    • /
    • 제9권3호
    • /
    • pp.98-106
    • /
    • 2020
  • 현재 인터넷 사용자가 증가하면서 비속어 사용이 무분별하게 증가하고 있다. 이에 따른 청소년들의 사이버폭력도 매우 심각하게 증가하고 있으며 그중에서도 사이버 언어폭력이 가장 심각하게 대두되고 있다. 사이버 언어폭력을 근절하기 위해 비속어 판별 연구가 계속 진행되고 있으나 단어의 의미와 문맥의 흐름을 보고 비속어를 판별하는 방법은 정확도가 미흡한 실정이다. 따라서 본 논문에서는 고의로 변형한 비속어와 비속어로 잘못 판별된 표준어를 문맥의 흐름을 보고 정확하게 판별할 수 있도록 FastText 모델과 LSTM 모델을 활용하여 비속어를 판별하는 방법을 제안한다.

웹 게시판 비속어 처리 프로그램의 설계 및 구현 (Design and Implementation of a Swearing Remover Program on Web board)

  • 조아영
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권10호
    • /
    • pp.1317-1328
    • /
    • 2001
  • 기존의 웹 게시판 비속어 처리 프로그램들은 입력 차단형이라는 한계성 때문에 비속어의 모양이 조금만 변형이 되어도 비속어를 차단하지 못하는 문제점이 있었다. 이러한 한계성을 극복하기 위하여 본 논문에서는 인터넷의 열려있는 게시판에 대해 분석 및 삭제/치환하는 감시형 프로그램을 개발하였다. 이를 위해 먼저 웹 상의 비속어 패턴을 분류하였고 이를 바탕으로 이러한 패턴들을 분석할 수 있는 토크나이저를 개발하였다. 그리고 각 게시판에 대한 토크나이징 및 비속어 삭제/치환 모듈을 스레드로 구현하여 각각 병렬적으로 작업제어가 되도록 구현하였다. 이 프로그램을 웹 게시판의 데이터에 실험적으로 작동시킨 결과 대부분의 비속어를 검출하여 91.9%의 재현율을 보였으나 형태소적 변형 비속어와 문맥적 비속어의 검출에는 다소 미흡함을 나타내었다. 이 프로그램은 품사적, 의미적 중의어와 문맥적 비속어의 처리에 있어서 이 프로그램의 수동모드의 확장을 통해 앞으로 더욱 보완되어야 할 것이다. 이 프로그램은 게시판 사용자들을 적절한 단어사용에로 유도하며, 공공기관, 학교, 방송국 등의 게시판 관리자의 수작업을 대체해 줄 수 있을 것으로 기대된다.

  • PDF

SVM을 이용한 온라인게임 비속어 필터링 시스템 (Developing a Vulgarity Filtering System for Online Games using SVM)

  • 박교현;이지형
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.260-263
    • /
    • 2006
  • 최근 온라인 게임 산업이 커짐에 따라 이를 즐기는 유저도 급증하고 있다. 온라인 게임에서는 일반적으로 유저들이 서로를 구분하기 위해 사용하는 사용자 이름과 상호간 의사소통을 하기 위한 채팅을 지원한다. 유저의 수가 증가함에 따라 대화의 양은 더욱 더 많아지고, 선정성, 폭력성을 띄는 언어의 문제로 이어지고 있다. 이는 특히 18세 이하도 이용가능한 게임을 만드는 경우 더욱 중요하다. 하지만 대부분의 게임들이 금지어 리스트에 따른 단어 매칭방식의 비속어 필터링만을 제공하고 있다. 이러한 방법은 금지어로 지정된 단어를 포함한 정상적인 채팅도 막을 뿐만 아니라 일부 음절을 다른 기호로 바꾸어 표기한 비속어는 걸러내지 못한다. 변형된 단어들을 충분히 처리하지 못한다면 비속어 필터링 시스템은 단지 무력하고 쓸모없는 존재가 될 뿐이다. 본 논문에서는 SVM을 이용하여 학습이 가능한 비속어 필터링 시스템을 제안하고자 한다. SVM을 이용하면 사용자 편의성을 해치지 않고서도 보다 많은 종류의 비속어들을 효과적으로 걸러낼 수 있다.

  • PDF

변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋 (Token-Based Classification and Dataset Construction for Detecting Modified Profanity)

  • 고성민;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.181-188
    • /
    • 2024
  • 기존의 비속어 탐지 방법들은 의도적으로 변형된 비속어를 식별하는 데 한계가 있다. 이 논문에서는 자연어 처리의 한 분야인 개체명 인식에 기반한 새로운 방법을 소개한다. 우리는 시퀀스 레이블링을 이용한 비속어 탐지 기법을 개발하고, 이를 위해 한국어 악성 댓글 중 일부 비속어를 레이블링하여 직접 데이터셋을 구축하여 실험을 수행하였다. 또한 모델의 성능을 향상시키기 위하여 거대 언어 모델중 하나인 ChatGPT를 활용해 한국어 혐오발언 데이터셋의 일부를 레이블링을 하는 방식으로 데이터셋을 증강하여 학습을 진행하였고, 이 과정에서 거대 언어 모델이 생성한 데이터셋을 인간이 필터링 하는 것만으로도 성능을 향상시킬 수 있음을 확인하였다. 이를 통해 데이터셋 증강 과정에는 여전히 인간의 관리감독이 필요함을 제시하였다.

영작문 자동평가를 위한 비속어 검출과 미등록어 분류 (Swear Word Detection and Unknown Word Classification for Automatic English Writing Assessment)

  • 이경호;김성권;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.381-388
    • /
    • 2014
  • 본 논문에서는 중 고등 수준 단문형 영어 작문시험의 자동채점 시스템을 위한 사전 미등록어 분류기 구현에 대해 다룬다. 영어 자동채점 과정에서 발생하는 사전 미등록어의 유형을 정의하고 각 유형에 대한 검출 방법에 대해 논의하였다. 또한 영작문 답안에서 나타날 수 있는 비속어의 유형을 정의하고 검출 방법에 대해 연구하였다. 영작문 자동평가 시스템의 모듈로서 비속어 검출 기능이 포함된 미등록어 분류기를 구현하였다. 미등록어 분류와 비속어 검출 방법에 대한 성능을 실제 시험 데이터에 적용하여 그 성능을 평가하였다.

딥러닝 기반 비속어 필터링 채팅 프로그램 설계 및 구현 (Design and Implementation of Profanity Filtering Chat Program Based on Deep Learning)

  • 이건환;박주찬;최동원;이연경;최호빈;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.998-1001
    • /
    • 2019
  • 최근에 게임이나 채팅 프로그램 내에서의 비속어 필터링은 금칙어 기반으로 운영되고 있다. 하지만 금칙어 기반의 프로그램은 여러 한계점을 보이며, 따라서, 본 논문에서는 'Text-CNN'을 활용한 딥러닝 기법에 기반하여 비속어 필터링 프로그램을 제안한다. 데이터의 자질을 '자모' 단위로 전처리하여 학습시키고 어느 부분이 비속어인지 검출하여 마스킹 처리하는 'LIME 알고리즘'을 사용하여 우리의 프로그램을 이용하는 사용자들에게 바른 언어습관을 지향하며 더 나아가 올바른 인터넷 문화를 조성할 수 있도록 필터링 채팅 프로그램을 제안한다.

온라인게임 채팅에서의 비속어 차단시스템 (A Swearword Filter System for Online Game Chatting)

  • 이성욱
    • 한국정보통신학회논문지
    • /
    • 제15권7호
    • /
    • pp.1531-1536
    • /
    • 2011
  • 온라인 게임의 활성화로 온라인 게임의 폐해도 증가하고 있는데 온라인 게임의 대표적인 폐해 중 하나인 언어 폭력 문제가 심각한 사회문제를 야기하고 있다. 본 논문은 온라인 게임의 채팅에 나타나는 비속어를 자동으로 차단하는 시스템을 제안한다. 우리는 온라인 게임의 채팅창에 나타나는 문장을 수집하였고 비속어 포함 문장과 정상 문장으로 수동으로 분류하였다. 음절 n-gram과 어휘-품사 쌍을 자질로 사용하며 카이제곱 통계량을 이용하여 자질을 선택한다. 선택된 자질들을 이진가중치로 표현하여 지지벡터기계(SVM)를 학습한 후, SVM 분류기로 각 문장의 차단 여부를 결정하였다. 실험 결과, 수집된 데이터에 대해 약 90.4%의 F1 정확률을 얻었다.