• 제목/요약/키워드: 욕설

검색결과 46건 처리시간 0.024초

딥러닝 기반 욕설 탐지 (Swear Word Detection through Convolutional Neural Network)

  • 김유민;강효빈;한수현;정희용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.685-686
    • /
    • 2021
  • 개인의 소셜미디어 활동이 활발해지면서 익명성을 악용하여 타인에게 욕설을 주저없이 해버리는 사용자가 늘고 있다. 본 연구는 욕설이 난무하는 채팅창에서 욕설 데이터를 크롤링하여 데이터셋을 구축하여 컨볼루션 네트워크로 학습시켰을 때 욕설을 탐지하고, 전체 문장에서 그 탐지한 욕설의 위치를 파악하여 블러링 처리를 할 수 있는지를 확인하는 것을 목적으로 한다. 전처리 작업으로 한글과 공백을 제외하고 형태소 단위로 토큰화한 후 불용어를 제거해서 패딩처리를 하였다. 학습 모델로는 1차원 컨볼루션을 사용하여 수집한 데이터의 80%를 훈련에 사용하고 나머지 20%를 테스트에 사용하였다. 키워드를 이용한 단순 분류 모델과 비교하였을 때, 본 연구에서 이용한 모델이 약 14% 정확도가 향상된 것을 확인할 수 있었다. 테스트에서 전체 문장에서 욕설이 포함되었을 때 욕설과 그 위치 정보를 잘 획득하는 것도 확인할 수 있었다.

BERT를 활용한 초등학교 고학년의 욕설문장 자동 분류방안 연구 (A Study on Automatic Classification of Profanity Sentences of Elementary School Students Using BERT)

  • 심재권
    • 창의정보문화연구
    • /
    • 제7권2호
    • /
    • pp.91-98
    • /
    • 2021
  • 코로나19로 인해 초등학생이 온라인 환경에 머무는 시간이 증가함에 따라 작성하는 게시글, 댓글, 채팅의 양이 증가하였고, 타인의 감정을 상하게 하거나 욕설을 하는 등의 문제가 발생하고 있다. 네티켓을 초등학교에서 교육하고 있지만, 교육시간이 부족할 뿐 아니라 행동의 변화까지 기대하기는 어려움이 있어 자연어처리를 통한 기술적인 지원이 필요한 상황이다. 본 연구는 초등학생이 작성하는 문장에 사전언어학습 모델에 적용하여 자동으로 욕설문장을 필터링하는 실험을 진행하였다. 실험은 온라인 학습 플랫폼에서 초등학교 4-6학년의 채팅내역을 수집하였고, 채팅 내역중에 욕설로 신고되어 판정된 욕설문장을 함께 수집하여 사전학습된 언어모델을 통해 훈련하였다. 실험결과, 욕설문장을 분류한 결과 75%의 정확률을 보이는 것으로 분석되어 학습 데이터가 충분히 보완된다면, 초등학생이 사용하는 온라인 플랫폼에서 적용할 수 있음을 보여주었다.

온라인 커뮤니티상에 나타난 여성혐오 현상 분석 (Analyzing the phenomenon of misogyny in online community)

  • 이지현;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.27-28
    • /
    • 2019
  • 본 논문에서는 한국 사회에 특유의 폭력성과 선정성으로 인해 큰 충격을 주고 있는 인터넷 커뮤니티 사이트 '일간 베스트' 글에 나타난 욕설과 여성 혐오에 대해 분석하고자 한다. 데이터는 일베 게시판에 올라온 게시글 2,000개를 웹 크롤링하여 수집하였으며, 수집한 게시글에 게임 내 금칙어 리스트와 여성 지칭어 사전을 기반으로 욕설 여부와 여성 지칭어를 태깅하였다. 태깅하여 분석한 결과 여성 지칭어를 사용한 게시글에는 욕설을 사용하는 글이 전체의 60.52%로 많았으며 욕설을 사용하지 않은 게시글에도 범행, 살해, 김치녀 등의 부정적인 단어가 많은 것을 볼 수 있었다.

  • PDF

딥러닝를 사용한 온라인 게임에서의 욕설 탐지 (Abusive Sentence Detection using Deep Learning in Online Game)

  • 박성희;김휘강;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.13-14
    • /
    • 2019
  • 욕설은 게임 내 가장 큰 불쾌 요소 중 하나이다. 지금까지 게임 사용자들의 욕설을 방지하기 위해서 금칙어를 기반으로 필터링 해왔으나, 한국어 특성상 단어를 변형하거나 중간에 숫자를 넣는 등 우회할 방법이 다양하기 때문에 효과적이지 않다. 따라서 본 논문에서는 실제 온라인 게임 'Archeage'에서 수집된 채팅 데이터를 기반으로 딥러닝 기법 중 하나인 콘볼루션 신경망을 사용하여 욕설을 탐지하는 모델을 구축하였다. 한글의 자음, 모음을 분리하여 실험하였을 때, 87%라는 정확도를 얻었다. 한 글자씩 분리한 경우, 조금 더 좋은 정확도를 얻었으나, 사전의 수가 자소를 분리한 경우보다 10배 이상 늘어난 것을 고려해보면 자소를 분리한 것이 더 효율적이다.

  • PDF

부와 모의 갈등해결양식이 청소년의 욕설사용에 미치는 영향: 공격성의 매개역할 (The Influence of Mother's and Father's Conflict Resolution Styles on Adolescents' Use of Swear Words: The Mediating Role of Aggression)

  • 이보현;이은희
    • 문화기술의 융합
    • /
    • 제4권2호
    • /
    • pp.107-114
    • /
    • 2018
  • 본 연구에서는 부와 모와의 갈등해결양식(공격적 절충적)이 청소년의 욕설사용에 미치는 영향과 부와 모와의 갈등해결양식과 청소년의 욕설사용과의 관계에서 공격성이 매개효과가 있는지를 알아보고자 하였다. 본 연구를 수행하기 위해 G도의 3개시 소재 6개 학교 중학생 570명을 대상으로 설문조사를 실시하였으며, 최종적으로 477부를 선정하여 연구 자료로 사용하였다. 주요 결과는 다음과 같다. 첫째, 모와의 공격적 갈등해결양식이 청소년의 욕설사용에 정적인 영향을 미치는 것으로 나타났다. 둘째, 부와 모와의 갈등해결양식과 청소년의 욕설사용과의 관계에서 공격성이 매개효과를 가지는 지에 대해서 알아본 결과, 부와 모의 공격적 갈등해결양식과 욕설사용과의 관계에서 공격성이 매개효과가 있는 것으로 나타났다. 따라서 청소년과 부모사이의 갈등이 적절하게 해결되지 못하면 공격성을 축적시켜서 욕설사용이 증가되는 것으로 볼 수 있다. 본 연구결과는 청소년과 부와 모와의 공격적 갈등해결양식이 공격성을 상승시키는 방식을 통하여 간접적으로 청소년의 욕설사용을 촉발함을 확인하였다는 데에 그 의의가 있으며, 이 결과가 현재 사회의 큰 문제가 되고 있는 학교폭력과 연관 될 수 있는 청소년 자녀의 욕설사용을 감소시킬 수 있는 부모교육 프로그램의 개발의 기초자료로 활용 될 수 있기를 기대한다.

반 전역 정렬을 이용한 온라인 게임 변형 욕설 필터링 시스템 (The Online Game Coined Profanity Filtering System by using Semi-Global Alignment)

  • 윤태진;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.113-120
    • /
    • 2009
  • 온라인 게임에서의 언어폭력 문제는 매우 심각하지만 그에 대한 효과적인 정책이나 기술적인 방법은 부족한 상황이다. 온라인 게임 서비스 업체에서는 금칙어 리스트를 작성하여 Swear Filter를 이용한 고정된 형식의 문자열 검색 방식을 통해 문제를 해결하려고 하고 있으나 사용자들은 다양한 방법으로 욕설을 조합 또는 변형시켜 기존의 필터링을 회피하고 있다. 특히 한글은 욕설의 변형이 매우 쉬운 특성을 가지고 있다. 본 논문에는 한글에 기초한 변형 욕설을 효율적으로 탐색하여 걸러내는 알고리즘을 제시한다. 이 알고리즘의 주된 특징은 변형 욕설의 표준형 변환과 자소단위의 반 전체 정렬(semi-global alignment), 이다. 실험 결과 저자들이 다양한 인터넷 게임 환경에서 직접 수집한 다종의 욕설 단어들에 대하여 약 90%의 우수한 필터링 성능을 보였다.

욕설문장 분류의 불균형 데이터 해결을 위한 전이학습 방법 (A Transfer Learning Method for Solving Imbalance Data of Abusive Sentence Classification)

  • 서수인;조성배
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1275-1281
    • /
    • 2017
  • 욕설문장을 지도학습 접근법으로 분류하기 위해서 욕설인지 아닌지 판별된 학습 문장이 필요하다. 문자수준의 컨볼루션 신경망이 각 문자에 대해 강건성을 가지기 때문에 욕설분류에 적합하지만, 학습에 많은 데이터가 필요하다는 단점이 있다. 본 논문에서는 이를 해결하기 위해 임의로 생성한 욕설/비욕설 문장 쌍을 컨볼루션 신경망을 기반으로 하는 분류기에 학습시켜 컨볼루션 신경망의 필터가 욕설의 특징을 분류하도록 조정한 후, 실제 훈련문장을 학습시킬 때 필터를 재사용하는 전이학습방법을 제안한다. 이로써 데이터 부족과 클래스 불균형으로 인한 영향이 감소하여 분류 성능이 향상될 것이다. 실험 및 평가는 총 3가지 데이터에 대해 수행되었으며, 문자수준 컨볼루션 신경망을 활용한 분류기는 모든 데이터에서 전이학습을 적용했을 때 더 높은 F1 점수를 획득하였다.

양방향 장단기 메모리 신경망을 이용한 욕설 검출 (Abusive Detection Using Bidirectional Long Short-Term Memory Networks)

  • 나인섭;이신우;이재학;고진광
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.35-45
    • /
    • 2019
  • 욕설과 비속어를 포함한 악성 댓글에 대한 피해는 최근 언론에 나오는 연애인의 자살뿐만 아니라 사회 전반에서 다양한 형태로 증가하고 있다. 이 논문에서는 양방향 장단기 메모리 신경망 모델을 이용하여 욕설을 검출하는 기법을 제시하였다. 웹 크룰러를 통해 웹상의 댓글을 수집하고, 영어나 특수문자 등의 사용하지 않은 글에 대해 불용어 처리를 하였다. 불용어 처리된 댓글에 대해 문장의 전·후 관계를 고려한 양방향 장단기 메모리 신경망 모델을 적용하여 욕설 여부를 판단하고 검출하였다. 양방향 장단기 메모리 신경망을 사용하기 위해 검출된 댓글에 대해 형태소 분석과 벡터화 과정을 거쳤으며 각 단어들에 욕설 해당 여부를 라벨링하여 진행하였다. 실험 결과 정제하고 수집된 총 9,288개의 댓글에 대해 88.79%의 성능을 나타내었다.

  • PDF

대화형 인공지능을 위한 메신저 대화의 비윤리적 표현 연구 (Unethical Expressions in Messenger Talks for Interactive Artificial Intelligence)

  • 고예린;남길임;송현주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.22-25
    • /
    • 2022
  • 본 연구는 대화형 인공지능이 비윤리적 표현을 학습하거나 생성하는 것을 방지하기 위한 기초적 연구로, 메신저 대화에 나타나는 단어 단위, 구 단위 이상의 비윤리적 표현을 수집하고 그 특성을 분석하였다. 비윤리적 표현은 '욕설, 혐오 및 차별 표현, 공격적 표현, 성적 표현'이 해당된다. 메신저 대화에 나타난 비윤리적 표현은 욕설이 가장 많은 비중을 차지했는데, 욕설에서는 비표준형뿐만 아니라 '존-', '미치다' 등과 같이 맥락을 고려하여 판단해야 하는 경우가 있다. 가장 높은 빈도로 나타난 욕설 '존나류, 씨발류, 새끼류'의 타입-토큰 비율(TTR)을 확인한 결과 '새끼류'의 TTR이 가장 높게 나타났다. 다음으로 메신저 대화에서는 공격적 표현이나 성적인 표현에 비해 혐오 및 차별 표현의 비중이 높았는데, '국적/인종'과 '젠더' 관련된 혐오 및 차별 표현이 특히 높게 나타났다. 혐오 및 차별 표현은 단어 단위보다는 구 단위 이상의 표현의 비중이 높았고 문장 단위로 떨어지기 보다는 대화 전체에 걸쳐 나타나는 것을 확인하였다. 따라서 혐오 및 차별 표현을 탐지하기 위해서는 단어 단위보다는 구 단위 이상 표현의 탐지에 대한 필요성이 있음을 학인하였다.

  • PDF

비대면 채널에서의 음성분석을 통한 언어폭력 유형 탐색 (Exploring Types of Verbal Violence Through Speech Analysis on Non-facing Channels)

  • 김종선;안성진
    • 컴퓨터교육학회논문지
    • /
    • 제23권3호
    • /
    • pp.71-79
    • /
    • 2020
  • 이 연구는 비대면 채널에서의 언어폭력이 사회적으로 이슈가 되고 있고 감정노동자들의 업무처리 상황에서 발생하는 언어폭력의 실제 사례들은 무엇이 있는가를 전문가심층면접을 통해 조사하였다. 그리고 실제 통화내용에서 언어폭력의 분포를 음성분석(SA)이라는 새로운 빅데이터 기술을 통해 확인하였다. 연구 결과 첫째 비대면 채널을 통해 일어나는 통화에서 언어폭력은 인격모독, 폭언/욕설, 무리한 요구, (성)희롱과 위협/협박으로 분류된다. 둘째 음성분석을 이용하여 이들 범주 중 가장 높은 빈도를 나타내고 있는 것은 인격모독과 폭언/욕설이었으며 인격모독에서는 하대/반말이 가장 높은 비율을 차지하고 있으며 폭언/욕설에서는 일반적 욕설의 비중이 가장 높았다. 특히 전체 언어폭력 사례에서 일반적 욕설이 차지하는 비율이 가장 높았다. 이 연구를 통해 비대면 채널 상황에서 발생하는 언어폭력의 유형을 정리하였으며 감정노동자들에게 있어서 언어적 스트레스가 직무에 어떠한 영향을 끼치는가에 대한 연구의 필요성을 시사하였다.