Evaluation of Generative AI's Understading of Hate Speech Using Appropriateness Conditions

적정성 조건을 활용한 생성 AI의 혐오 화행 이해 평가

  • Kang Joeun (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Kim Yujin (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Kim Hansaem (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics)
  • 강조은 (연세대학교 언어정보학협동과정) ;
  • 김유진 (연세대학교 언어정보학협동과정) ;
  • 김한샘 (연세대학교 언어정보학협동과정)
  • Published : 2023.10.12

Abstract

끊임없이 재생산되는 혐오 표현의 정확한 탐지를 위해서는 혐오란 무엇인가에 대한 본질적인 이해가 필요하다. 본 연구에서는 화용론에서 사용되는 적정성 조건이라는 분석 틀을 활용하여 모델이 '혐오하기' 화행을 어떻게 인식하고 있는지 평가하고자 했다. 혐오 화행의 적정성 조건을 명제 내용 조건, 예비 조건, 성실성 조건, 본질 조건으로 나누어 분석하였으며, 이를 진위형, 연결형, 단답형, 논술형 문항으로 구성했다. 그 결과 모든 문항 유형에서 50점이 넘는 점수를 받았으나 비교적 고차원인 사고 능력을 측정하는 단답형과 논술형 문항 유형의 점수가 가장 낮게 나타났다.

Keywords