Evaluation of Language Model Robustness Using Implicit Unethical Data

암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가

  • Yujin Kim (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Gayeon Jung (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Hansaem Kim (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics)
  • 김유진 (연세대학교 언어정보학협동과정) ;
  • 정가연 (연세대학교 언어정보학협동과정) ;
  • 김한샘 (연세대학교 언어정보학협동과정)
  • Published : 2023.10.12

Abstract

암시적 비윤리 표현은 명시적 비윤리 표현과 달리 학습 데이터 선별이 어려울 뿐만 아니라 추가 생산 패턴 예측이 까다롭다. 고로 암시적 비윤리 표현에 대한 언어 모델의 감지 능력을 기르기 위해서는 모델의 취약성을 발견하는 연구가 반드시 선행되어야 한다. 본 논문에서는 암시적 비윤리 표현에 대한 표기 변경과 긍정 요소 삽입이라는 두 가지 변형을 통해 모델의 예측 변화를 유도하였다. 그 결과 모델이 야민정음과 외계어를 사용한 언어 변형에 취약하다는 사실을 발견하였다. 이에 더해 이모티콘이 텍스트와 함께 사용되는 경우 텍스트 자체보다 이모티콘의 효과가 더 크다는 사실을 밝혀내었다.

Keywords