100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋

  • Li Fei (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Yejee Kang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Seoyoon Park (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Yeonji Jang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
  • Hansaem Kim (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics)
  • 비립 (연세대학교, 언어정보학협동과정) ;
  • 강예지 (연세대학교, 언어정보학협동과정) ;
  • 박서윤 (연세대학교, 언어정보학협동과정) ;
  • 장연지 (연세대학교, 언어정보학협동과정) ;
  • 김한샘 (연세대학교, 언어정보학협동과정)
  • Published : 2023.10.12

Abstract

본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

Keywords