100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models

Li Fei;Yejee Kang;Seoyoon Park;Yeonji Jang;Hansaem Kim;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2023.10a
/
Pages.149-154
/
2023
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋

Li Fei (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
Yejee Kang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
Seoyoon Park (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
Yeonji Jang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
Hansaem Kim (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics)

비립 (연세대학교, 언어정보학협동과정) ;
강예지 (연세대학교, 언어정보학협동과정) ;
박서윤 (연세대학교, 언어정보학협동과정) ;
장연지 (연세대학교, 언어정보학협동과정) ;
김한샘 (연세대학교, 언어정보학협동과정)

Published : 2023.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋

Abstract

Keywords