Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2023.10a
- /
- Pages.149-154
- /
- 2023
- /
- 2005-3053(pISSN)
100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models
100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋
- Li Fei (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
- Yejee Kang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
- Seoyoon Park (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
- Yeonji Jang (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics) ;
- Hansaem Kim (Yonsei University, Interdisciplinary Graduate Program of Linguistics and Informatics)
- 비립 (연세대학교, 언어정보학협동과정) ;
- 강예지 (연세대학교, 언어정보학협동과정) ;
- 박서윤 (연세대학교, 언어정보학협동과정) ;
- 장연지 (연세대학교, 언어정보학협동과정) ;
- 김한샘 (연세대학교, 언어정보학협동과정)
- Published : 2023.10.12
Abstract
본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.