Reducing Toxic Response Generation in Conversational Models using Plug and Play Language Model

Kim, Byeong-Joo;Lee, Geun-Bae;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2021.10a
/
Pages.433-438
/
2021
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Reducing Toxic Response Generation in Conversational Models using Plug and Play Language Model

Plug and Play Language Model을 활용한 대화 모델의 독성 응답 생성 감소

Kim, Byeong-Joo (Pohang University of Science and Technology, Graduate School of Artificial Intelligence) ;
Lee, Geun-Bae (Pohang University of Science and Technology, Graduate School of Artificial Intelligence)

김병주 (포항공과대학교 인공지능대학원) ;
이근배 (포항공과대학교 인공지능대학원)

Published : 2021.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

대화 시스템은 크게 사용자와 시스템이 특정 목적 혹은 자유 주제에 대해 대화를 진행하는 것으로 구분된다. 최근 자유주제 대화 시스템(Open-Domain Dialogue System)에 대한 연구가 활발히 진행됨에 따라 자유 주제를 기반으로 하는 상담 대화, 일상 대화 시스템의 독성 발화 제어 생성에 대한 연구의 중요성이 더욱 커지고 있다. 이에 본 논문에서는 대화 모델의 독성 응답 생성을 제어하기 위해 일상 대화 데이터셋으로 학습된 BART 모델에 Plug-and-Play Language Model 방법을 적용한다. 공개된 독성 대화 분류 데이터셋으로 학습된 독성 응답 분류기를 PPLM의 어트리뷰트(Attribute) 모델로 활용하여 대화 모델의 독성 응답 생성을 감소시키고 그 차이를 실험을 통해 정량적으로 비교한다. 실험 결과 어트리뷰트 모델을 활용한 모든 실험에서 독성 응답 생성이 감소함을 확인하였다.

Keywords

PPLM;
BART

Acknowledgement

본 연구는 삼성 리서치의 산학협력과제의 지원을 받아 수행되었음.