Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL

Jwa, Seung Yeon;Cha, Young-rok;Han, Moonsu;Shin, Donghoon;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2021.10a
/
Pages.365-370
/
2021
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL

한국어 오픈 도메인 대화 모델의 CTRL을 활용한 혐오 표현 생성 완화

Jwa, Seung Yeon (Seoul National University) ;
Cha, Young-rok (NCSOFT Corp.) ;
Han, Moonsu (NCSOFT Corp.) ;
Shin, Donghoon (NCSOFT Corp.)

좌승연 (서울대학교) ;
차영록 ((주)엔씨소프트) ;
한문수 ((주)엔씨소프트) ;
신동훈 ((주)엔씨소프트)

Published : 2021.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

대형 코퍼스로 학습한 언어 모델은 코퍼스 안의 사회적 편견이나 혐오 표현까지 학습한다. 본 연구에서는 한국어 오픈 도메인 대화 모델에서 혐오 표현 생성을 완화하는 방법을 제시한다. Seq2seq 구조인 BART [1]를 기반으로 하여 컨트롤 코드을 추가해 혐오 표현 생성 조절을 수행하였다. 컨트롤 코드를 사용하지 않은 기준 모델(Baseline)과 비교한 결과, 컨트롤 코드를 추가해 학습한 모델에서 혐오 표현 생성이 완화되었고 대화 품질에도 변화가 없음을 확인하였다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Mitigating Hate Speech in Korean Open-domain Chatbot using CTRL

한국어 오픈 도메인 대화 모델의 CTRL을 활용한 혐오 표현 생성 완화

Abstract

Keywords