Data Augmentation for Alleviating Toxicity of Open-Domain Dialogue System using LLM

LLM을 활용한 오픈 도메인 대화 시스템의 유해성을 완화하는 데이터 증강 기법

  • San Kim (Graduate School of Artificial Intelligence, Pohang University of Science and Technology) ;
  • Gary Geunbae Lee (Computer Science and Engineering, Pohang University of Science and Technology)
  • 김산 (포항공과대학교 인공지능대학원) ;
  • 이근배 (포항공과대학교 컴퓨터공학과)
  • Published : 2023.10.12

Abstract

오픈 도메인 대화 시스템은 산업에서 다양하게 활용될 수 있지만 유해한 응답을 출력할 수 있다는 위험성이 지적되어 왔다. 본 논문에서는 언급된 위험성을 완화하기 위해 데이터 측면에서 대화 시스템 모델을 개선하는 방법을 제안한다. 대화 모델의 유해한 응답을 유도하도록 설계된 데이터셋을 사용하여 모델이 올바르지 못한 응답을 생성하게 만들고, 이를 LLM을 활용하여 안전한 응답으로 수정한다. 또한 LLM이 정확하게 수정하지 못하는 경우를 고려하여 추가적인 필터링 작업으로 데이터셋을 보완한다. 생성된 데이터셋으로 추가 학습된 대화 모델은 기존 대화 모델에 비해 대화 일관성 및 유해성 면에서 성능이 향상되었음을 확인했다.

Keywords

Acknowledgement

본 연구는 삼성전자 삼성리서치의 지원과 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음 (IITP-2023-2020-0-01789).