Acknowledgement
이 논문은 2022 년도 과학기술정보통신부의 재원으로 정보통신산업진흥원의 지원을 받아 수행된 연구임(과제번호: A1504-22-1016)
DOI QR Code
별개의 분류 모델을 이용하여 비윤리 발화를 억제하려 했던 과거의 시도들과는 달리, 본 연구에서는 데이터 추가를 통한 발화 생성 단계에서의 윤리성 체화에 대해 실험하였다. 본 연구에서는 분류 모델로는 감지하기 어려운 멀티턴 비윤리 공격으로 이루어진 새로운 대화 데이터 세트를 소개하고, 해당 데이터 세트를 통해 개선된 챗봇 대화 모델의 방어 성능을 공개한다.
이 논문은 2022 년도 과학기술정보통신부의 재원으로 정보통신산업진흥원의 지원을 받아 수행된 연구임(과제번호: A1504-22-1016)