Analysis of Toxicity and Bias of ChatGPT within Korean Social Context

한국의 사회적 맥락에서의 ChatGPT의 독성 및 편향성 분석

  • Seungyoon Lee (Department of Computer Science and Engineering, Korea University) ;
  • Chanjun Park (Upstage) ;
  • Gyeongmin Kim (Human-inspired AI Research, Korea University) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • Published : 2023.10.12

Abstract

초거대 언어모델은 심화된 언어적 이해를 요구하는 여러 분야에 높은 영향력을 미치고 있으나, 그에 수반되는 편향성과 윤리성에 대한 우려 또한 함께 증대되었다. 특히 편향된 언어모델은 인종, 성적 지향 등과 같은 다양한 속성을 가진 개인들에 대한 편견을 강화시킬 수 있다. 그러나 이러한 편향성에 관한 연구는 대부분 영어 문화권에 한정적이며 한국어에 관한 연구 또한 한국에서 발생하는 지역 갈등, 젠더 갈등 등의 사회적 문제를 반영하지 못한다. 이에 본 연구에서는 ChatGPT의 내재된 편향성을 도출하기 위해 의도적으로 다양한 페르소나를 부여하고 한국의 사회적 쟁점들을 기반으로 프롬프트 집합을 구성하여 생성된 문장의 독성을 분석하였다. 실험 결과, 특정 페르소나 또는 프롬프트에 관해서는 지속적으로 유해한 문장을 생성하는 경향성이 나타났다. 또한 각 페르소나-쟁점에 대해 사회가 갖는 편향된 시각이 모델에 그대로 반영되어, 각 조합에 따라 생성된 문장의 독성 분포에 유의미한 차이를 보이는 것을 확인했다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2022-2018-0-01405). 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425). 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발).