Acknowledgement
이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구이다. (No. 2018-0-00582, (통합EZ)(SW 스타랩) 언어학적 분석 및 증거 문서 자동 수집을 통한 신뢰도 분포 자동 예측 및 자동 증강(2023년도))
거대 언어 모델의 성능이 비약적으로 높아지며 인간과의 직접적인 상호 작용 과정이 가능해지고, 이에 따라 윤리 검증의 필요성이 대두되고 있다. 본 연구에서는 인간이 지닌 여러 가치관 중에 정치에 초점을 둔다. 거대 언어 모델의 정치 성향이 사용자의 입력에 따라 변할 수 있는지와 하위 작업에 끼치는 영향에 대해 알아보고자 두 개의 실험을 설계하였고 이에 대한 결과를 분석하였다. 실험에는 거대 언어 모델의 정치 성향을 입력 대조군으로, 세가지 다른 입력 (탈옥 기법, 정치 페르소나, 탈옥 페르소나)을 입력 실험군으로 규정하였다. 실험 결과, 거대 언어 모델의 정치 성향은 탈옥 기법에서 가장 큰 폭으로 변화하였고, 정치 페르소나와 탈옥 페르소나에서는 변화가 크지 않아, 거대 언어 모델에 내재된 정치 성향의 영향에서 크게 벗어나지 못함을 확인하였다. 또한, 하위 작업에서의 실험을 통해 변화된 정치 성향은 하위 작업의 성능 개선을 가져올 수 있으며, 각 실험군에 따라 하위 작업에서 다른 방식의 양상을 보임을 확인하였다. 이는 실제 모델이 사용될 때 개인화된 응답보다는 모델이 선호하는 응답을 받게 되며, 거대 언어 모델의 정치 성향이 사용자에게 여과없이 노출될 수 있음을 시사한다.
이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구이다. (No. 2018-0-00582, (통합EZ)(SW 스타랩) 언어학적 분석 및 증거 문서 자동 수집을 통한 신뢰도 분포 자동 예측 및 자동 증강(2023년도))