Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2023.10a
- /
- Pages.448-453
- /
- 2023
- /
- 2005-3053(pISSN)
FubaoLM : Automatic Evaluation based on Chain-of-Thought Distillation with Ensemble Learning
FubaoLM : 연쇄적 사고 증류와 앙상블 학습에 의한 대규모 언어 모델 자동 평가
- Huiju Kim (Department of Computer Science and Engineering, Korea University,) ;
- Donghyeon Jeon (Naver Corporation) ;
- Ohjoon Kwon (Naver Corporation) ;
- Soonhwan Kwon (Naver Corporation) ;
- Hansu Kim (Naver Corporation) ;
- Inkwon Lee (Naver Corporation) ;
- Dohyeon Kim (Science in Mechanical and Aerospace Engineering, Seoul University) ;
- Inho Kang (Naver Corporation)
- 김희주 (고려대학교 컴퓨터학과) ;
- 전동현 (네이버) ;
- 권오준 (네이버) ;
- 권순환 (네이버) ;
- 김한수 (네이버) ;
- 이인권 (네이버) ;
- 김도현 (서울대학교 기계항공공학부) ;
- 강인호 (네이버)
- Published : 2023.10.12
Abstract
대규모 언어 모델 (Large Language Model, LLM)을 인간의 선호도 관점에서 평가하는 것은 기존의 벤치마크 평가와는 다른 도전적인 과제이다. 이를 위해, 기존 연구들은 강력한 LLM을 평가자로 사용하여 접근하였지만, 높은 비용 문제가 부각되었다. 또한, 평가자로서 LLM이 사용하는 주관적인 점수 기준은 모호하여 평가 결과의 신뢰성을 저해하며, 단일 모델에 의한 평가 결과는 편향될 가능성이 있다. 본 논문에서는 엄격한 기준을 활용하여 편향되지 않은 평가를 수행할 수 있는 평가 프레임워크 및 평가자 모델 'FubaoLM'을 제안한다. 우리의 평가 프레임워크는 심층적인 평가 기준을 통해 다수의 강력한 한국어 LLM을 활용하여 연쇄적 사고(Chain-of-Thought) 기반 평가를 수행한다. 이러한 평가 결과를 다수결로 통합하여 편향되지 않은 평가 결과를 도출하며, 지시 조정 (instruction tuning)을 통해 FubaoLM은 다수의 LLM으로 부터 평가 지식을 증류받는다. 더 나아가 본 논문에서는 전문가 기반 평가 데이터셋을 구축하여 FubaoLM 효과성을 입증한다. 우리의 실험에서 앙상블된 FubaoLM은 GPT-3.5 대비 16% 에서 23% 향상된 절대 평가 성능을 가지며, 이항 평가에서 인간과 유사한 선호도 평가 결과를 도출한다. 이를 통해 FubaoLM은 비교적 적은 비용으로도 높은 신뢰성을 유지하며, 편향되지 않은 평가를 수행할 수 있음을 보인다.