Korean Commonsense Reasoning Evaluation for Large Language Models

거대언어모델을 위한 한국어 상식추론 기반 평가

  • Jaehyung Seo (Department of Computer Science and Engineering, Korea University) ;
  • Chanjun Park (Department of Computer Science and Engineering, Korea University) ;
  • Hyeonseok Moon (Department of Computer Science and Engineering, Korea University) ;
  • Sugyeong Eo (Department of Computer Science and Engineering, Korea University) ;
  • Aram So ( Human-inspired AI Research, Korea University) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • 서재형 (고려대학교 컴퓨터학과) ;
  • 박찬준 (고려대학교 컴퓨터학과) ;
  • 문현석 (고려대학교 컴퓨터학과) ;
  • 어수경 (고려대학교 컴퓨터학과) ;
  • 소아람 (고려대학교 Human-inspired AI 연구소) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2023.10.12

Abstract

본 논문은 거대언어모델에 대한 한국어 상식추론 기반의 새로운 평가 방식을 제안한다. 제안하는 평가 방식은 한국어의 일반 상식을 기초로 삼으며, 이는 거대언어모델이 주어진 정보를 얼마나 잘 이해하고, 그에 부합하는 결과물을 생성할 수 있는지를 판단하기 위함이다. 기존의 한국어 상식추론 능력 평가로 사용하던 Korean-CommonGEN에서 언어 모델은 이미 높은 수준의 성능을 보이며, GPT-3와 같은 거대언어모델은 사람의 상한선을 넘어선 성능을 기록한다. 따라서, 기존의 평가 방식으로는 거대언어모델의 발전된 상식추론 능력을 정교하게 평가하기 어렵다. 더 나아가, 상식 추론 능력을 평가하는 과정에서 사회적 편견이나 환각 현상을 충분히 고려하지 못하고 있다. 본 연구의 평가 방법은 거대언어모델이 야기하는 문제점을 반영하여, 다가오는 거대언어모델 시대에 한국어 자연어 처리 연구가 지속적으로 발전할 수 있도록 하는 상식추론 벤치마크 구성 방식을 새롭게 제시한다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2023-2018-0-01405). 본 연구는 과학기술정보통신부 및 정보통신기획평가원의 ICT명품인재양성 사업의 연구결과로 수행되었음 (IITP-2023-2020-0-01819). 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425).