일반 상식 추론 능력은 가장 사람다운 능력 중 하나로써, 인공지능 모델이 쉽게 모사하기 어려운 영역이다. 딥러닝 기반의 언어 모델은 여전히 일반 상식에 기반한 추론을 필요로 하는 분야에서 부족한 성능을 보인다. 특히, 한국어에서는 일반 상식 추론과 관련한 연구가 상당히 부족한 상황이다. 이러한 문제 완화를 위해 최근 생성 기반의 일반 상식 추론을 위한 한국어 데이터셋인 Korean CommonGen [1]이 발표되었다. 그러나, 해당 데이터셋의 평가 지표는 어휘 단계의 유사성과 중첩에 의존하는 한계를 지니며, 생성한 문장이 일반 상식에 부합한 문장인지 측정하기 어렵다. 따라서 본 논문은 한국어 일반 상식 추론 및 생성 능력에 대한 평가 지표를 개선하기 위해 문장 성분의 의미역과 자모의 형태 변화를 바탕으로 생성 결과를 평가하는 SRLev, 사람의 평가 결과를 학습한 BIH, 그리고 두 평가 지표의 장점을 결합한 SRLev-BIH를 제안한다.
본 연구는 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업이며 (NRF-2021R1A6A1A03045425), 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었고 (IITP-2022-2018-0-01405), 그리고 과학기술정보통신부 및 정보통신기획평가원의 ICT명품인재양성 사업의 연구 결과로 수행되었습니다 (IITP-2022-2020-0-01819).