KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models

Jungseob Lee;Junyoung Son;Taemin Lee;Chanjun Park;Myunghoon Kang;Jeongbae Park;Heuiseok Lim;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2023.10a
/
Pages.9-13
/
2023
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models

KFREB: 생성형 한국어 대규모 언어 모델의 검색 기반 생성 평가 데이터셋

Jungseob Lee (Department of Computer Science and Engineering, Korea University) ;
Junyoung Son (Department of Computer Science and Engineering, Korea University) ;
Taemin Lee (Human-inspired AI Research) ;
Chanjun Park (Upstage) ;
Myunghoon Kang (Department of Computer Science and Engineering, Korea University) ;
Jeongbae Park (Human-inspired AI Research) ;
Heuiseok Lim (Department of Computer Science and Engineering, Korea University)

이정섭 (고려대학교 컴퓨터학과) ;
손준영 (고려대학교 컴퓨터학과) ;
이태민 (Human-inspired AI 연구소) ;
박찬준 ;
강명훈 (고려대학교 컴퓨터학과) ;
박정배 (Human-inspired AI 연구소) ;
임희석 (고려대학교 컴퓨터학과)

Published : 2023.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 대규모 언어모델의 검색 기반 답변 생성능력을 평가하는 새로운 한국어 벤치마크, KFREB(Korean Fictional Retrieval Evaluation Benchmark)를 제안한다. KFREB는 모델이 사전학습 되지 않은 허구의 정보를 바탕으로 검색 기반 답변 생성 능력을 평가함으로써, 기존의 대규모 언어모델이 사전학습에서 보았던 사실을 반영하여 생성하는 답변이 실제 검색 기반 답변 시스템에서의 능력을 제대로 평가할 수 없다는 문제를 해결하고자 한다. 제안된 KFREB는 검색기반 대규모 언어모델의 실제 서비스 케이스를 고려하여 장문 문서, 두 개의 정답을 포함한 골드 문서, 한 개의 골드 문서와 유사 방해 문서 키워드 유무, 그리고 문서 간 상호 참조를 요구하는 상호참조 멀티홉 리즈닝 경우 등에 대한 평가 케이스를 제공하며, 이를 통해 대규모 언어모델의 적절한 선택과 실제 서비스 활용에 대한 인사이트를 제공할 수 있을 것이다.

Keywords

KFREB

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2022-2018-0-01405). 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425). 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발).