KoQuality: Curation of High-quality Instruction Data for Korean Language Models

KoQuality: 한국어 언어 모델을 위한 고품질 명령어 데이터 큐레이션

  • Yohan Na (Dept. of Computer Science, Hanyang University) ;
  • Dahye Kim (Dept. of Artificial Intelligence, Hanyang University) ;
  • Dong-Kyu Chae (Dept. of Computer Science, Hanyang University)
  • 나요한 (한양대학교 컴퓨터소프트웨어학과) ;
  • 김다혜 (한양대학교 인공지능학과) ;
  • 채동규 (한양대학교 컴퓨터소프트웨어학과)
  • Published : 2023.10.12

Abstract

최근 생성형 언어모델에 명령어 튜닝을 적용하여 사람의 명령을잘이해하고, 대답의 성능을 향상시키는 연구가 활발히 수행되고 있으며, 이 과정에서 다양한 명령어 튜닝 데이터셋이 등장하고 있다. 하지만 많은 데이터셋들 중에서 어떤 것을 선택해서 활용하지가 불분명하기 때문에, 현존하는 연구들에서는 단순히 데이터셋을 모두 활용하는 방식으로 명령어 튜닝이 진행되고 있다. 하지만 최근 연구들에서 고품질의 적은 데이터셋으로도 명령어 튜닝을 하기에 충분하다는 결과들이 보고되고 있는 만큼, 많은 명령어 데이터셋에서 고품질의 명령어를 선별할 필요성이 커지고 있다. 이에 따라 본 논문에서는 한국어 데이터셋에서도 명령어 튜닝 데이터셋의 품질을 향상시키기 위해, 기존의 데이터셋들에서 데이터를 큐레이션하여 확보된 적은 양의 고품질의 명령어 데이터셋인 KoQuality를 제안한다. 또한 KoQuality를 활용하여 한국어 언어모델에 명령어 튜닝을 진행하였으며, 이를 통해 자연어 이해 성능을 높일 수 있음을 보인다. 특히 제로샷 상황에서 KoBEST 벤치마크에서 기존의 모델들보다 높은 성능 향상을 보였다.

Keywords

Acknowledgement

이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2020-0-01373,인공지능대학원 지원(한양대학교))을 받아 수행되었습니다.