Long-KE-T5: Korean-English Language model for Long Sequences

Long-KE-T5: 긴 맥락 파악이 가능한 한국어-영어 언어 모델 구축

  • San Kim (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
  • Jinyea Jang (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
  • Minyoung Jeung (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
  • Saim Shin (Korea Electronics Technology Institute, Artificial Intelligence Research Center)
  • 김산 (한국전자기술연구원, 인공지능연구센터) ;
  • 장진예 (한국전자기술연구원, 인공지능연구센터) ;
  • 정민영 (한국전자기술연구원, 인공지능연구센터) ;
  • 신사임 (한국전자기술연구원, 인공지능연구센터)
  • Published : 2023.10.12

Abstract

이 논문에서는 7,400만개의 한국어, 영어 문서를 활용하여 최대 4,096개의 토큰을 입력으로하고 최대 1,024개의 토큰을 생성할 수 있도록 학습한 언어모델인 Long-KE-T5를 소개한다. Long-KE-T5는 문서에서 대표성이 높은 문장을 생성하도록 학습되었으며, 학습에 사용한 문서의 길이가 길기 때문에 긴 문맥이 필요한 태스크에 활용할 수 있다. Long-KE-T5는 다양한 한국어 벤치마크에서 높은 성능을 보였으며, 사전학습 모델링 방법이 텍스트 요약과 유사하기 때문에 문서 요약 태스크에서 기존 모델 대비 높은 성능을 보였다.

Keywords

Acknowledgement

이 논문은 2023년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00320)의 지원을 받아 수행된 연구임