Long-KE-T5: Korean-English Language model for Long Sequences

San Kim;Jinyea Jang;Minyoung Jeung;Saim Shin;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2023.10a
/
Pages.168-170
/
2023
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Long-KE-T5: Korean-English Language model for Long Sequences

Long-KE-T5: 긴 맥락 파악이 가능한 한국어-영어 언어 모델 구축

San Kim (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
Jinyea Jang (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
Minyoung Jeung (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
Saim Shin (Korea Electronics Technology Institute, Artificial Intelligence Research Center)

김산 (한국전자기술연구원, 인공지능연구센터) ;
장진예 (한국전자기술연구원, 인공지능연구센터) ;
정민영 (한국전자기술연구원, 인공지능연구센터) ;
신사임 (한국전자기술연구원, 인공지능연구센터)

Published : 2023.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

이 논문에서는 7,400만개의 한국어, 영어 문서를 활용하여 최대 4,096개의 토큰을 입력으로하고 최대 1,024개의 토큰을 생성할 수 있도록 학습한 언어모델인 Long-KE-T5를 소개한다. Long-KE-T5는 문서에서 대표성이 높은 문장을 생성하도록 학습되었으며, 학습에 사용한 문서의 길이가 길기 때문에 긴 문맥이 필요한 태스크에 활용할 수 있다. Long-KE-T5는 다양한 한국어 벤치마크에서 높은 성능을 보였으며, 사전학습 모델링 방법이 텍스트 요약과 유사하기 때문에 문서 요약 태스크에서 기존 모델 대비 높은 성능을 보였다.

Keywords

KE-T5

Acknowledgement

이 논문은 2023년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00320)의 지원을 받아 수행된 연구임