Acknowledgement
이 논문은 2023년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00320)의 지원을 받아 수행된 연구임
이 논문에서는 7,400만개의 한국어, 영어 문서를 활용하여 최대 4,096개의 토큰을 입력으로하고 최대 1,024개의 토큰을 생성할 수 있도록 학습한 언어모델인 Long-KE-T5를 소개한다. Long-KE-T5는 문서에서 대표성이 높은 문장을 생성하도록 학습되었으며, 학습에 사용한 문서의 길이가 길기 때문에 긴 문맥이 필요한 태스크에 활용할 수 있다. Long-KE-T5는 다양한 한국어 벤치마크에서 높은 성능을 보였으며, 사전학습 모델링 방법이 텍스트 요약과 유사하기 때문에 문서 요약 태스크에서 기존 모델 대비 높은 성능을 보였다.
이 논문은 2023년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00320)의 지원을 받아 수행된 연구임