Construction of bilingually pre-trained language model from large-scaled Korean and English corpus

Shin, Saim;Kim, San;Seo, Hyeon-Tae;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2021.10a
/
Pages.419-422
/
2021
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Construction of bilingually pre-trained language model from large-scaled Korean and English corpus

KE-T5: 한국어-영어 대용량 텍스트를 활용한 이중언어 사전학습기반 대형 언어모델 구축

Shin, Saim (Korea Electronics Technology Institute Artificial Intelligence research Center) ;
Kim, San (Korea Electronics Technology Institute Artificial Intelligence research Center) ;
Seo, Hyeon-Tae (Korea Electronics Technology Institute Artificial Intelligence research Center)

신사임 (한국전자기술연구원 인공지능연구센터) ;
김산 (한국전자기술연구원 인공지능연구센터) ;
서현태 (한국전자기술연구원 인공지능연구센터)

Published : 2021.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 한국어와 영어 코퍼스 93GB를 활용하여 구축한 대형 사전학습기반 언어모델인 KE-T5를 소개한다. KE-T5는 한국어와 영어 어휘 64,000개를 포함하는 대규모의 언어모델로 다양한 한국어처리와 한국어와 영어를 모두 포함하는 번역 등의 복합언어 태스크에서도 높은 성능을 기대할 수 있다. KE-T5의 활용은 대규모의 언어모델을 기반으로 영어 수준의 복잡한 언어처리 태스크에 대한 연구들을 본격적으로 시작할 수 있는 기반을 마련하였다.

Keywords

KE-T5;
T5

Acknowledgement

이 논문은 2021년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (S1601-209-1034, 정서적 안정을 위한 인공지능기반 공감 서비스 기술 개발).