KorSciDeBERTa: A Pre-trained Language Model Based on DeBERTa for Korean Science and Technology Domains

Seongchan Kim;Kyung-min Kim;Eunhui Kim;Minho Lee;Seungwoo Lee;Myung-Seok Choi;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2023.10a
/
Pages.704-706
/
2023
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

KorSciDeBERTa: A Pre-trained Language Model Based on DeBERTa for Korean Science and Technology Domains

KorSciDeBERTa: 한국어 과학기술 분야를 위한 DeBERTa 기반 사전학습 언어모델

Seongchan Kim (AI Tech Research Team KISTI) ;
Kyung-min Kim (AI Tech Research Team KISTI) ;
Eunhui Kim (AI Tech Research Team KISTI) ;
Minho Lee (AI Tech Research Team KISTI) ;
Seungwoo Lee (AI Tech Research Team KISTI) ;
Myung-Seok Choi (Dept. of AI Data Research KISTI)

김성찬 (한국과학기술정보연구원 인공지능기술연구팀) ;
김경민 (한국과학기술정보연구원 인공지능기술연구팀) ;
김은희 (한국과학기술정보연구원 인공지능기술연구팀) ;
이민호 (한국과학기술정보연구원 인공지능기술연구팀) ;
이승우 (한국과학기술정보연구원 인공지능기술연구팀) ;
최명석 (한국과학기술정보연구원 인공지능데이터연구단)

Published : 2023.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

이 논문에서는 과학기술분야 특화 한국어 사전학습 언어모델인 KorSciDeBERTa를 소개한다. DeBERTa Base 모델을 기반으로 약 146GB의 한국어 논문, 특허 및 보고서 등을 학습하였으며 모델의 총 파라미터의 수는 180M이다. 논문의 연구분야 분류 태스크로 성능을 평가하여 사전학습모델의 유용성을 평가하였다. 구축된 사전학습 언어모델은 한국어 과학기술 분야의 여러 자연어처리 태스크의 성능향상에 활용될 것으로 기대된다.

Keywords

Acknowledgement

본 연구는 2023년도 한국과학기술정보연구원 주요사업의 지원을 받아 수행되었습니다.(Data/AI 기반 문제해결 체계 구축, K-23-L04-C05-S01)