KorSciDeBERTa: A Pre-trained Language Model Based on DeBERTa for Korean Science and Technology Domains

KorSciDeBERTa: 한국어 과학기술 분야를 위한 DeBERTa 기반 사전학습 언어모델

  • 김성찬 (한국과학기술정보연구원 인공지능기술연구팀) ;
  • 김경민 (한국과학기술정보연구원 인공지능기술연구팀) ;
  • 김은희 (한국과학기술정보연구원 인공지능기술연구팀) ;
  • 이민호 (한국과학기술정보연구원 인공지능기술연구팀) ;
  • 이승우 (한국과학기술정보연구원 인공지능기술연구팀) ;
  • 최명석 (한국과학기술정보연구원 인공지능데이터연구단)
  • Published : 2023.10.12

Abstract

이 논문에서는 과학기술분야 특화 한국어 사전학습 언어모델인 KorSciDeBERTa를 소개한다. DeBERTa Base 모델을 기반으로 약 146GB의 한국어 논문, 특허 및 보고서 등을 학습하였으며 모델의 총 파라미터의 수는 180M이다. 논문의 연구분야 분류 태스크로 성능을 평가하여 사전학습모델의 유용성을 평가하였다. 구축된 사전학습 언어모델은 한국어 과학기술 분야의 여러 자연어처리 태스크의 성능향상에 활용될 것으로 기대된다.

Keywords

Acknowledgement

본 연구는 2023년도 한국과학기술정보연구원 주요사업의 지원을 받아 수행되었습니다.(Data/AI 기반 문제해결 체계 구축, K-23-L04-C05-S01)