Acknowledgement
본 연구는 2023년도 한국과학기술정보연구원 주요사업의 지원을 받아 수행되었습니다.(Data/AI 기반 문제해결 체계 구축, K-23-L04-C05-S01)
이 논문에서는 과학기술분야 특화 한국어 사전학습 언어모델인 KorSciDeBERTa를 소개한다. DeBERTa Base 모델을 기반으로 약 146GB의 한국어 논문, 특허 및 보고서 등을 학습하였으며 모델의 총 파라미터의 수는 180M이다. 논문의 연구분야 분류 태스크로 성능을 평가하여 사전학습모델의 유용성을 평가하였다. 구축된 사전학습 언어모델은 한국어 과학기술 분야의 여러 자연어처리 태스크의 성능향상에 활용될 것으로 기대된다.
본 연구는 2023년도 한국과학기술정보연구원 주요사업의 지원을 받아 수행되었습니다.(Data/AI 기반 문제해결 체계 구축, K-23-L04-C05-S01)