Acknowledgement
본 연구는 교육부와 한국연구재단의 재원으로 지원을 받아 수행된 기초연구사업(NRF-2021R1A6A1A03045425)과 3단계 산학연협력 선도대학 육성사업(LINC 3.0)의 연구결과임.
대규모 언어 모델(LLM)은 대규모의 데이터를 학습하여 얻은 지식을 기반으로 텍스트와 다양한 콘텐츠를 인식하고 요약, 번역, 예측, 생성할 수 있는 딥러닝 알고리즘이다. 초기 공개된 LLM은 영어 기반 모델로 비영어권에서는 높은 성능을 기대할 수 없었으며, 이에 한국, 중국 등 자체적 LLM 연구개발이 활성화되고 있다. 본 논문에서는 언어가 LLM의 성능에 영향을 미치는가에 대하여 한국어 기반 LLM과 영어 기반 LLM으로 KoBEST의 4가지 Task에 대하여 성능비교를 하였다. 그 결과 한국어에 대한 사전 지식을 추가하는 것이 LLM의 성능에 영향을 미치는 것을 확인할 수 있었다.
본 연구는 교육부와 한국연구재단의 재원으로 지원을 받아 수행된 기초연구사업(NRF-2021R1A6A1A03045425)과 3단계 산학연협력 선도대학 육성사업(LINC 3.0)의 연구결과임.