DOI QR코드

DOI QR Code

RoBERTa 기반 데이터 증강을 통한 국내 학술 논문 분야 분류 연구

Classification of Domestic Academic Papers Through RoBERTa-based Data Augmentation

  • 김성식 (호서대학교 컴퓨터공학부) ;
  • 양진환 (호서대학교 컴퓨터공학부) ;
  • 최혁순 (호서대학교 컴퓨터공학부) ;
  • 문남미 (호서대학교 컴퓨터공학부)
  • 발행 : 2023.11.02

초록

현재 대부분의 국내 학술 데이터 베이스는 개별 학술지 논문의 주제를 파악하는 표준화된 정보를 거의 제공하지 않고 있다. 본 연구에서는 논문의 제목만을 활용하여 학술 논문의 분야를 자동으로 분류하는 방법을 제안한다. 이를 위해 한국어로 사전 훈련된 KLUE-RoBERTa 모델을 사용하며, Back Translation 과 Chat-GPT 를 활용한 데이터 증강을 통해 모델의 성능을 향상한다. 연구 결과, Back Translation 과 Chat-GPT 를 사용하여 증강한 모델이 원본 데이터를 학습한 모델보다 약 11%의 성능 향상을 보였다.

키워드

과제정보

이 논문은 2023 년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. NRF- 2021R1A2C2011966).