Domain Specific Language Models to Measure Sentence Difficulty

문장 난이도 측정을 위한 도메인 특화 언어 모델 연구

  • 왕규현 (웅진씽크빅, 에듀테크연구소) ;
  • 오동규 (웅진씽크빅, 에듀테크연구소) ;
  • 이수진 (웅진씽크빅, 에듀테크연구소)
  • Published : 2023.10.12

Abstract

사전 학습된 언어 모델은 최근 다양한 도메인 및 응용태스크에 활용되고 있다. 하지만 언어 모델을 활용한 문장 난이도 측정 태스크에 대해서는 연구가 수행된 바 없다. 이에 본 논문에서는 교과서 데이터를 활용해 문장 난이도 데이터 셋을 구축하고, 일반 말뭉치로 훈련된 BERT 모델과 교과서 텍스트를 활용해 적응 학습한 BERT 모델을 문장 난이도 측정 태스크에 대해 미세 조정하여 성능을 비교했다.

Keywords