Speaker classification and prediction with language model

언어모델을 활용한 문서 내 발화자 예측 분류 모델

  • Kim, Gyeongmin (Department of Computer Science and Engineering, Korea University) ;
  • Han, Seunggyu (Department of Computer Science and Engineering, Korea University) ;
  • Seo, Jaehyung (Department of Computer Science and Engineering, Korea University) ;
  • Lee, Chanhee (Department of Computer Science and Engineering, Korea University) ;
  • Lim, Heuiseok (Department of Computer Science and Engineering, Korea University)
  • Published : 2020.10.14

Abstract

연설문은 구어체와 문어체 두 가지 특성을 모두 갖고 있는 복합적인 데이터 형태이다. 발화자의 문장 표현, 배열, 그리고 결합에 따라 그 구조가 다르기 때문에, 화자 별 갖는 문체적 특성 또한 모두 다르다. 국정을 다루는 정치인들의 연설문은 국정 현황을 포함한 다양한 주요 문제점을 다룬다. 그러면 발화자의 문서 내 문체적 특성을 고려할 경우, 해당 문서가 어느 정치인의 연설문인지 파악 할 수 있는가? 본 연구에서는 대한민국 정책 브리핑 사이트로부터 한국어 기반 사전 학습된 언어 모델을 활용하여 연설문에 대한 미세조정을 진행함으로써 발화자 예측 분류 모델을 생성하고, 그 가능성을 입증하고자 한다. 본 연구는 5-cross validation으로 모델 성능을 평가하였고 KoBERT, KoGPT2 모델에서 각각 90.22%, 84.41% 정확도를 보였다.

Keywords

Acknowledgement

이 논문은 2017년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원(No.NRF-2017M3C4A7068189)과 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원(No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발)을 받아 수행된 연구임.