사전 학습 언어 모델을 활용한 감정 말뭉치 구축 연구

A Study on the Construction of an Emotion Corpus Using a Pre-trained Language Model

  • 장연지 (국립국어원) ;
  • 비립 (연세대학교 언어정보연구원 ) ;
  • 강예지 (연세대학교 언어정보연구원 ) ;
  • 강혜린 (연세대학교 언어정보연구원 ) ;
  • 박서윤 (연세대학교 언어정보연구원 ) ;
  • 김한샘 (연세대학교 언어정보연구원 )
  • Yeonji Jang (National Institute of Korean Language) ;
  • Fei Li (Institute of Language and Information Studies, Yonsei University) ;
  • Yejee Kang (Institute of Language and Information Studies, Yonsei University) ;
  • Hyerin Kang (Institute of Language and Information Studies, Yonsei University) ;
  • Seoyoon Park (Institute of Language and Information Studies, Yonsei University) ;
  • Hansaem Kim (Institute of Language and Information Studies, Yonsei University)
  • 발행 : 2022.10.18

초록

감정 분석은 텍스트에 표현된 인간의 감정을 인식하여 다양한 감정 유형으로 분류하는 것이다. 섬세한 인간의 감정을 보다 정확히 분류하기 위해서는 감정 유형의 분류가 무엇보다 중요하다. 본 연구에서는 사전 학습 언어 모델을 활용하여 우리말샘의 감정 어휘와 용례를 바탕으로 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 감정 유형으로 분류된 감정 말뭉치를 구축하였다. 감정 말뭉치를 구축한 후 성능 평가를 위해 대표적인 트랜스포머 기반 사전 학습 모델 중 RoBERTa, MultiDistilBert, MultiBert, KcBert, KcELECTRA. KoELECTRA를 활용하여 보다 넓은 범위에서 객관적으로 모델 간의 성능을 평가하고 각 감정 유형별 정확도를 바탕으로 감정 유형의 특성을 알아보았다. 그 결과 각 모델의 학습 구조가 다중 분류 말뭉치에 어떤 영향을 주는지 구체적으로 파악할 수 있었으며, ELECTRA가 상대적으로 우수한 성능을 보여주고 있음을 확인하였다. 또한 감정 유형별 성능을 비교를 통해 다양한 감정 유형 중 기쁨, 슬픔, 공포에 대한 성능이 우수하다는 것을 알 수 있었다.

키워드