The Research on Emotion Recognition through Multimodal Feature Combination

멀티모달 특징 결합을 통한 감정인식 연구

  • Sung-Sik Kim (Dept. of Computer Science, Hoseo University) ;
  • Jin-Hwan Yang (Dept. of Computer Science, Hoseo University) ;
  • Hyuk-Soon Choi (Dept. of Computer Science, Hoseo University) ;
  • Jun-Heok Go (Dept. of Computer Science, Hoseo University) ;
  • Nammee Moon (Dept. of Computer Science, Hoseo University)
  • 김성식 (호서대학교 컴퓨터공학부) ;
  • 양진환 (호서대학교 컴퓨터공학과) ;
  • 최혁순 (호서대학교 컴퓨터공학과) ;
  • 고준혁 (호서대학교 컴퓨터공학과) ;
  • 문남미 (호서대학교 컴퓨터공학부)
  • Published : 2024.05.23

Abstract

본 연구에서는 음성과 텍스트라는 두 가지 모달리티의 데이터를 효과적으로 결합함으로써, 감정 분류의 정확도를 향상시키는 새로운 멀티모달 모델 학습 방법을 제안한다. 이를 위해 음성 데이터로부터 HuBERT 및 MFCC(Mel-Frequency Cepstral Coefficients)기법을 통해 추출한 특징 벡터와 텍스트 데이터로부터 RoBERTa를 통해 추출한 특징 벡터를 결합하여 감정을 분류한다. 실험 결과, 제안한 멀티모달 모델은 F1-Score 92.30으로 유니모달 접근 방식에 비해 우수한 성능 향상을 보였다.

Keywords

Acknowledgement

본 연구는 과학기술정부통신부와 정보통신기획평가원의 SW중심대학사업의 연구결과로 수행되었음(No. 2019-0-01834).

References

  1. 유지현. (2022). 중간 융합 모듈을 사용한 트랜스포머 기반의 멀티모달 감정인식네트워크.
  2. Wei-Ning Hsu, et al. "HuBERT: Self-Supervised Speech Representation Learning by MaskedPrediction of Hidden Units", arXiv preprint, arXiv:2106.07447, 2021.
  3. 박정현, et al. "음성데이터증강을 통한 3D 특징 벡터 기반 신생아 울음소리 분류." 한국컴퓨터정보학회논문지 28.9 (2023): 47-54.
  4. Liu, Yinhan, et al. "Roberta: Arobustly optimized bert pretraining approach."arXiv preprint arXiv:1907.11692, 2019.