Speech emotion recognition through time series classification

시계열 데이터 분류를 통한 음성 감정 인식

  • Kim, Gi-duk (Dept. of Electricity and Electronic Computer Engineering, Pusan National University) ;
  • Kim, Mi-sook (Dept. of Multimedia, Pusan National University) ;
  • Lee, Hack-man (Dept. of Computer Engineering, Pusan National University)
  • 김기덕 (부산대학교 전기전자컴퓨터공학과) ;
  • 김미숙 (부산대학교 멀티미디어협동과정) ;
  • 이학만 (부산대학교 전자계산학과)
  • Published : 2021.07.14

Abstract

본 논문에서는 시계열 데이터 분류를 통한 음성 감정 인식을 제안한다. mel-spectrogram을 사용하여 음성파일에서 특징을 뽑아내 다변수 시계열 데이터로 변환한다. 이를 Conv1D, GRU, Transformer를 결합한 딥러닝 모델에 학습시킨다. 위의 딥러닝 모델에 음성 감정 인식 데이터 세트인 TESS, SAVEE, RAVDESS, EmoDB에 적용하여 각각의 데이터 세트에서 기존의 모델 보다 높은 정확도의 음성 감정 분류 결과를 얻을 수 있었다. 정확도는 99.60%, 99.32%, 97.28%, 99.86%를 얻었다.

Keywords