Implementation of the Speech Emotion Recognition System in the ARM Platform

ARM 플랫폼 기반의 음성 감성인식 시스템 구현

  • 오상헌 (단국대학교 정보 컴퓨터 과학과) ;
  • 박규식 (단국대학교 정보 컴퓨터학부)
  • Published : 2007.11.30

Abstract

In this paper, we implemented a speech emotion recognition system that can distinguish human emotional states from recorded speech captured by a single microphone and classify them into four categories: neutrality, happiness, sadness and anger. In general, a speech recorded with a microphone contains background noises due to the speaker environment and the microphone characteristic, which can result in serious system performance degradation. In order to minimize the effect of these noises and to improve the system performance, a MA(Moving Average) filter with a relatively simple structure and low computational complexity was adopted. Then a SFS(Sequential Forward Selection) feature optimization method was implemented to further improve and stabilize the system performance. For speech emotion classification, a SVM pattern classifier is used. The experimental results indicate the emotional classification performance around 65% in the computer simulation and 62% on the ARM platform.

본 논문은 마이크로폰을 통해 실시간으로 습득된 음성으로부터 사람의 음성 감성상태를 평상, 기쁨, 슬픔, 화남 등 4가지로 구별할 수 있는 ARM 플랫폼 기반의 음성 감성인식 시스템 구현에 관한 것이다. 일반적으로 마이크로폰으로 수신된 음성은 화자 주변의 환경 잡음과 마이크로폰의 시스템 특성 때문에 입력 음성 신호가 왜곡되고 이로 인해 시스템의 성능이 저하된다. 본 논문에서는 이러한 잡음 영향을 최소화하기 위해 비교적 단순한 구조와 적은 연산 량을 가진 이동평균(MA, Moving Average) 필터를 입력 음성의 특징벡터 열에 적용하였다. 또한, 효율적으로 감성 특징벡터를 최적화할 수 있는 SFS(Sequential Forward Selection)기법을 적용해 제안 시스템의 성능을 최적화하였으며 감성 패턴 분류기로는 SVM(Support Vector Machine)을 사용하였다. 실험 결과 제안 감성인식 시스템은 모의실험에서 약 65%, ARM 플랫폼에서 약 62%의 인식률을 보였다.

Keywords