• 제목/요약/키워드: Speech Emotion Recognition

검색결과 135건 처리시간 0.026초

감정에 강인한 음성 인식을 위한 음성 파라메터 (Speech Parameters for the Robust Emotional Speech Recognition)

  • 김원구
    • 제어로봇시스템학회논문지
    • /
    • 제16권12호
    • /
    • pp.1137-1142
    • /
    • 2010
  • This paper studied the speech parameters less affected by the human emotion for the development of the robust speech recognition system. For this purpose, the effect of emotion on the speech recognition system and robust speech parameters of speech recognition system were studied using speech database containing various emotions. In this study, mel-cepstral coefficient, delta-cepstral coefficient, RASTA mel-cepstral coefficient and frequency warped mel-cepstral coefficient were used as feature parameters. And CMS (Cepstral Mean Subtraction) method were used as a signal bias removal technique. Experimental results showed that the HMM based speaker independent word recognizer using vocal tract length normalized mel-cepstral coefficient, its derivatives and CMS as a signal bias removal showed the best performance of 0.78% word error rate. This corresponds to about a 50% word error reduction as compare to the performance of baseline system using mel-cepstral coefficient, its derivatives and CMS.

다중 센서 융합 알고리즘을 이용한 감정인식 및 표현기법 (Emotion Recognition and Expression Method using Bi-Modal Sensor Fusion Algorithm)

  • 주종태;장인훈;양현창;심귀보
    • 제어로봇시스템학회논문지
    • /
    • 제13권8호
    • /
    • pp.754-759
    • /
    • 2007
  • In this paper, we proposed the Bi-Modal Sensor Fusion Algorithm which is the emotional recognition method that be able to classify 4 emotions (Happy, Sad, Angry, Surprise) by using facial image and speech signal together. We extract the feature vectors from speech signal using acoustic feature without language feature and classify emotional pattern using Neural-Network. We also make the feature selection of mouth, eyes and eyebrows from facial image. and extracted feature vectors that apply to Principal Component Analysis(PCA) remakes low dimension feature vector. So we proposed method to fused into result value of emotion recognition by using facial image and speech.

주목 메커니즘 기반의 심층신경망을 이용한 음성 감정인식 (Speech emotion recognition using attention mechanism-based deep neural networks)

  • 고상선;조혜승;김형국
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.407-412
    • /
    • 2017
  • 본 논문에서는 주목 메커니즘 기반의 심층 신경망을 사용한 음성 감정인식 방법을 제안한다. 제안하는 방식은 CNN(Convolution Neural Networks), GRU(Gated Recurrent Unit), DNN(Deep Neural Networks)의 결합으로 이루어진 심층 신경망 구조와 주목 메커니즘으로 구성된다. 음성의 스펙트로그램에는 감정에 따른 특징적인 패턴이 포함되어 있으므로 제안하는 방식에서는 일반적인 CNN에서 컨벌루션 필터를 tuned Gabor 필터로 사용하는 GCNN(Gabor CNN)을 사용하여 패턴을 효과적으로 모델링한다. 또한 CNN과 FC(Fully-Connected)레이어 기반의 주목 메커니즘을 적용하여 추출된 특징의 맥락 정보를 고려한 주목 가중치를 구해 감정인식에 사용한다. 본 논문에서 제안하는 방식의 검증을 위해 6가지 감정에 대해 인식 실험을 진행하였다. 실험 결과, 제안한 방식이 음성 감정인식에서 기존의 방식보다 더 높은 성능을 보였다.

영상과 음성의 출력 데이터를 이용한 감성 인식 (Emotion Recognition Using Output Data of Image and Speech)

  • 주영훈;오재흥;박창현;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제13권3호
    • /
    • pp.275-280
    • /
    • 2003
  • 본 논문에서는 영상과 음성의 출력 데이터를 이용한 사람의 감성을 인식하는 방법을 제안한다. 제안된 방법은 영상과 음성의 인식률에 기반하여 인간의 감성을 인식하는 방법이다. 영상이나 음성 중 하나의 출력 데이터만을 이용할 경우에는 잘못된 인식에 대한 결과를 해결하기가 힘들다. 이를 보완하기 위해서 영상과 음성의 출력을 이용하여 인식률이 높은 감성 상태에 가중치를 인가함으로써 잘못된 인식의 결과를 줄일 수 있는 방법을 제안한다. 제안된 방법을 실험하기 위해 영상과 음성에 의한 감정 인식 방법이 간단히 제안되었다. 마지막으로 본 논문에서 제안한 방법은 실험을 통해 응용가능성을 제시하였다.

감정 인지를 위한 음성 및 텍스트 데이터 퓨전: 다중 모달 딥 러닝 접근법 (Speech and Textual Data Fusion for Emotion Detection: A Multimodal Deep Learning Approach)

  • 에드워드 카야디;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.526-527
    • /
    • 2023
  • Speech emotion recognition(SER) is one of the interesting topics in the machine learning field. By developing multi-modal speech emotion recognition system, we can get numerous benefits. This paper explain about fusing BERT as the text recognizer and CNN as the speech recognizer to built a multi-modal SER system.

히스토그램 등화와 데이터 증강 기법을 이용한 개선된 음성 감정 인식 (Improved speech emotion recognition using histogram equalization and data augmentation techniques)

  • 허운행;권오욱
    • 말소리와 음성과학
    • /
    • 제9권2호
    • /
    • pp.77-83
    • /
    • 2017
  • We propose a new method to reduce emotion recognition errors caused by variation in speaker characteristics and speech rate. Firstly, for reducing variation in speaker characteristics, we adjust features from a test speaker to fit the distribution of all training data by using the histogram equalization (HE) algorithm. Secondly, for dealing with variation in speech rate, we augment the training data with speech generated in various speech rates. In computer experiments using EMO-DB, KRN-DB and eNTERFACE-DB, the proposed method is shown to improve weighted accuracy relatively by 34.7%, 23.7% and 28.1%, respectively.

감정 적응을 이용한 감정 인식 학습 방법 (A Training Method for Emotion Recognition using Emotional Adaptation)

  • 김원구
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.998-1003
    • /
    • 2020
  • 본 논문에서는 기존 감정 인식 시스템의 성능 향상을 위하여 감정 적응을 사용한 감정 학습 방법이 제안되었다. 감정 적응을 위하여 적은 개수의 학습 감정 음성과 감정 적응 방식을 사용하여 감정이 없는 음성 모델로부터 감정 음성 모델이 생성되었다. 이러한 방법은 기존 방법보다 적은 개수의 감정 음성을 사용하여도 우수한 성능을 나타내었다. 학습을 위하여 충분한 감정 음성을 얻는 것은 쉽지 않기 때문에 적은 개수의 감정 음성을 사용하는 것은 실제 상황에서 매우 실용적이다. 4가지 감정이 포함된 한국어 데이터베이스를 사용한 실험 결과에서 감정 적응을 이용한 제안된 방법이 기존 방법보다 우수한 성능을 나타내었다.

딥네트워크 기반 음성 감정인식 기술 동향 (Speech Emotion Recognition Based on Deep Networks: A Review)

  • 무스타킴;권순일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.331-334
    • /
    • 2021
  • In the latest eras, there has been a significant amount of development and research is done on the usage of Deep Learning (DL) for speech emotion recognition (SER) based on Convolutional Neural Network (CNN). These techniques are usually focused on utilizing CNN for an application associated with emotion recognition. Moreover, numerous mechanisms are deliberated that is based on deep learning, meanwhile, it's important in the SER-based human-computer interaction (HCI) applications. Associating with other methods, the methods created by DL are presenting quite motivating results in many fields including automatic speech recognition. Hence, it appeals to a lot of studies and investigations. In this article, a review with evaluations is illustrated on the improvements that happened in the SER domain though likewise arguing the existing studies that are existence SER based on DL and CNN methods.

감성 인식을 위한 강화학습 기반 상호작용에 의한 특징선택 방법 개발 (Reinforcement Learning Method Based Interactive Feature Selection(IFS) Method for Emotion Recognition)

  • 박창현;심귀보
    • 제어로봇시스템학회논문지
    • /
    • 제12권7호
    • /
    • pp.666-670
    • /
    • 2006
  • This paper presents the novel feature selection method for Emotion Recognition, which may include a lot of original features. Specially, the emotion recognition in this paper treated speech signal with emotion. The feature selection has some benefits on the pattern recognition performance and 'the curse of dimension'. Thus, We implemented a simulator called 'IFS' and those result was applied to a emotion recognition system(ERS), which was also implemented for this research. Our novel feature selection method was basically affected by Reinforcement Learning and since it needs responses from human user, it is called 'Interactive feature Selection'. From performing the IFS, we could get 3 best features and applied to ERS. Comparing those results with randomly selected feature set, The 3 best features were better than the randomly selected feature set.

추론 능력에 기반한 음성으로부터의 감성 인식 (Inference Ability Based Emotion Recognition From Speech)

  • 박창현;심귀보
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2004년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.123-125
    • /
    • 2004
  • Recently, we are getting to interest in a user friendly machine. The emotion is one of most important conditions to be familiar with people. The machine uses sound or image to express or recognize the emotion. This paper deals with the method of recognizing emotion from the sound. The most important emotional component of sound is a tone. Also, the inference ability of a brain takes part in the emotion recognition. This paper finds empirically the emotional components from the speech and experiment on the emotion recognition. This paper also proposes the recognition method using these emotional components and the transition probability.

  • PDF