• 제목/요약/키워드: Emotional voice

검색결과 112건 처리시간 0.024초

HMM 기반 감정 음성 합성기 개발을 위한 감정 음성 데이터의 음색 유사도 분석 (Analysis of Voice Color Similarity for the development of HMM Based Emotional Text to Speech Synthesis)

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제15권9호
    • /
    • pp.5763-5768
    • /
    • 2014
  • 하나의 합성기에서 감정이 표현되지 않는 기본 음성과 여러 감정 음성을 함께 합성하는 경우 음색을 유지하는 것이 중요해 진다. 감정이 과도하게 표현된 녹음 음성을 사용하여 합성기를 구현하는 경우 음색이 유지되지 못해 각 합성음이 서로 다른 화자의 음성처럼 들릴 수 있다. 본 논문에서는 감정 레벨을 조절하는 HMM 기반 음성 합성기를 구현하기 위해 구축한 음성데이터의 음색 변화를 분석하였다. 음성 합성기를 구현하기 위해서는 음성을 녹음하여 데이터베이스를 구축하게 되는데, 감정 음성 합성기를 구현하기 위해서는 특히 녹음 과정이 매우 중요하다. 감정을 정의하고 레벨을 유지하는 것은 매우 어렵기 때문에 모니터링이 잘 이루어져야 한다. 음성 데이터베이스는 일반 음성과 기쁨(Happiness), 슬픔(Sadness), 화남(Anger)의 감정 음성으로 구성하였고, 각 감정은 High/Low의 2가지 레벨로 구별하여 녹음하였다. 기본음성과 감정 음성의 음색 유사도 측정을 위해 대표 모음들의 각각의 스펙트럼을 누적하여 평균 스펙트럼을 구하고, 평균 스펙트럼에서 F1(제 1포만트)을 측정하였다. 감정 음성과 일반 음성의 음색 유사도는 Low-level의 감정 데이터가 High-level의 데이터 보다 우수하였고, 제안한 방법이 이러한 감정 음성의 음색 변화를 모니터링 할 수 있는 방법이 될 수 있음을 확인할 수 있었다.

AI의 음성 디자인에서 고려해야 할 감성적 요소 및 국가별 음성 트랜드에 관한 연구 - 핀란드와 노르웨이의 전문가 인뎁스 인터뷰를 중심으로 (Research on Emotional Factors and Voice Trend by Country to be considered in Designing AI's Voice - An analysis of interview with experts in Finland and Norway)

  • 남궁기찬
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.91-97
    • /
    • 2020
  • 사용자와의 인터랙션이 가능한 음성 기반의 인터페이스는 AI 기술의 발달에 따라 사용이 확대되고 있다. 하지만, 현재까지의 음성 기반 인터페이스에 대한 연구는 음성 인식의 정확성 향상 등 기술적인 연구들이 대부분이었다. 이렇다 보니, 대부분의 음성 기반 인터페이스의 목소리는 차별화된 감성을 제공하지 않으며 획일화되어 있다. 본 연구에서는 AI 인터페이스의 음성에 적합한 감성 요소를 더하는 것을 목적으로 한다. 이를 위해 음성 인터페이스 디자인에서 고려되어야 할 감성적 요소를 도출하였다. 또한, 국가별로 차이를 보이는 보이스 트렌드를 조사하였다. 본 연구를 위해 자국의 언어를 독립적으로 사용하는 핀란드와 노르웨이, 두 국가의 음성 산업 전문가들과 인터뷰를 진행하였다.

음향 파라미터에 의한 정서적 음성의 음질 분석 (Analysis of the Voice Quality in Emotional Speech Using Acoustical Parameters)

  • 조철우;리타오
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.119-130
    • /
    • 2005
  • The aim of this paper is to investigate some acoustical characteristics of the voice quality features from the emotional speech database. Six different parameters are measured and compared for 6 different emotions (normal, happiness, sadness, fear, anger, boredom) and from 6 different speakers. Inter-speaker variability and intra-speaker variability are measured. Some intra-speaker consistency of the parameter change across the emotions are observed, but inter-speaker consistency are not observed.

  • PDF

음성장애가 있는 직업적 음성사용자와 비직업적 음성사용자의 음성장애 중증도와 유형에 따른 자기보고식 음성평가 차이 (Comparison of Self-Reporting Voice Evaluations between Professional and Non-Professional Voice Users with Voice Disorders by Severity and Type)

  • 김재옥
    • 말소리와 음성과학
    • /
    • 제7권4호
    • /
    • pp.67-76
    • /
    • 2015
  • The purpose of this study was to compare professional (Pro) and non-professional (Non-pro) voice users with voice disorders in self-reporting voice evaluation using Korean-Voice Handicap Index (K-VHI) and Korean-Voice Related Quality of Life (K-VRQOL). In addition, those were compared by voice quality and voice disorder type. 94 Pro and 106 Non-pro were asked to fill out the K-VHI and K-VRQOL, perceptually evaluated on GRBAS scales, and divided into three types of voice disorders (functional, organic and neurologic) by an experienced speech-language pathologist and an otolaryngologist. The results showed that the functional (F) and physical (P) scores of K-VHI in Pro group were significantly higher than those in Non-pro group. As the voice quality evaluated by G scale got worse, the scores of all aspects except emotional (E) of K-VHI and social-emotional (SE) of K-VRQOL were higher. All scores of K-VHI and K-VRQOL in neurologic voice disorders were significantly higher than those in functional and organic voice disorders. In conclusion, professional voice users are more sensitive to their functional and physical handicap resulted by their voice problems and that goes double for the patients with severe and neurologic voice disorders.

감정 표현 방법: 운율과 음질의 역할 (How to Express Emotion: Role of Prosody and Voice Quality Parameters)

  • 이상민;이호준
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권11호
    • /
    • pp.159-166
    • /
    • 2014
  • 본 논문에서는 감정을 통해 단어의 의미가 변화될 때 운율과 음질로 표현되는 음향 요소가 어떠한 역할을 하는지 분석한다. 이를 위해 6명의 발화자에 의해 5가지 감정 상태로 표현된 60개의 데이터를 이용하여 감정에 따른 운율과 음질의 변화를 살펴본다. 감정에 따른 운율과 음질의 변화를 찾기 위해 8개의 음향 요소를 분석하였으며, 각 감정 상태를 표현하는 주요한 요소를 판별 해석을 통해 통계적으로 분석한다. 그 결과 화남의 감정은 음의 세기 및 2차 포먼트 대역너비와 깊은 연관이 있음을 확인할 수 있었고, 기쁨의 감정은 2차와 3차 포먼트 값 및 음의 세기와 연관이 있으며, 슬픔은 음질 보다는 주로 음의 세기와 높낮이 정보에 영향을 받는 것을 확인할 수 있었으며, 공포는 음의 높낮이와 2차 포먼트 값 및 그 대역너비와 깊은 관계가 있음을 알 수 있었다. 이러한 결과는 감정 음성 인식 시스템뿐만 아니라, 감정 음성 합성 시스템에서도 적극 활용될 수 있을 것으로 예상된다.

다음색 감정 음성합성 응용을 위한 감정 SSML 처리기 (An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications)

  • 유세희;조희;이주현;홍기형
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.523-529
    • /
    • 2021
  • 본 논문에서는 감정 마크업을 포함하는 Speech Synthesis Markup Language(SSML) 처리기를 설계하고 개발하였다. 다양한 음색과 감정 표현이 가능한 음성합성 기술이 개발되고 있으며 다양한 음색 및 감정 음성합성의 응용 확대를 위하여 표준화된 음성 인터페이스 마크업 언어인 SSML을 감정 표현이 가능하도록 확장한 감정 SSML(Emotional SSML)을 설계하였다. 감정 SSML 처리기는 그래픽 사용자 인터페이스로 손쉽게 음색 및 감정을 원하는 텍스트 부분에 표시할 수 있는 다음색 감정 텍스트 편집기, 편집 결과를 감정 SSML 문서로 생성하는 감정 SSML 문서 생성기, 생성된 감정 SSML 문서를 파싱하는 감정 SSML 파서, 감정 SSML 파서의 결과인 다음색 감정 합성 시퀀스를 기반으로 합성기와 연동하여 음성 스트림의 합성 을 제어하는 시퀀서로 구성된다. 본 논문에서 개발한 다음색 감정합성을 위한 감정 SSML 처리기는 프로그래밍 언어 및 플랫폼 독립적인 개방형 표준인 SSML을 기반으로 하여 다양한 음성합성 엔진에 쉽게 연동할 수 있는 구조를 가지며 다양한 음색과 감정 음성합성이 필요한 다양한 응용 개발에 활용될 것으로 기대한다.

청크 기반 시계열 음성의 감정 인식 연구 (A Study on Emotion Recognition of Chunk-Based Time Series Speech)

  • 신현삼;홍준기;홍성찬
    • 인터넷정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.11-18
    • /
    • 2023
  • 최근 음성 감정 인식(Speech Emotion Recognition, SER)분야는 음성 특징과 모델링을 활용하여 인식률을 개선하기 위한 많은 연구가 진행되고 있다. 기존 음성 감정 인식의 정확도를 높이기 위한 모델링 연구 이외에도 음성 특징을 다양한 방법으로 활용하는 연구들이 진행되고 있다. 본 논문에서는 음성 감정이 시간 흐름과 연관이 있음을 착안하여 시계열 방식으로 음성파일을 시간 구간별로 분리한다. 파일 분리 이후, 음성 특징인 Mel, Chroma, zero-crossing rate (ZCR), root mean square (RMS), mel-frequency cepastral coefficients (MFCC)를 추출하여서 순차적 데이터 처리에 사용하는 순환형 신경망 모델에 적용하여 음성 데이터에서 감정을 분류하는 모델을 제안한다. 제안한 모델은 librosa를 사용하여 음성 특징들을 모든 파일에서 추출하여, 신경망 모델에 적용하였다. 시뮬레이션은 영어 데이터 셋인 Interactive Emotional Dyadic Motion Capture (IEMOCAP)을 이용하여 recurrent neural network (RNN), long short-term memory (LSTM) and gated recurrent unit(GRU)의 모델들의 성능을 비교 및 분석하였다.

Discrimination of Emotional States In Voice and Facial Expression

  • Kim, Sung-Ill;Yasunari Yoshitomi;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권2E호
    • /
    • pp.98-104
    • /
    • 2002
  • The present study describes a combination method to recognize the human affective states such as anger, happiness, sadness, or surprise. For this, we extracted emotional features from voice signals and facial expressions, and then trained them to recognize emotional states using hidden Markov model (HMM) and neural network (NN). For voices, we used prosodic parameters such as pitch signals, energy, and their derivatives, which were then trained by HMM for recognition. For facial expressions, on the other hands, we used feature parameters extracted from thermal and visible images, and these feature parameters were then trained by NN for recognition. The recognition rates for the combined parameters obtained from voice and facial expressions showed better performance than any of two isolated sets of parameters. The simulation results were also compared with human questionnaire results.

양성 후두 질환 환자의 후두미세 수술 전후 음성 장애 지수의 변화 (Change of Voice Handicap Index After Laryngeal Microsurgery for Benign Vocal Fold Lesions)

  • 김지희;최효근;박범정
    • 대한후두음성언어의학회지
    • /
    • 제26권1호
    • /
    • pp.34-39
    • /
    • 2015
  • 후두 미세 수술을 받은 환자에서 수술 전과 후 전체적인 음성 장애 지수를 비교했을 때 모두 호전이 있는 것으로 나타났다. 영역별로는 기능적, 물리적 영역에서는 남녀간의 차이가 없었으나 감성적 영역에서는 여자보다 남자에서 수술 후 만족도가 큰 것으로 나타났다. 이번 연구를 통해 음성 장애 지수가 음성의 상태를 모두 대변할 수는 없지만 객관적인 음향, 공기역학적 검사로 평가할 수 없었던 음성 장애에 대한 환자의 인식 정도를 정량화하여 평가할 수 있는 편리한 도구임을 확인 할 수 있었다.

  • PDF

테크노 과중과 테크노 침해가 정서적 소진에 미치는 영향: 심리적 계약 위반의 매개 효과 및 발언행동의 조절 효과를 중심으로 (The effect of techno-overload and techno-invasion on emotional exhaustion: mediating effect of psychological contract breach and moderating effect of voice behavior)

  • 강새하늘;정현선
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제25권1호
    • /
    • pp.27-53
    • /
    • 2019
  • 본 연구는 테크노 스트레스의 유발요인 중 테크노 과중과 테크노 침해가 심리적 계약 위반에 미치는 영향을 확인하고, 심리적 계약 위반이 정서적 소진에 어떠한 영향을 미치는지 그 과정을 살펴보기 위해 이루어졌다. 또한 테크노 과중 및 테크노 침해와 심리적 계약 위반간의 관계에서 발언행동의 조절 효과를 검증하고자 했다. 이를 위해 40문항으로 구성된 자기보고식 설문지를 이용하여 현재 조직에서 종사하고 있는 직장인들을 대상으로 설문조사를 실시하였으며, 296명의 자료가 분석에 사용되었다. 분석 결과, 테크노 과중 및 테크노 침해를 높게 지각하는 구성원일수록 심리적 계약 위반을 더 경험하는 것을 확인할 수 있었으며, 테크노 과중과 테크노 침해가 심리적 계약 위반을 매개하여 정서적 소진을 높인다는 것을 확인할 수 있었다. 또한, 발언행동의 수준이 높을수록 테크노 과중 및 테크노 침해와 심리적 계약 위반 간의 정의 관계가 감소하는 조절 효과가 관찰되었다. 이러한 연구 결과를 바탕으로 본 연구가 갖는 시사점과 한계점, 향후 연구를 위한 제언에 대해 논의하였다.