• Title/Summary/Keyword: 합성된 음성

Search Result 696, Processing Time 0.049 seconds

An Analysis on the Emotional Speech for the Speech Synthesis System with Emotion (감정표현 음성합성 시스템을 위한 감정 분석)

  • 천희진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.350-355
    • /
    • 1998
  • 감정을 표현하는 음성 합성 시스템을 구현하기 위해서는 감정음성에 대한 분석이 필요하다. 본 논문에선,s 평상, 화남, 기쁨, 슬픔의 네 가지 감정에 대한 음성 데이터에 대해 음절 세그먼트, 라벨링을 행한 감정 음성 데이터베이스를 구축하였고, 감정표현이 음성에 영향을 미치는 요인에대하여, 운율, 음운적인 요소로 나누어 분석하였다. 또한 기본 주파수, 에너지, 음절지속시간에 대한 분석과 감정 음성의기본 주파수, 에너지, 음절지속시간, 스펙트럼 포락의 인지 정도를 측정하기 위하여 평상 음성에 감정 음성의 운율 요소를 적용하는 음성을 합성하여 ABX 방법으로 평가하였다. 그 결과, 기본 주파수의변화가 73.3%, 음절지속시간은 43.3% 로 올바른 감정으로 인지되었으며, 특히 슬픈 감정에서 음절지속시간은 76.6%가 올바르게 감정을 나타내는 것으로 인지되었다.

  • PDF

Speech Quality Improvement by Speech Quality Evaluation (한국어 음성합성기 성능평가에 의한 합성 음질개선)

  • Yang Hee-Sik;Hahn Minsoo;Kim Jong-Jin
    • Proceedings of the KSPS conference
    • /
    • 2002.11a
    • /
    • pp.37-40
    • /
    • 2002
  • 본 논문에서는 한국어 합성기의 명료도 및 자연성 평가방안에 대한 개략적인 설명과 이 방안을 실제로 2종류의 서로 다른 한국어 합성기에 적용한 결과를 요약하였다. 한편, 이러한 평가결과를 바탕으로 실제로 이루어진 음질 개선 실 예를 소개하는 한편 향후 한국어 합성기의 성능 개선 방향을 제안하였다.

  • PDF

A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system (세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구)

  • Um, Se-Yun;Oh, Sangshin;Jang, Inseon;Ahn, Chung-hyun;Kang, Hong-Goo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.453-455
    • /
    • 2020
  • 본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.

  • PDF

Context-adaptive Smoothing for Speech Synthesis (음성 합성기를 위한 문맥 적응 스무딩 필터의 구현)

  • 이기승;김정수;이재원
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.285-292
    • /
    • 2002
  • One of the problems that should be solved in Text-To-Speech (TTS) is discontinuities at unit-joining points. To cope with this problem, a smoothing method using a low-pass filter is employed in this paper, In the proposed soothing method, a filter coefficient that controls the amount of smoothing is determined according to contort information to be synthesized. This method efficiently reduces both discontinuities at unit-joining points and artifacts caused by undesired smoothing. The amount of smoothing is determined with discontinuities around unit-joins points in the current synthesized speech and discontinuities predicted from context. The discontinuity predictor is implemented by CART that has context feature variables. To evaluate the performance of the proposed method, a corpus-based concatenative TTS was used as a baseline system. More than 6075 of listeners realized that the quality of the synthesized speech through the proposed smoothing is superior to that of non-smoothing synthesized speech in both naturalness and intelligibility.

A Study on TSIUVC Approximate-Synthesis Method using Least Mean Square (최소 자승법을 이용한 TSIUVC 근사합성법에 관한 연구)

  • Lee, See-Woo
    • The KIPS Transactions:PartB
    • /
    • v.9B no.2
    • /
    • pp.223-230
    • /
    • 2002
  • In a speech coding system using excitation source of voiced and unvoiced, it would be involves a distortion of speech waveform in case coexist with a voiced and an unvoiced consonants in a frame. This paper present a new method of TSIUVC (Transition Segment Including Unvoiced Consonant) approximate-synthesis by using Least Mean Square. The TSIUVC extraction is based on a zero crossing rate and IPP (Individual Pitch Pulses) extraction algorithm using residual signal of FIR-STREAK Digital Filter. As a result, This method obtain a high Quality approximation-synthesis waveform by using Least Mean Square. The important thing is that the frequency signals in a maximum error signal can be made with low distortion approximation-synthesis waveform. This method has the capability of being applied to a new speech coding of Voiced/Silence/TSIUVC, speech analysis and speech synthesis.

A Study on Speech Signal Processing of TSIUVC using Least Mean Square (LMS를 이용한 TSIUVC의 음성신호처리에 관한 연구)

  • Lee, See-Woo
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.7 no.6
    • /
    • pp.1175-1179
    • /
    • 2006
  • In a speech coding system using excitation source of voiced and unvoiced, it would be a distortion of speech waveform in case of exist a voiced and an unvoiced consonants in a frame. In this paper, I propose a new method of TSIUVC(Transition Segment Including Unvoiced Consonant) approximate-synthesis by using Least Mean Square. As a result, a method by using Least Mean Square was obtained a high quality approximation-synthesis waveform . The important thing is that the frequency signals in a maximum error signal can be made with low distortion approximation-synthesis waveform. This method has the capability of being applied to a new speech coding of Voiced/Silence/TSIUVC, speech analysis and synthesis.

  • PDF

Discriminative Feature Selection for G.723-based Speech Recognition (G.723기반의 음성인식을 위한 변별적인 음성 특징 벡터 선정)

  • 이규환;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.387-389
    • /
    • 2000
  • 정보 통신 분야의 발달로 사람들의 전화 사용이 늘어나고 또한 전화기에 여러 가지 멀티미디어 기능들이 추가되면서 음성 인식의 필요성이 점차 증가하고 있다. 그러나 현재의 기술로는 음성 인식의 성능이 사람들의 기대치를 만족시키지 못하고 있다. 본 연구에서는 G.723을 이용한 네트워크 상에서 음성 인식 시간을 줄이고 같은 차수에서 더 좋은 음성 인식 성능을 얻을 수 있는 방법에 대해 연구하였다. 일반적인 보코더는 채널을 통과시킬 때 왜곡을 최소화 하기 위해 양지화할 때 안정적이라고 알려져 있는 LSP 파라메터를 양자화하여 전송한다. 전송된 양자화된 LSP 파라메터는 복호화기를 통과하게 되는데 본 연구에서는 양자화된 LSP 파라메터를 음성인식에 직접 이용하여 음성 합성한 후 음성 특징 파라메터를 추출하는 시간을 줄일 수 있고 음성 합성시 왜곡을 미연에 방지할 수 있다. 본 연구에서는 변별적인 기준에 의해 특징 벡터 요소들을 순서화를 이용하여 음성 특징 벡터의 차수를 동적으로 조절할 수 있는 방법을 G.723에 적용시켜 보았다. 순서화 된 음성 특징 요소들 중에서 인식 목적에 적절한 차수를 선정하며 차수를 줄이면서도 음성인식 성능은 유지 또는 향상시킬 수 있음을 확인하였다. 특히 네트워크 통신망에서도 음성인식 성능을 향상시킬 수 있음을 확인하였고, 기존의 합성음에서 음성인식을 하는 방법보다 시간도 크게 단축할 수 있었다.

  • PDF

A Study on Pitch-rate and Time-Rate Modifications for Speech Synthesis (합성음 구현을 위한 음의 억양과 장단변화 연구)

  • 하정호
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.328-333
    • /
    • 1994
  • 합성의 궁극적 목표는 어휘의 제한 없이 어떠한 말이라도 자연스럽게 다양한 음색과 속도로 합성해 내는 것이다. 따라서 음성합성 시스템의 성능은 전하고자 하는 정보를 얼마나 정확한 발음으로, 자여스럽게 합성음을 만들 수 있는가에 달려있다. 우수한 성능을 갖는 음성합성 시스템을 구현하기 위해서는운율법에서 산출된 음의 억양과 장단변환을 효과적으로 적용시킬 수 있는 음향신호처리 알고리즘이 필요하다. 본 논문은 운율법에 따라 합성음을 적은 계산량을 유지하면서 시간영역에서 음색은 그대로 유지하면서 억양변환하고, 알맞는 속도로 장단변환하는 알고리즘을 개발하였다. 이를 이용하여 음편인 기본음만을 가지고 원하는 음 높이와 길이의 합성음을 산출하였다. 본 논문에서는 음의 억양과 장단변환을 위한 알고리즘을 제안하였으며, 이를 아카펠라음의 합성에 응용하였으며, 이러한 알고리즘은 자동음성서비스나 예약시스템 등을 적은 데이터베이스로 다양하게 합성할 수있음을 보였다.

  • PDF

A Study on the Word Selection for Intelligibility Assessment of Synthesized Speech by Rule (규칙 합성음성의 이해성 평가를 위한 단어표 구성에 관한 연구)

  • 홍진우;김순협;강성훈
    • The Journal of the Acoustical Society of Korea
    • /
    • v.9 no.6
    • /
    • pp.22-28
    • /
    • 1990
  • 최근에 음성합성 기술이 발전됨에 따라 이러한 기술을 이용한 새로운 통신 서비스가 등장하고 있으며 그 표준 설정에 있어서 음성 품질은 아주 중요한 요인이 된다. 따라서, 시스템 알고리즘의 진단 적 평가 및 평가치의 상호 비교를 위해 품질 평가방법을 개발하는 것은 매우 중요하다. 본 논문에서는 규칙 합성음성의 이해성 평가를 위한 기본적 사항들과 개념을 기술하고 ,이해성 평가에 사용되는 단어 표를 구성하는 방법과 단어표를 제안하였다.

  • PDF

Multi speaker speech synthesis system (다화자 음성 합성 시스템)

  • Lee, Jun-Mo;Chang, Joon-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.338-339
    • /
    • 2018
  • 본 논문은 스피커 임베딩을 이용한 다화자 음성 합성 시스템을 제안한다. 이 모델은 인공신경망을 기반으로 하는 당일화자 음성 합성 시스템인 타코트론을 기초로 구성된다. [1]. 제안 된 모델은 입력 데이터에 화자 임베딩을 추가 데이터로 항께 넣어주는 간단한 방식으로 구현되며 당일화자 모델에 비해 큰 성능 저하 없이 성공적으로 음성을 생성한다.