• Title/Summary/Keyword: 음합성

Search Result 333, Processing Time 0.023 seconds

2.4kbps Speech Coding Algorithm Using the Sinusoidal Model (정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘)

  • 백성기;배건성
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.27 no.3A
    • /
    • pp.196-204
    • /
    • 2002
  • The Sinusoidal Transform Coding(STC) is a vocoding scheme based on a sinusoidal model of a speech signal. The low bit-rate speech coding based on sinusoidal model is a method that models and synthesizes speech with fundamental frequency and its harmonic elements, spectral envelope and phase in the frequency region. In this paper, we propose the 2.4kbps low-rate speech coding algorithm using the sinusoidal model of a speech signal. In the proposed coder, the pitch frequency is estimated by choosing the frequency that makes least mean squared error between synthetic speech with all spectrum peaks and speech synthesized with chosen frequency and its harmonics. The spectral envelope is estimated using SEEVOC(Spectral Envelope Estimation VOCoder) algorithm and the discrete all-pole model. The phase information is obtained using the time of pitch pulse occurrence, i.e., the onset time, as well as the phase of the vocal tract system. Experimental results show that the synthetic speech preserves both the formant and phase information of the original speech very well. The performance of the coder has been evaluated in terms of the MOS test based on informal listening tests, and it achieved over the MOS score of 3.1.

Improvement of Naturalness for a HMM-based Korean TTS using the prosodic boundary information (운율경계정보를 이용한 HMM기반 한국어 TTS 자연성 향상 연구)

  • Lim, Gi-Jeong;Lee, Jung-Chul
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.9
    • /
    • pp.75-84
    • /
    • 2012
  • HMM-based Text-to-Speech systems generally utilize context dependent tri-phone units from a large corpus speech DB to enhance the synthetic speech. To downsize a large corpus speech DB, acoustically similar tri-phone units are clustered based on the decision tree using context dependent information. Context dependent information includes phoneme sequence as well as prosodic information because the naturalness of synthetic speech highly depends on the prosody such as pause, intonation pattern, and segmental duration. However, if the prosodic information was complicated, many context dependent phonemes would have no examples in the training data, and clustering would provide a smoothed feature which will generate unnatural synthetic speech. In this paper, instead of complicate prosodic information we propose a simple three prosodic boundary types and decision tree questions that use rising tone, falling tone, and monotonic tone to improve naturalness. Experimental results show that our proposed method can improve naturalness of a HMM-based Korean TTS and get high MOS in the perception test.

Implementation of Text-to-Speech System using ABS/OLA Sinusoidal Model (ABS/OLA Sinusoidal 모델을 이용한 문서-음성 변환시스템의 구현)

  • Bae Jae-Hyun;Byeon Heo-Jin;Oh Yung-Hwan
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.17-20
    • /
    • 1999
  • 본 논문에서는 중첩 가산 Sinusoidal 합성방식에서 위상계승에 의한 단위음 연결법과 다프레임간 정현파 크기의 보간법을 제안한다. 그리고 합성 프레임의 중심이 pitch onset time이라고 가정하고, 음성에서 분리한 성도 모델의 위상을 음성 전체의 위상으로 사용하는 방법을 제안한다. 제안한 방법으로 문서-음성 변환 시스템 (Text-to-Speech System, TTS System)을 구현한 결과 단위음 연결시 연결부분의 파형 왜곡이 감소함을 알 수 있었고, 부드럽게 연결된 합성음을 얻을 수 있었다.

  • PDF

New Codebook Structure For A High-Quality CELP Speech Coder (고성능 CELP 음성 압축기를 위한 새로운 코드북 구조)

  • 박호종;권순영
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.2
    • /
    • pp.43-49
    • /
    • 1998
  • 본 논문에서는 고성능 CELP 음성 압축기를 위한 "Boaseline 코드벡터"와 "Implied 코드벡터"로 구성되는 새로운 구조의 코드북을 제안한다. Implied 코드벡터는 피치 주기 이 전의 합성음으로부터 구하여지며 여기(勵起)신호의 피치 구조를 강화하여 합성음의 음질을 향상시킨다. Implied 코드벡터는 전달되지 않고 인코더 및 디코더에서 각각 합성음을 이용 하여 독립적으로 구하여진다. 또한 펄스와 랜덤 성분을 모두 가지는 복합 여기방식을 이용 하여 음질을 더욱 향상시킨다. 제안된 코드북 구조를 이용하여 10msec프레임을 가지는 8kbps CELP 음성 압축기를 설계하여 하나의 DSP칩에 실시간 구현 하였고, 이것의 성능을 SNRseg와 MOS로 측정하였다. 평균 SNRseg는 12.14dB로 CS-ACELP의 SNRseg보다 6dB 높고, 조용한 환경에서의 MOS는 3.80으로 G.729 CS-ACELP의 MOS보다 0.02 높다.

  • PDF

GPU based Sound Synthesis of Guitar using Physical Modeling (물리적 모델링을 이용한 GPU 기반 기타 음 합성)

  • Kang, Seong-Mo;Kim, Cheol-Hong;Kim, Jong-Myon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2012.07a
    • /
    • pp.1-2
    • /
    • 2012
  • 본 논문에서는 GPU 컴퓨팅 환경에서 물리적 모델링 기반의 음 합성 알고리즘을 수행하는 경우에 GPU의 개수에 따른 성능 및 에너지 효율의 변화를 분석한다. 실험결과, 6개의 GPU를 사용하였을 때 가장 좋은 성능을 보였으며, 1개의 GPU에서 가장 높은 에너지 효율을 보였다.

  • PDF

Low Rate Speech Coding Using the Harmonic Coding Combined with CELP Coding (하모닉 코딩과 CELP방법을 이용한 저 전송률 음성 부호화 방법)

  • 김종학;이인성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.3
    • /
    • pp.26-34
    • /
    • 2000
  • In this paper, we propose a 4kbps speech coder that combines the harmonic vector excitation coding with time-separated transition coding. The harmonic vector excitation coding uses the harmonic excitation coding in the voiced frame and uses the vector excitation coding with the structure of analysis-by-synthesis in the unvoiced frame, respectively. But two mode coding method is not effective for transition frame mixed in voiced and unvoiced signal and a new method beyond using unvoiced/voiced mode coding is needed. Thus, we designed a time-separated transition coding method for transition frame in which a voiced/unvoiced decision algorithm separates unvoiced and voiced duration in a frame, and harmonic-harmonic excitation coding and vector-harmonic excitation coding method is selectively used depending on the previous frame U/V decision. In the decoder, the voiced excitation signals are generated efficiently through the inverse FFT of harmonic magnitudes and the unvoiced excitation signals are made by the inverse vector quantization. The reconstructed speech signal are synthesized by the Overlap/Add method.

  • PDF

The study of sound source synthesis IC to realize the virtual engine sound of a car powered by electricity without an engine (엔진 없이 전기로 구동되는 자동차의 가상 엔진 음 구현을 위한 음원합성 IC에 관한 연구)

  • Koo, Jae-Eul;Hong, Jae-Gyu;Song, Young-Woog;Lee, Gi-Chang
    • The Journal of the Acoustical Society of Korea
    • /
    • v.40 no.6
    • /
    • pp.571-577
    • /
    • 2021
  • This study is a study on System On Chip (SOC) that implements virtual engine sound in electric vehicles without engines, and realizes vivid engine sound by combining Adaptive Difference PCM (ADPCM) method and frequency modulation method for satisfaction of driver's needs and safety of pedestrians. In addition, by proposing an electronic sound synthesis algorithm applying Musical Instrument Didital Interface (MIDI), an engine sound synthesis method and a constitutive model of an engine sound generation system are presented. In order to satisfy both drivers and pedestrians, this study uses Controller Area Network (CAN) communication to receive information such as Revolution Per Minute (RPM), vehicle speed, accelerator pedal depressed amount, torque, etc., transmitted according to the driver's driving habits, and then modulates the frequency according to the appropriate preset parameters We implemented an interaction algorithm that accurately reflects the intention of the system and driver by using interpolation for the system, ADPCM algorithm for reducing the amount of information, and MIDI format information for making engine sound easier.

A study on the duration of Korean fricatives /s, s'/ and factors that Influence their duration (한국어 마찰음 /ㅅ,ㅆ/의 지속시간에 영향을 미치는 요인에 관한 연구)

  • Song YoonGyoung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.333-336
    • /
    • 1999
  • 본 연구의 목적은 한국어 마찰음 /ㅅ, ㅆ/가 지속시간에 있어서 유의미한 차이를 가지고 있는가를 관찰하고, 나아가 지속시간에 영향을 미치는 요인에 어떠한 것이 있는가를 기술하는 데에 있다. 이러한 결과는 음성합성을 위한 기초자료로 이용될 수 있을 것이다. 분석 결과, /ㅅ/보다 /ㅆ/가 더 긴 지속시간을 가졌으며 마찰음을 선행하는 음소의 성질, 단어에서 마찰음이 가지는 음절 위치, 그리고 마찰음 앞에서 끊어읽기가 이루어졌는가의 여부가 지속시간에 영향을 미치는 요인으로 작용하였다.

  • PDF

Design and Implementation of Simple Text-to-Speech System using Phoneme Units (음소단위를 이용한 소규모 문자-음성 변환 시스템의 설계 및 구현)

  • Park, Ae-Hee;Yang, Jin-Woo;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.3
    • /
    • pp.49-60
    • /
    • 1995
  • This paper is a study on the design and implementation of the Korean Text-to-Speech system which is used for a small and simple system. In this paper, a parameter synthesis method is chosen for speech syntheiss method, we use PARCOR(PARtial autoCORrelation) coefficient which is one of the LPC analysis. And we use phoneme for synthesis unit which is the basic unit for speech synthesis. We use PARCOR, pitch, amplitude as synthesis parameter of voice, we use residual signal, PARCOR coefficients as synthesis parameter of unvoice. In this paper, we could obtain the 60% intelligibility by using the residual signal as excitation signal of unvoiced sound. The result of synthesis experiment, synthesis of a word unit is available. The controlling of phoneme duration is necessary for synthesizing of a sentence unit. For setting up the synthesis system, PC 486, a 70[Hz]-4.5[KHz] band pass filter for speech input/output, amplifier, and TMS320C30 DSP board was used.

  • PDF

Influence of inharmonicity on the tone of a piano (Inharmonicity가 피아노의 음색에 미치는 영향에 관한 연구)

  • Choi In Yong;Yoon SungYong;Kim Se Woong;Sung Koeng-Mo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.545-548
    • /
    • 2002
  • Inharmonicity가 피아노의 음색에 미치는 영향을 가능한 한 객관적으로 평가하기 위해 본 연구 에서는 inharmonicity는 다르면서 음색에 영향을 미치는 다른 모든 요소들은 같게 합성된 여러 샘플들을 이용해 청취평가를 시행하는 방법을 사용한다. 합성된 피아노 음의 부분음들이 가지는 시간 영역 엔벌로프는 실제 녹음된 피아노 음에서 추출되었으며 인위적으로 조절되는 inharmonicity 의 크기 역시 실제 녹음된 피아노 음에서 얻은 데이터에 근거하였다. 청취평가는 피아노의 음색을 표현한다고 생각되는 적절한 형용사들의 쌍으로 만들어진 질문들로 이루어졌으며 평가를 반복해가며 보다 객관성을 높이기 위한 방법들을 시도하였다. 이러한 과정에서 얻은 결과들을 통해 그 동안 막연히 이해되어오던 inharmonicity와 음색의 관계를 보다 세밀하고 객관적으로 분석할 수 있다.

  • PDF