Spectrum Based Excitation Extraction for HMM Based Speech Synthesis System

스펙트럼 기반 여기신호 추출을 통한 HMM기반 음성합성기의 음질 개선 방법

  • 이봉진 (연세대학교 디지털 신호처리 연구실) ;
  • 김성우 (연세대학교 디지털 신호처리 연구실) ;
  • 백순호 (연세대학교 디지털 신호처리 연구실) ;
  • 김종진 (한국전자통신연구원 음성처리연구팀) ;
  • 강홍구 (연세대학교 디지털 신호처리 연구실)
  • Published : 2010.01.31


This paper proposes an efficient method to enhance the quality of synthesized speech in HMM based speech synthesis system. The proposed method trains spectral parameters and excitation signals using Gaussian mixture model, and estimates appropriate excitation signals from spectral parameters during the synthesis stage. Both WB-PESQ and MUSHRA results show that the proposed method provides better speech quality than conventional HMM based speech synthesis system.

본 논문에서는 HMM기반 음성합성시스템에서 합성음의 음질 개선을 위한 방법으로 스펙트럼 정보에 기반한 여기신호 추출방법을 제안한다. 제안된 방법은 스펙트럼 정보와 여기신호를 함께 통계적 모델로 만든 후에 합성 과정에서 스펙트럼 정보를 기반으로 여기신호를 추출해 냄으로써 스펙트럼 파라메터에 가장 적합한 여기신호를 사용할 수 있다. 제안된 방법으로 합성음의 음질을 MUSHRA 테스트 및 WB-FESQ점수를 통해 확인해 본 결과, 비슷한 조건에서 기존에 사용되는 STRAIGHT 방법을 이용한 합성음보다 좋은 음질을 얻을 수 있었다.



  1. S. Lemmetly, Review of Speech Synthesis Technology, M. S. thesis, Helsinki Univ, Technol., Helsinki, Finland, 1999.
  2. T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, T. Kitamura, "Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," in Proc. of Eurospeech, pp, 2350-2374, 1999.
  3. H, Zen, T, Toda, "An Overview of Nitech HMM-based Speech Synthesis System for Blizzard Challenge 2005," in Proc. INTERSPEECH 2005, pp, 93-96, 2005.
  4. H. Zen, K. Tokuda, T. Masuko, T. Kobayashi, T. Kitamura, "Hidden semi-Markov model based speech synthesis," in Proc. ICSLP, pp. 1185-1180, 2004.
  5. T. Toda, K. Tokuda, "Speech parameter generation algorithm considering global variance for HMM-based speech synthesis," in Proc, of Interspeech, pp, 801-2804, 2005.
  6. K. Tokuda, T. Kobayashi, T. Masuko, S. Imai, "MEL-GENERALIZED CEPSTRAL ANALYSIS - A UNIFIED APPROACH TO SPEECH SPECTRAL ESTIMATION: in Proc. of ICASSP, pp. 1043-1046, 1994.
  7. T, Kobayashi, T, S. Imai, "Spectral analysis using generalized cepstrum," IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 1087-1089, 1984.
  8. S, Imai, "Cepstral analysis synthesis on the mel frequency scale Acoustics," in Proc. of ICASSP '83., pp. 93-96, 1983.
  9. H. W. Strube, "Linear prediction on a warped frequency scale," J. Acoust. Soc. America, vol. 68, no. 4, pp. 1071-1076, 1980.
  10. K. Park, H. S. Kim, "Narrowband to wideband conversion of speech using GMM based transformation," in Proc. of ICASSP, pp. 1843-1846, 2000.
  11. J. S. Garofalo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S, Pallett, N. L. Dahlgren, "The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus CDROM," Linguistic Data Consortium, 1993.
  12. ITU-T Q.9/12, Proposed modification to draft P.862 to allow PESQ to be used for quality assessment of wideband speech, 2004.
  13. ITU-R Recommendation BS.1534-1, Method for the Subjective Assessment of Intermediate Sound Quality (MUSHRA), International Telecommunications Union, Geneva, Switzerland, 2001.