Design of a Low Bit-rate Speech Coder Based on Mixed Multi-band Excitation Model

혼합 다중대역 여기모델에 기반한 저 전송률 음성 부호화기의 설계

  • 한우진 (한국과학기술원 전산학과) ;
  • 오영환 (한국과학기술원 전산학과)
  • Published : 2002.08.01

Abstract

MBE (multi-band excitation) coder can achieve high qualify synthetic speech below 4.0 kbps. There are, however, significant differences of the fine structure between the original spectrum and the synthetic spectrum. They are mainly due to the exclusive partition of voiced and unvoiced regions in frequency domain and the decision procedure based on the experimental threshold. This paper proposes MMBE (mixed multi-band excitation) speech model to overcome drawbacks of a MBE coder. In addition, two analysis methods, which do not need my decision procedure based on a threshold, are presented. Both voiced and unvoiced components can be mixed over all the frequency axis in the MMBE speech model. To illustrate the potential of the proposed speech model, we develop a 2.6 kbps MMBE coder and compare it with a 2.9 kbps MBE coder by both objective and subjective methods. The results have shown that the proposed coder has a better performance even at a lower bit-rate compared with the MBE coder.

다중대역 여기부호화 (MBE: multi-band excitation) 음성 부호화기는 고조파 대역별로 유/무성음 판단을 수행함으로써 한 프레임 내에서 유성음과 무성음이 혼합되는 경우를 잘 모델링할 수 있다. 하지만 같은 주파수 대역에서는 유성음 성분과 무성음 성분이 공존할 수 없다. 또한 유/무성음 판단 과정에서 경험에 의한 임계치와의 비교 과정이 필요하므로 원음 스펙트럼과 합성음 스펙트럼간의 오류가 큰 경우가 발생하는 단점이 있다. 본 논문에서는 모든 주파수 영역에서 유성음 성분과 무성음 성분이 혼합되는 것을 허용하는 혼합다중대역 여기 부호화 (MMBE: mixed multi-band excitation) 음성 모델을 제안하고, 모델 파라미터인 주파수 영역 혼합함수를 임계치와의 비교없이 효과적으로 추정할 수 있는 방법을 제시한다. 제안한 음성 모델을 적용한 2.6 kbps 음성 부호화기를 구현해 본 결과, 2.9 kbps의 전송률을 갖는 MBE음성 부호화기에 비해서 낮은 전송률에서도 더 우수한 합성음 음질을 가지는 것으로 나타났다.

Keywords

References

  1. Digital Speech Processing Synthesis, and Recognition S.Furui
  2. Proc. of ICASSP Voiced/Unvoiced classification of speech with applications to the U. S. goverment LPC-10e algorithm J.P.Campbell, Jr.;T.E.Tremain
  3. Speech Technology The goverment standard linear predictive coding algorithm: LPC-10 T.E.Tremain
  4. Proc. of ICASSP Code-excited linear prediction (CELP): High quality speech at very low bit rates M.R.Shroeder;B.S.Atal
  5. IEEE Workshop on Speech Coding for Telecommunications Vector sum excited linear prediction (VSELP) I.A.Gerson;M.A.Jasiuk
  6. IEEE Trans. on Acoustics, Speech and signal Processing, ASSP-36 v.ASSP-36 Multiband excitation vocoder D.W.Griffin;J.S.Lim
  7. Technical Report No. 524 Multi-Band Excitation Vocoder D.W.Griffin
  8. Inmarsat-M Voice Coding System Description, ( Draft Version 1.3) Digital Voice Systems Inc.
  9. Proc. of Eurospeech A multiband excitation linear predictive speech coder D.Rowe;W.Cowley;A.Perkis
  10. IEE Electronics Letters v.27 no.14 High quality multi-band LPC coding of speech at 2.4Kb/s S.Yeldener;A.M.Kondoz;B.G.Evans https://doi.org/10.1049/el:19910806
  11. Digital Speech: Coding for Low Bit Rate Communication Systems A.M.Kondoz