Feature Compensation Method Based on Parallel Combined Mixture Model

병렬 결합된 혼합 모델 기반의 특징 보상 기술

  • Published : 2003.10.01


This paper proposes an effective feature compensation scheme based on speech model for achieving robust speech recognition. Conventional model-based method requires off-line training with noisy speech database and is not suitable for online adaptation. In the proposed scheme, we can relax the off-line training with noisy speech database by employing the parallel model combination technique for estimation of correction factors. Applying the model combination process over to the mixture model alone as opposed to entire HMM makes the online model combination possible. Exploiting the availability of noise model from off-line sources, we accomplish the online adaptation via MAP (Maximum A Posteriori) estimation. In addition, the online channel estimation procedure is induced within the proposed framework. For more efficient implementation, we propose a selective model combination which leads to reduction or the computational complexities. The representative experimental results indicate that the suggested algorithm is effective in realizing robust speech recognition under the combined adverse conditions of additive background noise and channel distortion.

본 논문에서는 잡음 환경에서 보다 강인한 성능을 얻기 위하여 음성 모델 기반의 효과적인 특징 보상 기법을 제안한다. 일반적인 모델 기반의 특징 보상 기법은 오열 음성 데이터베이스를 이용한 훈련 과정을 필요로 하므로 온라인 상에서의 적응 과정에 적합하지 않다. 제안한 방법에서는 보정 인자 추정 과정에서 병렬 모델 결합 기법을 도입함으로써 훈련 과정을 필요하지 않게 하였다. 모델의 결합 과정이 HMM 전체가 아닌 가우시안 혼합 (Mixture) 모델에만 적용이 되므로, 계산이 비교적 간단하게 되어 온라인 상에서의 모델 결합을 가능하게 하였다. 병렬적 모델 결합의 도입은 잡음 모델의 독립적인 이용을 가능하게 하였고, 본 논문에서는 MAP (Maximum A Posteriori) 적응을 통해 잡음 모델 갱신을 실시하였다 또한 잡음 오열 과정에 대한 근사화를 통해 연속적 형태의 채널 정규화 기법을 유도하여 적용하였다. 보다 효율적인 구현을 위하여 선택적인 모델 결합 방식을 도입함으로써 연산량을 줄일 수 있는 방법을 제시하였다. 제안한 특징 보상 기법이 부가적인 배경 잡음과 채널 왜곡이 존재하는 잡음 환경에서 음성 인식 시스템의 성능을 향상시키는데 효과적임을 실험을 통해 확인할 수 있었다.



  1. Spoken Language Processing X.Huang;A.Acero;H.Hon
  2. IEEE Trans. on Signal Processing v.39 no.4 A Study on speaker adaptation of the parameters of continuous density hidden markov models C.H.Lee;C.H.Lin;B.H.Juang https://doi.org/10.1109/78.80902
  3. IEEE Trans. on Speech and Audio Processing v.2 no.2 Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains J.L.Gauvain;C.H.Lee https://doi.org/10.1109/89.279278
  4. Computer Speech and Language v.9 Maximum likelihood linear regression for speaker adaptation of continuous density HMMs C.J.Leggetter;P.C.Woodland https://doi.org/10.1006/csla.1995.0010
  5. IEEE Trans. on Speech and Audio Processing v.4 no.5 Robust continuous speech recognition using parallel model combination M.J.F.Gales;S.J.Young
  6. Speech Communication v.24 no.4 Data-driven-environ-mental compensation for speech recognition: a united approach P.J.Moreno;B.Raj;R.M.Stern https://doi.org/10.1016/S0167-6393(98)00025-9
  7. PhD Thesis Speech Recognition in Noisy Environments P.J.Moreno
  8. Proc. of ICASSP-95 A fast and flexible implementation of parallel model combination M.J.F.Gales;S.J.Young
  9. Proc. of ICASSP-2000 PCA-PMC: a novel use of a priori knowledge for fast parallel model combination R.Sarikaya;J.H.L.Hansen
  10. Proc. of ICASSP-95 Multivariate-gaussian-based cepstral normalization for robust speech recognition P.J.Moreno;B.Raj;E.Gouvea;R.M.Stern
  11. ISCA ITRW ASR2000 The AURORA experimental framework for the performance evaluations of speech recognition systems under noisy conditions H.G.Hirsch;D.Pearce
  12. ETSI standard document, ETSI ES 201 108 (V1.1.2) Speech processing, transmission and quality aspects(STQ): distributed speech recognition:front-end feature extraction algorithm:compression algorithms
  13. EUSIPCO-94 Spectral subtraction based on minimum statistics R.Martin