A Noble Decoding Algorithm Using MLLR Adaptation for Speaker Verification

MLLR 화자적응 기법을 이용한 새로운 화자확인 디코딩 알고리듬

  • 김강열 (인하대학교 전자공학과 디지털 신호처리 연구실) ;
  • 김지운 (인하대학교 전자공학과 디지털 신호처리 연구실) ;
  • 정재호 (인하대학교 전자공학과 디지털 신호처리 연구실)
  • Published : 2002.02.01

Abstract

In general, we have used the Viterbi algorithm of Speech recognition for decoding. But a decoder in speaker verification has to recognize same word of every speaker differently. In this paper, we propose a noble decoding algorithm that could replace the typical Viterbi algorithm for the speaker verification system. We utilize for the proposed algorithm the speaker adaptation algorithms that transform feature vectors into the region of the client' characteristics in the speech recognition. There are many adaptation algorithms, but we take MLLR (Maximum Likelihood Linear Regression) and MAP (Maximum A-Posterior) adaptation algorithms for proposed algorithm. We could achieve improvement of performance about 30% of EER (Equal Error Rate) using proposed algorithm instead of the typical Viterbi algorithm.

화자확인에서 사용되는 디코딩 방법에는 음성인식에서 주로 사용되는 비터비 알고리듬을 사용하여 왔다. 그러나 화자확인에서는 화자의 특성을 최대한 발휘하여 같은 음소라도 화자마다 다르게 인식해야 하는 어려움이 있다. 본 논문에서는 기존 화자확인 디코딩에서 사용하는 비터비 알고리듬을 대신하는 새로운 알고리듬을 제안하였다. 제안된 알고리듬은 음성인식에서 사용되고 있는화자 적응 알고리듬을 화자의 특성에 따라 모델 파라미터로 변환하는 것을 응용한 방법이다. 본 논문에서는 여러 적응 알고리듬중 MLLR(Maximum Likelihood Linear Regression)과 MAP (Maximum A-Posterior) 적응 알고리듬을 사용하였고 제안된 알고리듬이 기존의 비터비 알고리듬을 사용하였을 때보다 평균 30%의 EER (Equal Error Rate) 향상을 이루었다.

Keywords

References

  1. Acoustics, Speech, and Signal Processing, 2000. ICASSP '00. Proceedings. 2000 IEEE International Conference v.2 Effective speaker adaptations for speaker verification S. J. Ahn;S. M. Kang;H. S. Ko
  2. ICSLP 96., Proceedings, Fourth International Conference v.2 Iterative unsupervised adaptation using maximum likelihood linear regression P. C. Woodland;M. J. F. Gales https://doi.org/10.1109/ICSLP.1996.607806
  3. ICSLP 96., Proceedings, Fouth International Conference v.3 Variance compensation within the MLLR framework for robust speech recognition and speaker adaptation M. J. F. Gales;P. C. Woodland https://doi.org/10.1109/ICSLP.1996.607987
  4. CUED, F-INFENG, TR. 181 Speaker adaptation of HMMs using linear regression C. J. Leggetter;P. C. Woodland
  5. Acoustics, Speech, and Signal Processing, 1999. Proceedings, IEEE International Conference v.1 The 1998 HTK system for transcription of conversational telephone speech T. Hain;P. C. Woodland;T. R. Niesler;E. W. D. Whittaker
  6. IEEE Transactions on Speech and Audio processing v.2 no.2 Maximum a Poster ori Estimation for Multivariate Gaussian Mixture Observation of Markov Chains J. L. Gauvian;C. H. Lee https://doi.org/10.1109/89.279278
  7. IEEE Transactions on signal processing v.39 no.4 A study on speaker adaptation of the parameters of continuous density Hidden Markov Models C. H. Lee;C. H. Lin
  8. Pattern Classification(2nd Edition) R. O. Duda;P. E. Hart;D. G. Stork
  9. IEEE Transactions on Information Theory v.13 no.2 Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm A. J. Viterbi https://doi.org/10.1109/TIT.1967.1054010
  10. IEEE Transactions on Information Theory v.15 no.1 On the Viterbi Decoding Algorithm J. K. Omura https://doi.org/10.1109/TIT.1969.1054239
  11. 한국음향학회지 v.18 no.5 전화선 채널이 화자확인 시스템의 성능에 미치는 영향 조태현;김유진;이재영;정재호