Gaussian Selection in HMM Speech Recognizer with PTM Model for Efficient Decoding

PTM 모델을 사용한 HMM 음성인식기에서 효율적인 디코딩을 위한 가우시안 선택기법

  • 손종목 (경북대학교 전자공학과) ;
  • 정성윤 (경북대학교 전자공학과) ;
  • 배건성 (경북대학교 전자공학과)
  • Published : 2004.01.01

Abstract

Gaussian selection (GS) is a popular approach in the continuous density hidden Markov model for fast decoding. It enables fast likelihood computation by reducing the number of Gaussian components calculated. In this paper, we propose a new GS method for the phonetic tied-mixture (PTM) hidden Markov models. The PTM model can represent each state of the same topological location with a shared set of Gaussian mixture components and contort dependent weights. Thus the proposed method imposes constraint on the weights as well as the number of Gaussian components to reduce the computational load. Experimental results show that the proposed method reduces the percentage of Gaussian computation to 16.41%, compared with 20-30% for the conventional GS methods, with little degradation in recognition.

가우시안 선택기법은 연속 확률분포를 갖는 HMM음성인식기에서 인식성능을 저하시키지 않으면서 관측확률을 구할 때 계산되는 가우시안의 수를 줄여 효율적인 디코딩을 하기 위해 많이 이용되는 방법이다. 본 논문에서는 PTM 구조를 갖는 HMM에서 관측확률을 계산하는데 필요한 가우시안 함수의 부분집합을 구하는 새로운 가우시안 선택기법을 제안한다. PTM 모델에서는 음성신호의 음향특성에 따라 구분되는 클래스별 가중치와 공통적인 가우시안 집합을 이용하여 각 상태를 나타내는데, 제안한 방법에서는 PTM 구조가 갖는 이러한 특성을 이용하여 인식성능의 저하없이 관측확률 계산에 소요되는 적은 수의 가우시안 부분집합을 구한다. 실험결과 기존의 가우시안 선택기법이 가우시안 선택기법을 적용하지 않았을 경우에 비해 20∼30% 계산량을 필요로 하는데, 제안한 기법은 16.41%의 가우시안 함수 계산만으로도 별다른 인식성능 저하없이 인식 과정을 수행할 수 있었다.

Keywords

References

  1. Proc. International Conference on Acoustic, Speech and Signal Processing v.1 Linear discriminant analysis for improved large vocabulary continuous speech recognition R. Haeb-Um bach;H.Ney
  2. Proc. International Conference on Acoustic, Speech and Signal Processing v.3 A new phonetic tied-mixture model for efficient decoding Akinobu Lee;Tatsuya Kawahara;Kazuya Takeda;Kiyohiro Shikano
  3. Proc. International Conference on Acoustic, Speech and Signal Processing v.1 SubPhonetic modeling with markov States-SENONE Mei Yuh Hwang;Xuedong Huang
  4. Proc. International Conference on Acoustic, Speech and Signal Processing v.2 Vector quantization for efficient computation of continuous density likelihoods E.Bocchieri
  5. Proc. International Conference on Spoken Language Processing v.1 Use of gaussian selection in large vocabulary continuous speech recognition using HMMs K.M.Knill;M.J.F.Gales;S.J.Young
  6. IEEE Trans. on Speech and Audio Processing v.7 no.2 State-based gaussian selection in large vocabulary continuous speech recognition using HMM's Mark J. F. Gales;Katherine M. Knill;Stephen J. Young
  7. Proc. International Conference on Acoustic, Speech and Signal Processing v.1 Gaussain mixture selection using context-independent HMM Akinobu Lee;Tatsuya Kawahara;Kiyohiro Shikano
  8. Ph. D. thesis, Carnegie Mellon University Efficient algorithms for speech recognition Mosur K. Ravishankar
  9. 한국음향학회 추계학술대회 논문집 v.22 no.2(s) PTM 모델을 적용한 HMM 시스템에서 효율적인 디코딩을 위한 가우시안 선택기법에 관한 연구 손종목;정성윤;김민성;배건성