A Study on Improved MDL Technique for Optimization of Acoustic Model

향상된 MDL 기법에 의한 음향모델의 최적화 연구

  • 조훈영 (한국전자통신연구원 소프트웨어연구부문 음성언어정보연구부) ;
  • 김상훈 (한국전자통신연구원 소프트웨어연구부문 음성언어정보연구부)
  • Published : 2010.01.31

Abstract

This paper describes optimization methods of acoustic models in HMM-based continuous speech recognition. Most of the conventional speech recognition systems use the same number of Gaussian mixture components for each HMM state. However, since the number of data samples available for each state is different from each other, it is possible to reduce the overall number of model parameters and the computational cost at the decoding step by optimizing the number of Gaussian mixture components. In this study, we introduced the Gaussian mixture weight term at the merging stage of Gaussian components in the minimum description length (MDL) based acoustic modeling optimization. Experimental results showed that the proposed method can obtain better ASR accuracy than the previous optimization method which does not consider the Gaussian mixture weight term.

본 논문에서는 HMM 기반의 연속음성인식에서 음향모델의 최적화 기법을 논한다. 대부분의 음성인식 시스템에서 HMM 상태별로 동일한 개수의 가우시안 성분 (mixture component)을 사용해 왔다. 그러나, 음향 모델링에 사용되는 데이터 샘플의 개수는 HMM상태별로 다르므로 이에 따른 최적화를 수행할 경우 모델 파라미터의 개수를 효과적으로 줄일 수 있을 뿐 아니라, 디코딩 단계에서 음성인식기의 속도 및 인식 성능 개선이 기대된다. 본 연구에서 제안한 방법은 기존에 알려진 MDL (minimum description length) 기반의 음향모델 최적화 방법에서 가우시안 성분들의 통합과정에 가우시안 성분의 가중치 정보 (mixture weight)를 반영하도록 개선하였다. 인식 실험 결과, 제안한 방법은 가우시안 성분의 가중치를 반영하지 않는 기존 방법에 비해 향상된 최적화 성능을 보임을 확인할 수 있었다.

Keywords

References

  1. E. Bocchieri, "Vector quantization for the efficient computation of continuous density likelihoods," in Proc. ICASSP, pp. 692-695, 1993.
  2. G.-J Jung, H.-Y. Cho, and Y. H. Oh, "Data-driven subvector clustering using thecross-entropy method," in Proc. ICASSP, pp. 977-980, 2007.
  3. A. Ogawa and S. Takahashi, "Weighted Distance Measure for Efficient Reduction of Gaussian Mixture Components in HMM-based Acoustic Model,"in Proc. ICASSP, pp. 4173-4176, 2008.
  4. K. Shinoda and K. Iso, "Efficient reduction of Gaussian components using MDL criterion for HMM-based speech recognition," in Proc. ICASSP, vol. I, pp.869-872, 2002.
  5. K. Shinoda and T. Watanabe, "MDL-based context-dependent subword modeling for speech recognition," J. Acoust. Soc. Jpn. (E), vol. 21, no. 2, pp. 99-102, 2000.
  6. R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2nd Ed.. Wiley Interscience, 2000.
  7. G. F. G. Yared, F. Violaro and L. C. Sousa, "Gaussian elimination algorithm for HMM complexity reduction in continuous speech recognition system," in Proc. INTERSPEECH, pp. 377-380, 2005.
  8. P. L. Dognin, J. R. Hershey, V. Goel, and P. A. Olsen, "Refactoring acoustic models using variational density approximation," in Proc. ICASSP, pp. 4473-4476, 2009.
  9. J. Rissanen, "Universal coding, information, prediction, and estimation," IEEE Trans. IT 30, pp. 629-636, 1984. https://doi.org/10.1109/TIT.1984.1056936