A Study on a Model Parameter Compensation Method for Noise-Robust Speech Recognition

잡음환경에서의 음성인식을 위한 모델 파라미터 변환 방식에 관한 연구

  • 장육현 (LG 정보통신(주) 중앙연구소) ;
  • 정용주 (LG 정보통신(주) 중앙연구소) ;
  • 박성현 (LG 정보통신(주) 중앙연구소) ;
  • 은종관 (한국과학기술원 전기및전자공학과)
  • Published : 1997.10.01

Abstract

In this paper, we study a model parameter compensation method for noise-robust speech recognition. We study model parameter compensation on a sentence by sentence and no other informations are used. Parallel model combination(PMC), well known as a model parameter compensation algorithm, is implemented and used for a reference of performance comparision. We also propose a modified PMC method which tunes model parameter with an association factor that controls average variability of gaussian mixtures and variability of single gaussian mixture per state for more robust modeling. We obtain a re-estimation solution of environmental variables based on the expectation-maximization(EM) algorithm in the cepstral domain. To evaluate the performance of the model compensation methods, we perform experiments on speaker-independent isolated word recognition. Noise sources used are white gaussian and driving car noise. To get corrupted speech we added noise to clean speech at various signal-to-noise ratio(SNR). We use noise mean and variance modeled by 3 frame noise data. Experimental result of the VTS approach is superior to other methods. The scheme of the zero order VTS approach is similar to the modified PMC method in adapting mean vector only. But, the recognition rate of the Zero order VTS approach is higher than PMC and modified PMC method based on log-normal approximation.

본 논문에서는 잡음에 강한 음성 인식기를 위한 모델 파라미터 변환 방식에 관하여 살펴보았다. 모델 파라미터 변환에 있어서 잡음에 대한 어떠한 통계 모델도 사용하지 않고 각 단어 단위로 수행되어 실시간 음성 인식이 가능하도록 하였다. Parallel model combination(PCM)은 본 논문에서 제안한 방법과의 성능 비교를 위하여 cepstrum 영역에서 구현되었다. 본 논문에서 제안한 PCM 방법은 modified PCM(MPMC)라 하며, 이 방법은 각 hidden Markov mode(HMM)의 state별로 평균적인 가우시안 믹스처(Gaussian mixture)의 변화률과 개별적인 변화률간에 결합지수를 이용하여 평균을 재조정한다. 또한, vector Taylor series 근사화를 이용한 모델 파라미터 변환을 위하여 cepstrum 영역에서의 환경모델 예측을 위한 expectation-maximization(EM) 해를 유도하여 구현하였다. 본 논문에서 구현된 알고리즘들의 성능 위해 HMM 인식기를 이용한 화자독립 고립단어 인식을 수행하였다. 시용된 잡음은 가우시안 백색 잡음과 주행중에 녹음된 자동차 잡음이며, 각 잡음울 signal-to-noise ratio(SNR)별로 사용하였다. 잡음의 모델은 1 state HMM으로 단어시작 3 프레임(frame)을 이용하여 만들어졌다. 인식 결과는 VTS 접근방식을 이용하였을 경우 매우 우수한 인식률을 나타내었으며, MPMC의 경우도 기존의 PMC보다 인식률이 향상되었다. 특히, 영차 VTS의 경우는 단순히 평균만을 조정하였음에도 불구하고 PMC와 MPMC보다 인식률이 우수하게 나타났다.

Keywords