Frame Reliability Weighting for Robust Speech Recognition

프레임 신뢰도 가중에 의한 강인한 음성인식

  • 조훈영 (한국과학기술원 전산학과) ;
  • 김락용 (한국과학기술원 전산학과) ;
  • 오영환 (한국과학기술원 전산학과)
  • Published : 2002.04.01

Abstract

This paper proposes a frame reliability weighting method to compensate for a time-selective noise that occurs at random positions of speech signal contaminating certain parts of the speech signal. Speech frames have different degrees of reliability and the reliability is proportional to SNR (signal-to noise ratio). While it is feasible to estimate frame Sl? by using the noise information from non-speech interval under a stationary noisy situation, it is difficult to obtain noise spectrum for a time-selective noise. Therefore, we used statistical models of clean speech for the estimation of the frame reliability. The proposed MFR (model-based frame reliability) approximates frame SNR values using filterbank energy vectors that are obtained by the inverse transformation of input MFCC (mal-frequency cepstral coefficient) vectors and mean vectors of a reference model. Experiments on various burnt noises revealed that the proposed method could represent the frame reliability effectively. We could improve the recognition performance by using MFR values as weighting factors at the likelihood calculation step.

본 논문에서는 임의의 시점에서 발생하여 음성 신호의 일부분을 심하게 손상시키는 시간선택 잡음 (time-selective noise)을 보상하기 위한 프레임 신뢰도 가중 방법을 제안한다. 음성 프레임들은 서로 다른 정도의 신뢰도를 갖으며, 신뢰도는 프레임의 신호대잡음비 (signal-to-noise ratio)에 비례한다. 잡음이 일정한 경우에는 무음구간에서 획득한 잡음 정보를 이용하여 프레임의 신호대잡음비 추정이 용이하나, 시간선택 잡음은 잡음추정이 어렵다. 따라서, 본 연구에서는 프레임 신뢰도를 추정하기 위해 깨끗한 음성의 통계적 모델을 사용하였다. 제안한 MFR (model-based frame reliability) 방법은 탐조 모델의 평균 벡터열과 입력 MFCC (mel-frequency cepstral coefficient) 특징 벡터 열의 역변환에 의해 얻은 필터뱅크 에너지를 이용하여 프레임 신호대잡음비를 근사한다. 다양한 버스트 (burst) 잡음에 대한 인식 실험 결과, 제안한 방법은 프레임의 신뢰도를 효과적으로 나타낼 수 있었으며, 이 신뢰도를 우도 계산에서 가중치로 적용하여 인식 성능을 향상시킬 수 있었다.

Keywords

References

  1. Speech Communication v.16 Speech Recognition in Noise enviroments;A Survey Y. Gong https://doi.org/10.1016/0167-6393(94)00059-J
  2. Speech Communication v.34 Robust automatic speech recognition with missing and unreliable acoustic data M. Cooke;P. Green;L. Josifovsk;A. Vizinho
  3. 한국음향학회지 v.20 no.3 손실 데이터 이론을 이용한 강인한 음성인식 김락용;조훈영;오영환
  4. Proc. IEEE Int. Conf. Acoustic Speech Signal Processing v.I Degraded word Recognition based on Segmental Signal-to-Noise Ratio Weighting H. Kobatake;Y. Matsunoo
  5. Proc. IEEE Int. Conf. Acoustic Speech Signal Processing v.2 Weighted Matching Algorithms and Reliabilty in Noise Cancelling by Spectral Substraction N.B. Yoma;F. Mclnnes;M. Jack
  6. Computational Speech and Language v.5 The use of variable frame rate analysis in speech recognition K.M. Ponting;S.M. Peeling https://doi.org/10.1016/0885-2308(91)90023-J
  7. Electronics Letters v.33 Speech recognition based on variable informations rate model I.J. Choi;C.K. Un;N.S. Kim https://doi.org/10.1049/el:19970520
  8. 제13회 음성통신 및 신호처리 워크샵 v.13 no.1 음성데이터베이스의 현황 및 과제 이용주
  9. Proc. IEEE Int. Conf. Acoustic Speech Signal Processing v.1 Speech Recognition in Impulsive Noise S.V. Vaseghi;B.P. Milner