Robust Speech Recognition Using Missing Data Theory

손실 데이터 이론을 이용한 강인한 음성 인식

  • 김락용 (한국과학기술원 전자전산학과) ;
  • 조훈영 (한국과학기술원 전자전산학과) ;
  • 오영환 (한국과학기술원 전자전산학과)
  • Published : 2001.04.01

Abstract

In this paper, we adopt a missing data theory to speech recognition. It can be used in order to maintain high performance of speech recognizer when the missing data occurs. In general, hidden Markov model (HMM) is used as a stochastic classifier for speech recognition task. Acoustic events are represented by continuous probability density function in continuous density HMM(CDHMM). The missing data theory has an advantage that can be easily applicable to this CDHMM. A marginalization method is used for processing missing data because it has small complexity and is easy to apply to automatic speech recognition (ASR). Also, a spectral subtraction is used for detecting missing data. If the difference between the energy of speech and that of background noise is below given threshold value, we determine that missing has occurred. We propose a new method that examines the reliability of detected missing data using voicing probability. The voicing probability is used to find voiced frames. It is used to process the missing data in voiced region that has more redundant information than consonants. The experimental results showed that our method improves performance than baseline system that uses spectral subtraction method only. In 452 words isolated word recognition experiment, the proposed method using the voicing probability reduced the average word error rate by 12% in a typical noise situation.

본 논문에서는 손실이 발생하는 상황에서 높은 인식률을 유지하기 위해서 손실 데이터 이론을 음성 인식기에 적용하였다 손실 데이터 이론은 일반적으로 이용되는 통계적 정합 방법인 은닉 마코프 모델 (HMM: hidden Markov model) 중 연속 Gaussian확률 밀도 함수를 이용하여 음성 특징들의 출력 확률을 나타내는 경우에 쉽게 적용할 수 있다는 장점을 갖고 있다. 손실 데이터 이론의 방법 중 계산량이 적고 인식기에 적용이 쉬운 주변화(marginalization)방법을 사용하였으며 특징 벡터의 특정 차수나 시간열의 손실 검출 방법은 음성 신호의 에너지와 주위 배경 잡음의 에너지의 차이가 임계치보다 작게 되는 부분을 찾는 주파수 차감 방법을 이용하였다. 본 논문에서 제안한 손실 영역의 신뢰도 평가는 분석 구간이 모음일 확률을 계산해서 비교적 잉여 정보가 많이 포함된 모음화된 구간의 손실만을 처리하도록 하였다. 제안한 방법을 사용하여 여러 잡음 환경에 대해서 기존의 손실 데이터 처리 방법만을 사용한 경우보다 452 단어의 화자독립 단어 인식 실험을 수행한 결과 오류율측면에서 평균적으로 약 12%의 성능 향상을 얻을 수 있었다.

Keywords

References

  1. Speech Communication v.16 Speech Recognition in Noise Environments: A Survey Y. Gong
  2. Proc. ESCA-NATO Tutorial and Research Workshop on Rubust Speech Recognition for Unknown Communication Channels Recent Advances in Robust Speech Recognition S. Furi
  3. IEEE Trans. on Acoust. Speech Signal Processing v.ASSP-27 Suppression of Acoustic Noise in Speech using Spectral Subtraction S. F. Boll
  4. Proc. IEEE Internat. Conf. Acoustic Speech Signal Processing Filtering of Colored Noise for Speech Enhancement and Coding J. D. Koo;Gibson;S.D. Gray
  5. IEEE Trans on Speech and Audio Processing v.4 no.1 Accurate Consonant Perception without Mid-Frequency Energy R. P. Lippmann
  6. IEEE Trans on Speech and Audio Processing v.2 no.4 How do Humans Process and reconize Speech? J. B. Allen
  7. Analysis of Incomplete Multivariate Data J. A. Rodrick;B.R. Donald
  8. Analysis of Incomplete Multivariate Data J. L. Schafer
  9. Auditory Scene Analysis:The Perceptual Organization of Sound A. S. Bregman
  10. Proc. Eurospeech v.1 Using missing feature theory to additive select features for robust speech recognition with interruptions filtering and noise R. P. Lippmann;B. A. Carlson
  11. Proc. Euro. Conf. Speech Commun. Technology Missing Data Theory, Spectral Subtraction and Signal-to-Noise Estimation for Robust ARS:an Integrated Study A. Vizinho
  12. Speech Coding and Synthesis A Robust Algorithm for Pitch Tracking D. Talkin;W. B. Kleijn(ed.);K. K. Paliwal(ed.)
  13. Speech Communication v.12 no.3 Assessment for Autometic Speech Recognition:Ⅱ.NOISEX-92:A Database and an Experiment to Study the Effect of Additive Noise on Speech Recognition Systems A. Varga;H. Steeneken