음성 향상에서 강인한 새로운 선행 SNR 추정 기법에 관한 연구

A Novel Approach to a Robust A Priori SNR Estimator in Speech Enhancement

  • 박윤식 (인하대학교 전자전기공학부) ;
  • 장준혁 (인하대학교 전자전기공학부)
  • 발행 : 2006.11.30


본 논문에서는 잡음 환경에서 단일 마이크로폰의 음성 향상에 대한 새로운 기법을 제시했다. 일반적으로 널리 알려진 스펙트럼 차감법에 근거한 음성 향상 기술은 신호 대 잡음비에 따른 스펙트럼 이득으로 표현된다. 대표적인 Ephraim과 Malah의 decision-directed (DD) 추정치는 잡음 구간에서 효율적으로 뮤지컬 잡음을 제거하지만 음성 구간에서는 이전 프레임의 음성 스펙트럼 성분에 더 큰 비중을 두기 때문에 a priori SNR의 프레임 지연이 발생한다. 따라서 DD에 의해 추정된 a priori SNR이 적용된 잡음 제거 이득은 현재 프레임보다 이전 프레임에 영향을 받으므로 음성 전이 구간에서 잡음 제거 성능을 저하시킨다. 본 논문은 DD의 가중치 파라미터에 Sigmoid Type의 함수를 적용하여 계산적으로는 간단하지만 효과적인 음성 향상 알고리즘을 제안한다. 제안된 접근 방식은 DD의 주요 파라미터인 a priori SNR 지연의 문제점을 해결하면서 뮤지컬 잡음 제거에 우수한 DD의 이점은 유지한다. 제안된 알고리즘의 성능은 다양한 잡음 환경에서 ITU-T P.862 Perceptual Evaluation of Speech Quality (PESQ) 와 Mean Opinion Score (MOS). 그리고 음성 스펙트로그램 (Spectrogram)에 의해 평가했고 기존의 DD의 고정된 가중치 파라미터를 사용했을 때 보다 향상된 결과를 나타내었다.

This Paper presents a novel approach to single channel microphone speech enhancement in noisy environments. Widely used noise reduction techniques based on the spectral subtraction are generally expressed as a spectral gam depending on the signal-to-noise ratio (SNR). The well-known decision-directed(DD) estimator of Ephraim and Malah efficiently reduces musical noise under the background noise conditions, but generates the delay of the a prioiri SNR because the DD weights the speech spectrum component of the Previous frame in the speech signal. Therefore, the noise suppression gain which is affected by the delay of the a priori SNR, which is estimated by the DD matches the previous frame rather than the current one, so after noise suppression. this degrades the noise reduction performance during speech transient periods. We propose a computationally simple but effective speech enhancement technique based on the sigmoid type function for the weight Parameter of the DD. The proposed approach solves the delay problem about the main parameter, the a priori SNR of the DD while maintaining the benefits of the DD. Performances of the proposed enhancement algorithm are evaluated by ITU-T p.862 Perceptual Evaluation of Speech duality (PESQ). the Mean Opinion Score (MOS) and the speech spectrogram under various noise environments and yields better results compared with the fixed weight parameter of the DD.



  1. Y. Ephraim and D. Malah, 'Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,' IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-32, 6 1109--1121, Dec. 1984
  2. S. F. Boll, 'Suppression of acoustic noise in speech using spectral subtraction,' IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-27, 2 113-120, Apr. 1979
  3. R. J. McAualy and M. L. Malpass, 'Speech enhancement using a soft-decision noise suppression filter,' IEEE Trans Acoust., Speech, Signal Processing, vol. ASSP-28, 137-145, Apr. 1980
  4. O. Cappe, 'Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor,' IEEE Trans Speech Audio Process., 2(2) 345-349, Apr. 1994
  5. N. Ma, M. Bouchard and R. Goubran, 'Perceptual Kalman filtering for speech enhancement in colored noise,' in Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, 1 717-720, Montreal, May 2004
  6. C. You, S. N. Koh, and S. Rahardja 'Signal subspace speech enhancement for audible noise reduction', in Proc IEEE Int. Conf. Acoustics, Speech, and Signal Processing, 1 145-148, Mar. 2005
  7. N. Virag, 'Single channel speech enhancement based on masking properties of the human auditory system,' IEEE Trans. Speech and Audio Processing, 7(2) 126-137, Mar. 1999
  8. N. S. Kim, J.-H. Chang, 'Spectral enhancement based on global soft decision,' IEEE Signal Processing Letters, 7(5) May 2000, 108-110
  9. J. Sohn, N. S. Kim, W. Sung, 'A statistical model-based voice activity detection,' IEEE Signal Processing Letters, 6(1) 1-3, Jan. 1999
  10. C. Plapous, C. Marro, P. Scalart, and L. Mauuary, 'A two-step noise reduction technique, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Montreal, QC, Canada, May 2004, 1 289--292
  11. I. Cohen, 'Speech enhancement using a noncausal a priori SNR estimator,' IEEE Signal Processing Letters, 11 (9) Sept. 2004. 725-728