DOI QR코드

DOI QR Code

Speech Dereverberation using Improved Linear Prediction Residual

개선된 선형예측 잔여를 이용한 음성의 잔향음 제거

  • 박찬섭 (한국해양대학교 공과대학 전파공학과) ;
  • 김기만 (한국해양대학교 공과대학 전파공학과) ;
  • 강석엽 (한국해양대학교 공과대학 전파공학과)
  • Published : 2007.10.31

Abstract

Background noise and room reverberation are two causes of degradation in speech in listening situations. Many algorithms developed to enhance reverberant speech. In this paper we propose a dereverberation method for enhancement of speech using modified the linear prediction(LP) residual in reverberant room condition. The proposed dereberberation method based on the fact that the signification excitation of the vocal tract system takes place at the instant of glottal closure in voiced speech. Our method used delay information form each sensor, and we need reverberant signals from 3 sensors. We obtain a new LP residual signal using modified IP residual combination which derived form weighting of the LP residual and the Hilbert transform of LP residual. The nature of the coherently added Hilbert envelop has several large amplitude spikes because of the effects of noise and reverberation. This residual of the clean speech is used to excite the time-varying all-pole filter to obtain the enhanced speech. We achieved simulation of proposed algorithm for performance analysis in reverberation environment. The proposed algorithm improves substantially the quality of reverberant speech.

배경 잡음과 실내 잔향음은 음성 인식 시스템 성능 저하의 주요 이유이다. 많은 알고리즘이 음성의 잔향음 제거를 위해 개발되었다. 이 논문에서는 실내 환경에서 수정된 선형 예측 잔여(Linear Prediction Residual)를 이용하여 음질 개선을 위한 잔향음 제거 방법을 제안한다. 제안된 잔향음 제거 방법은 음성에서 성문 경계의 순간에 발생한 성도(聲道)시스템의 중요한 여기에 기반한다. 본 논문에서 제안한 방법은 3개의 센서로부터 수집한 반향신호로 각 센서에서의 시간지연 정보를 사용한다. 새로운 선형 예측 잔여신호는 선형 예측 잔여의 가중치와 힐버트 변환으로 얻은, 개선된 선형 예측 잔여 조합을 사용한다. 코히런트하게 더해진 힐버트 포락선의 특징은 잡음과 반사로 인한 큰 진폭 피크를 가지는 것이다. 깨끗한 음성의 잔여는 개선된 음성을 얻는 시변전극 필터를 일으키는데 사용된다. 본 논문에서는 반향 환경에서 성능 분석을 위해 제안된 알고리즘의 시뮬레이션을 수행하였다. 제안된 알고리즘은 실내 잔향환경에서 기존의 알고리즘에 비해 반사된 음성의 품질 향상의 결과를 보였다.

Keywords

References

  1. P. Satyanarayana: 'Short segment analysis of speech for enhancement', Ph.D. thesis, Dept of Electrical Engineering, IIT Madras, Chenai, India, Feb 1999
  2. J. Makhoul, 'Linear Prediction: A tutorial review', Proc. IEEE, vol. 63, no. 4, pp. 651-580, Apr 1975
  3. A. Kounoudes, P. Naylor, and M. Brookes, 'The DYPSA algorithm for estimation of glottal closure instants in voiced speech', in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, vol. 1, pp. I-349-I-352, May 2002
  4. E. Moulines and F. Charpentier, 'Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones', Speech Communication, vol. 9, no. 5-6, pp. 453-467, Dec. 1990 https://doi.org/10.1016/0167-6393(90)90021-Z
  5. Lawrence Rabiner, Biing-Hwang Juang, 'Fundamentals of Speech Recognition', pp 97-122. Prentice-Hall International, Inc
  6. Wen Jin, Michael S. Scordilis, 'Speech enhancement by residual domain constrained optimization', Speech Communication, vol. 48, pp. 1349-1364, 2006 https://doi.org/10.1016/j.specom.2006.07.001
  7. S. R. Mahadeva Prasanna, Suryakanth V. Gangashetty, B. Yegnanarayana, 'Significance of vowel onset point for speech analysis', Signal Processing and Communications (Biennial Conf., IIISc Bangalore, India), pp. 81-88, July 2001
  8. B. Yegnanarayana, S. R. Mahadeva Prasnna, Ramani duraiswami, Dmitry Zoukin, 'Processing of Reverberant Speech for Time-Delay Estimation', IEEE Transaction on Speech and Audio Processing, vol. 13, no. 6, pp. 1110-1118, November 2005 https://doi.org/10.1109/TSA.2005.853005
  9. B. Yegnanarayana, S. R. M. Prasanna, and K.S. Rao, 'Speech enhancement using excitation source information', International Conference on Acoustics, Speech and Signal Processing, Orlando, FL, USA, May 2002