DOI QR코드

DOI QR Code

A single-channel speech enhancement method based on restoration of both spectral amplitudes and phases for push-to-talk communication

Push-to-talk 통신을 위한 진폭 및 위상 복원 기반의 단일 채널 음성 향상 방식

  • 조혜승 (광운대학교 전파공학과) ;
  • 김형국 (광운대학교 전파공학과)
  • Received : 2016.08.24
  • Accepted : 2017.01.25
  • Published : 2017.01.31

Abstract

In this paper, we propose a single-channel speech enhancement method based on restoration of both spectral amplitudes and phases for PTT (Push-To-Talk) communication. The proposed method combines the spectral amplitude and phase enhancement to provide high-quality speech unlike other single-channel speech enhancement methods which only use spectral amplitudes. We carried out side-by-side comparison experiment in various non-stationary noise environments in order to evaluate the performance of the proposed method. The experimental results show that the proposed method provides high quality speech better than other methods under different noise conditions.

본 논문에서는 PTT(Push-To-Talk) 기반의 무선 통신을 위한 진폭 및 위상 복원 기반의 단일 채널 음성 향상 방식을 제안한다. 제안한 방식은 신호의 진폭만을 대상으로 음성 향상을 진행했던 기존의 방식들과 달리, 음성 신호의 진폭과 위상을 분리하여 각각 향상시켜 다시 결합함으로써 더욱 양질의 음성을 제공한다. 본 논문에서 제안하는 방식의 성능을 평가하기 위해 동적 잡음 환경에서의 단계별 비교 실험을 실시하였으며, 실험 결과를 통해 제안한 방식이 다양한 잡음 환경에서 양질의 음성을 제공하는 것을 확인할 수 있다.

Keywords

References

  1. E. Plourde and B. Champagne, "Auditory-based spectral amplitude estimators for speech enhancement," IEEE Trans. Audio, Speech, Lang. Process. 16, 1614-1623 (2008). https://doi.org/10.1109/TASL.2008.2004304
  2. J. Kulmer and P. Mowlaee, "Phase estimation in single channel speech enhancement using phase decomposition," IEEE Signal Process. Lett. 22, 598-602 (2015). https://doi.org/10.1109/LSP.2014.2365040
  3. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. Acoust. Speech Signal Process. 443-445 (1985).
  4. I. Cohen, "Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator," IEEE Signal Process. Lett. 9, 113-116 (2002). https://doi.org/10.1109/97.1001645
  5. B. Bozkurt, B. Doval, C. d'Alessandro, and T. Dutoit, "Zeros of Z-transform representation with application to sourcefilter separation in speech," IEEE Signal Process. Lett. 12, 344-347 (2005). https://doi.org/10.1109/LSP.2005.843770