Preprocessing method for enhancing digital audio quality in speech communication system

음성통신망에서 디지털 오디오 신호 음질개선을 위한 전처리방법

  • Published : 2006.06.01

Abstract

This paper presents a preprocessing method to modify the input audio signals of a speech coder to obtain the finally enhanced signals at the decoder. For the purpose, we introduce the noise suppression (NS) scheme and the adaptive gain control (AGC) where an audio input and its coding error are considered as a noisy signal and a noise, respectively. The coding error is suppressed from the input and then the suppressed input is level aligned to the original input by the following AGC operation. Consequently, this preprocessing method makes the spectral energy of the music input redistributed all over the spectral domain so that the preprocessed music can be coded more effectively by the following coder. As an artifact, this procedure needs an additional encoding pass to calculate the coding error. However, it provides a generalized formulation applicable to a lot of existing speech coders. By preference listening tests, it was indicated that the proposed approach produces significant enhancements in the perceived music qualities.

본 논문은 음성 부호화기에서 입력 오디오 신호가 보다 효과적으로 처리되도록 하기 위해 입력오디오신호를 전 처리하는 방법을 소개한다. 이를 위해 본 논문은 잡음억제 및 적응이득제어 방법을 도입한다. 여기서 입력 오디오 신호는 잡음 부가된 신호로 간주되며 그 오디오 신호의 부호화오차신호는 부가된 잡음신호로 간주된다. 입력 오디오 신호는 기존의 잡음억제방식에 따라 잡음신호 즉, 부호화 오차신호가 억제된 뒤 적응이득제어기를 거쳐 최종적으로 음성 부호화기에 인가된다. 결과적으로 이러한 동작을 통하여 입력 오디오 신호의 주파수 스펙트럼 분포가 음성 부호화기 특성에 맞게 재배치된다 이 방법의 하나의 단점은 부호화 오차를 계산하기 위해 사전에 추가적인 부호화 동작이 필요하다는 것이다. 반면, 이 방법은 일반적인 구조를 가지고 있으며 따라서 기존의 여러 음성부호화기에 쉽게 적용될 수 있다는 장점을 가진다. 주관적인 선호도 조사결과 제안된 방법이 복잡한 음악신호로 기인한 성가신 잡음을 사전에 억제해 주며 결과적으로 음질개선을 가져다준다는 것을 확인할 수 있었다.

Keywords

References

  1. R. Hagen, W. B. Kleijn and E. Ekudden, 'Relaxing model-imposed constraints based on decoder analysis,' Speech Coding for Telecommunications Proceeding, 1997, 1997 IEEE Workshop on, pp. 59-60, Sept. 1997
  2. Y. H. Nam and et al., 'A preprocessing approach to improving the quality of the music decoded by an EVRC codec,' IEICE Trans. Commun., Vol. E86-B, No. 10, pp. 3123-3125, Oct. 2003
  3. TIA/EIA/IS-127 Enhanced Variable Rate Codec, Service Option 3 for Wideband Spread Spectrum Digital Systems
  4. S. F. Boll, 'Suppression of Acoustic Noise in Speech Using Spectral Subtraction,' IEEE Trans. Acous., Speech, Signal Processing, Vol. ASSP-27, No. 2, pp. 113-120, Apr. 1979
  5. Y. Ephraim and D. Malah, 'Speech Enhancement Using a Minimum Mean-Square Error Short-time Spectral Amplitude Estimator,' IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 6, pp. 1109-1221, Dec. 1984
  6. M. S. Ahmed, 'Speech Enhancement by adaptive MMSE filtering,' Tech. Rep. Compt. Sci. Dep., Carnegie-Mellon Univ., Pittburgh, PA, 1986
  7. ITU-T Recommendation P.862, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, International Telecommunication Union, 200