Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding

저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상

  • 이창헌 (연세대학교 전기전자공학과) ;
  • 강홍구 (연세대학교 전기전자공학과)
  • Published : 2010.01.31

Abstract

This paper proposes a new masking threshold adjustment strategy to improve the performance for speech signals in low bit-rate audio coding. After determining formant regions, the masking threshold is adjusted by using the energy ratio of each sub-band to the average energy of each formant. More quantization noises are added to the bands that have relatively large energy, but less distortion is allowed in spectral valley regions by allocating more bits, which reflects the concept of perceptual weighting widely used in speech coding. From the results of objective speech quality measure, we verified that the proposed method improves quality for the speech input signals compared to the conventional one.

본 논문에서는 기존 마스킹 임계값 적응 방식을 개선하여 저전송률 오디오 부호화에서 음성 신호에 대한 성능을 향상시킨다. 포먼트 영역 검색 이후, 각 포먼트 영역의 평균 에너지와 해당 서브밴드의 에너지 비율을 이용하여 마스킹 임계값을 변화시킨다. 상대적으로 에너지가 큰 밴드에 대해서는 더 많은 양자화 노이즈가 허용되는 반면, 청각적으로 민감한 스펙트럴 밸리에서는 비트 할당을 높여 양자화 에러를 좀 더 줄인다. 이는 음성 부호화에서 널리 사용되는 지각 가중(perceptual weighting) 개념을 반영한 것이다. 객관적 음질 평가 결과, 제안한 알고리즘이 기존 방식에 비해 음성 신호에 대한 성능을 향상시킨다는 것을 확인하였다.

Keywords

References

  1. E. Zwicker and H. FastI, Psychoacoustics, Facts and Models, 2nd Updated ed. New York: Springer, 1999.
  2. J. D. Johnston, "Transform coding of audio signals using perceptual noise criteria," IEEE J. Select. Areas Commun., vol. 6, pp, 314-323, 1988. https://doi.org/10.1109/49.608
  3. M,Wolters, K. Kjorling, D. Homm, and H. Purnhagen, "A closer look into MPEG-4 High Efficiency MC," 115th AES Convention, New York, USA, Oct. 2003, preprint 5871.
  4. 3GPP TS 26,403 v7.0.0, Enhanced aacPlus general audio codec; Encoder specification; Advanced audio coding (AAC) part, June, 2006.
  5. C. H. Lee, H. O. Oh and H. G. Kang, "On the study of noise allocation for speech signal in low bit-rate audio coding," IEEE Signal Processing Letters, vol. 16, no. 10, pp. 849-852, 2009. https://doi.org/10.1109/LSP.2009.2025982
  6. M. R. Schroeder, B. S. Atal, and J. L. Hall, "Optimizing digital speech coders by exploiting masking properties of the human ear," J. Acoust. Soc. Amer., vol. 66, pp. 1647 - 1652, 1979. https://doi.org/10.1121/1.383662
  7. E. K. P. Chong and S. H. Zak, An Introduction to Optimization, Second ed. New York: Wiley, 2001.
  8. 3GPP TS 26,401 v6.2.0, Enhanced aacPlus general audio codec; General description, Mar., 2005.