Enhancement of Super-wideband Coder by Considering Audio Feature in MDCT Domain

MDCT 도메인에서 오디오 신호 특징을 고려한 초광대역 코덱 개선

  • Received : 2011.03.23
  • Accepted : 2011.07.12
  • Published : 2011.09.25

Abstract

This paper presents the coding method that have multi-mode and efficiency of audio codecs using the feature of audio signal. Recently, the developed extension super-wideband codec based on G.718 wideband divides two mode between Generic and Sinusiodal. So codec efficently encode audio signal exist in super-wideband. But the codec is not as efficent coding for harmonic component of wind instrument and string instrument and individual-Line component of percussion instrument. The proposed method are modeling and encoding multiple pitch and individual-line feature using multi mode coding. For the performance evaluation, we used SNR in MDCT domain for objective test and MUSHRA test for subjective test. As a result, the performance of SNR and MUSHRA test of the proposed method have better performance than the G.718 super-wideband codec.

본 논문에서는 입력신호에 따라 효율적인 부호화를 위해 다중모드를 가지는 초광대역 부호화기를 제안하였다. 최근에 개발된 G.718기반의 초광대역 확장 코덱은 초광대역에 존재하는 오디오 신호를 부호화하기 위하여 Generic모드와 Sinusoidal모드로 신호를 분류하여 부호화 하지만, 현악기, 관현악기와 같은 오디오 신호에 존재하는 멀티플 피치 및 하모닉 성분과 타악기와 같은 오디오 신호에 존재하는 Individual-Line 성분을 효율적으로 부호화하지 못하였다. 제안하는 방법은 오디오 신호에 존재하는 하모닉과 Individual-Line성분의 특징을 고려하여 모드를 세분화하였다. 성능평가를 위하여 객관적인 평가로 MDCT 도메인에서 SNR을 이용하였으며 MUSHRA 테스트를 통해 주관적인 평가를 하였다. 실험 결과 제안한 방법은 기존의 G.718 초광대역 부호화기보다 Individual-Line신호 경우 약 3dB, 하모닉 신호의 경우 약 0.8dB 높은 SNR을 보였으며 MUSHRA 테스트 역시 평균 5점 음질 향상을 확인하였다.

Keywords

References

  1. P. Noll, "Wideband speech and audio coding," IEEE Comm. Maga., vol. 26, pp. 34-44, Nov. 1993.
  2. ETRI, "High-level Description of ETRI Candidate for G.722/G.711 SWB Extension", ITU-T WP3/SG16 AC-0907-Q10-08, Geneva, July. 2009.
  3. 성종모, 김현우, 김도영, 이병선, 고윤호, "ITU-T G.711.1 및 G.722 슈퍼와이드밴드 확장 후보 코덱 알고리즘," 전자공학논문지, 제47권 SP편 제5호, 63-73쪽, 2010.
  4. 김현우 외, "G.729.1 광대역 멀티코덱 표준 기술동향," 전자통신동향분석, 제21권 제6호, 77-85쪽, 2006.
  5. ETRI, "Trends of Speech-Based Audio Convergence Codec Technology", 전자통신동향분석, 제24권, 제5호, 10-19쪽, 2009
  6. M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," Proc. 112nd AES convention, May 2002.
  7. S. A. Ramprashad, "Embeded coding using a mixed speech and audio coding paradigm," International Jour. of speech tech., vol. 2, pp. 359-372, 1999. https://doi.org/10.1007/BF02108650
  8. Berd Geiser et al., "Candidate Proposal for ITU-T Super-wideband Speech and Audio coding", ICASSP 2009, pp.4121-4124, Apr. 2009.
  9. Purnhagen, H.(2000) "HILN - the MPEG-4 parametric audio coding tools", IEEE international Symposium, vol. 3, pp. 201-204.
  10. Duadet, L., M. Sandler,(2004), "MDCT Analysis of sunusoids : exact results and applications to coding artifacts reduction", IEEE Trans, vol. 12, pp. 302-312.
  11. ITU-T G.718, "Frame Error Robust Narrowband and Wideband Embedded Variable Bitrate Coding of Speech and Audio from 8-32kbit/s," 2008. 6.
  12. Recommendation BS.1534-1: Method for the subjective assessment of intermediate quality levels of coding systems, ITU (International Telecommunication Union), 2003.