A New MPEG Reference Model for Unified Speech and Audio Coding

통합 음성/오디오 부호화를 위한 새로운 MPEG 참조 모델

  • Song, Jeong-Ook (School of Electrical and Electronic Engineering, Yonsei University) ;
  • Oh, Hyen-O (LG electronics Inc.) ;
  • Kang, Hong-Goo (School of Electrical and Electronic Engineering, Yonsei University)
  • Received : 2010.07.05
  • Published : 2010.09.25

Abstract

Speech and audio codecs have been developed based on different type of coding technologies since they have different characteristics of signal and applications. In harmony with a convergence between broadcasting and telecommunication system, international organizations for standardization such as 3GPP and ISO/IEC MPEG have tried to compress and transmit multimedia signals using unified codecs. MPEG recently initiated an activity to standardize the USAC (Unified speech and audio coding). However, USAC RM (Reference model) software has been problematic since it has a complex hierarchy, many useless source codes and poor quality of the encoder. To solve these problems, this paper introduces a new RM software designed with an open source paradigm. It was presented at the MPEG meeting in April, 2010 and the source code was released in June.

음성 및 오디오 코덱은 각 신호의 특성 및 응용 분야가 다르기 때문에 오랜 기간 동안 각기 다른 부호화 방법을 기반으로 개발되고 발전되어 왔다. 최근 방송 및 통신 시스템이 융합되는 흐름에 발맞추어 3GPP 및 ISO/IEC MPEG 등의 표준화 기관에서는 두 신호를 하나의 통합 코덱을 이용하여 압축 전송하기 위한 노력을 지속해 왔다. 그 일환으로 MPEG에서는 그 간의 표준화된 기술들을 통합하고, 다양한 주관적 음질 평가 결과를 기반으로 USAC (Unified speech and audio coding)이라고 불리는 코덱의 표준화를 진행 중이다. 그러나 USAC RM (Reference model) 소프트웨어의 구조적인 복잡성, 사용되지 않는 수많은 모듈로 인한 용량의 비대함, 그리고 부호화기의 열악한 성능 등으로 인하여 기존 RM을 개선하고자 하는 필요성이 지속적으로 제기되었다. 본 논문에서는 USAC에 포함된 주요 기술을 설명하고, 이러한 문제를 최소화하기 위해 오픈 소스 기반으로 새롭게 설계된 RM 소프트웨어를 제안한다. 이는 2010년 4월 MPEG 회의에서 발표되었으며, 6월 모든 참여 기관을 위해 소스코드가 공개되었다.

Keywords

References

  1. 3GPP, "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; General description," 2002, 3GPP TS 26.171.
  2. 3GPP, "Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions," 2004, 3GPP TS 26.290.
  3. ISO/IEC 14496-3:2009, "Coding of Audio-Visual Objects, Part 3: Audio," 2009.
  4. ISO/IEC JTC1/SC29/WG11, "Call for Proposals on Unified Speech and Audio Coding," Shenzhen, China, Oct. 2007, MPEG2007/N9519.
  5. ISO/IEC JTC1/SC29/WG11, "WD7 of USAC," Max Neuendorf, 2010.
  6. Max Neuendorf et al., "A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM0," in 126th AES Convention, Munchen, Germany, May 2009.
  7. M. Schroeder and B. Atal, "Code-excited linear prediction(celp):High-quality speech at very low bit rates," in Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 937n940, 1984.
  8. ISO/IEC JTC1/SC29/WG11 (MPEG), Document N11042, "Workplan on MPEG USAC Reference Encoder", 90th MPEG Meeting, Xi'an, China, October 2009
  9. ISO/IEC JTC1/SC29/WG11 (MPEG), Document M17571, "Yonsei-LG Contribution to USAC Reference Software ", 92th MPEG Meeting, Dresden, Germany, April 2010
  10. Bernd Edler, Sascha Disch, Stefan Bayer, GuillaumeFuchs, and Ralf Geiger, "A Time-Warped MDCT Approach to Speech Transform Coding," in 126th AES Convention, Munchen, Germany, May 2009.
  11. USAC SVN repository : http://wg11.sc29.org/svn/repos/MPEG-D/trunk/USAC/
  12. JAME SVN repository : http://wg11.sc29.org/svn/repos/MPEG-D/branches/JAME
  13. E.zwicker H.Fastl, "psychoacoustics," Springer, pp. 60, 1990.