DOI QR코드

DOI QR Code

Enhancement of SBR for Speech Signal Using Adaptive Noise Floor Level

가변 잡음 레벨을 이용한 음성신호에 대한 SBR 성능 항상 기술

  • 이세원 (광운대학교 전자공학과) ;
  • 오승준 (광운대학교 전자공학과) ;
  • 안창범 (광운대학교 전자공학과) ;
  • 이태진 (한국전자통신연구원 방통미디어연구부) ;
  • 강경옥 (한국전자통신연구원 방통미디어연구부) ;
  • 박호종 (광운대학교 전자공학과)
  • Published : 2009.02.28

Abstract

In audio coding, SBR technology synthesizes the high-bands using patched time-frequency information from low-bands and the correction parameters, Since SBR transmits only correction parameters for high-bands, it provides a low-rate coding of high-bands, and is used as a core module of MPEG-4 HE-AAC, SBR was originally designed for audio signal and its performance for speech signal tends to decrease, and the major reason is an excessive noise floor in high-bands which is caused by incorrect tonality computation, In this paper, a new method to determine noise floor level in an adaptive fashion according to the speech characteristics is proposed in order to solve the problem of SBR for speech signal, The proposed method maintains the compatibility with the standard SBR, and the subjective performance evaluation shows that the proposed method improves the SBR performance especially for male speech signal compared with the standard SBR.

오디오 부호화 기술에서 SBR은 고대역의 시판-주파수 정보를 저대역으로부터 구하고 보정 파라미터를 이용하여 고대역 정보를 보정하여 고대역 신호를 합성하는 기술이다. SBR은 고대역 정보의 부호화를 위하여 보정 파라미터만 전달하므로 매우 적은 비트로 오디오 신호를 압축할 수 있도록 하며, MPEG-4 HE-AAC의 핵심 모듈로 사용되고 있다. SBR은 원래 오디오 신호를 기반으로 개발되었기 때문에 음성 입력에 대하여 성능이 저하되는 문제점을 가지며, 성능 저하의 대표적인 이유는 톤 성질이 부정확하게 계산되어 잡음 레벨이 높게 설정되고 복원된 고대역 정좌에 과도한 잡음이 포함되기 때문이다. 본 논문에서는 음성 신호에 대한 SBR 성능 저하 문제를 해결하기 위하여 잡음 레벨을 입력 음성 신호의 특성에 맞게 가변적으로 적용하는 기술을 제안한다. 제안하는 SBR은 기존의 SBR과 호환성을 유지하며, 주관적 평가를 통하여 기존 SBR에 비하여 남성 음성에 대한 성능이 향상된 것을 확인하였다.

Keywords

References

  1. ISO/IEC 14496-3, "Coding of Audio-Visual Objects - Part 3 : Audio, Subpart 4 : General Audio Coding - AAC, TwinVQ, BSAC," 2001
  2. 3GPP TS 26.290, “Extended AMR Wideband Codec; Trans-coding Function,” 2002
  3. ISO/lEC 14496-3, AMD. 1, “Bandwidth Extension,” 2003
  4. 3GPP TS 26.404, "Enhanced aacPlus General Audio Codec : Encoder Specification SBR Part," 2004
  5. ITU-T G.729.1, "G.729 based Embedded Variable Bit-Rate Coder: An 32kbit/s Scalable Wideband Coder Bitstream Inter-operable with G.729," 2006
  6. M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, “Spectral band replication, a novel approach in audio coding,” proc. 112th AES Convention, May, 2002
  7. 3GPP TS 26.410, "Enhanced aacPlus General Audio Codec Foating-point ANSI C Code," 2006