A Perceptual Audio Coder Based on Temporal-Spectral Structure

시간-주파수 구조에 근거한 지각적 오디오 부호화기

  • Published : 1996.03.01

Abstract

In general, the high quality audio coding(HQAC) has the structure of the convertional data compression techniques combined with moodels of human perception. The primary auditory characteristic applied to HQAC is the masking effect in the spectral domain. Therefore spectral techniques such as the subband coding or the transform coding are widely used[1][2]. However no effort has yet been made to apply the temporal masking effect and temporal redundancy removing method in HQAC. The audio data compression method proposed in this paper eliminates statistical and perceptual redundancies in both temporal and spectral domain. Transformed audio signal is divided into packets, which consist of 6 frames. A packet contains 1536 samples($256{\times}6$) :nd redundancies in packet reside in both temporal and spectral domain. Both redundancies are elminated at the same time in each packet. The psychoacoustic model has been improved to give more delicate results by taking into account temporal masking as well as fine spectral masking. For quantization, each packet is divided into subblocks designed to have an analogy with the nonlinear critical bands and to reflect the temporal auditory characteristics. Consequently, high quality of reconstructed audio is conserved at low bit-rates.

일반적으로 고음질 오디오 부호화 방법은 전통적인 데이터 압축 기법과 인간의청각 모델을 결합한 구조를 갖고 있다. 고음질 오디오 부호화에 사용되는 주요한 청각 특성은 주파수 영역에서의 마스킹 현상이므로 서브밴드 부호화나 변환 부호화와 같은 주파수 영역 방법들이 널리 사용된다[1][2]. 그러나 지금까지의 고음질 오디오 부호화에서 시간 영역 마스킹과 시간 영역 중복성을 제거하는 방법은 적용되지 않았다. 본 논문에서 제안한 오디오 데이터 압축 방법은 시간 및 주파수 영역에서 통계적, 지각적 중복성을 제거한다. 주파수 영역으로 변환된 오디오 신호는 6프레임으로 구성된 패킷으로 나뉘어진다. 한 패킷은 1536 샘플 ($256{\times}6$)로 되어 있으며 패킷 내에서의 중복성은 시간 및 주파수 영역에서 존재한다. 각 패킷에서 두 중복성이 동시에 제거되어진다. 심리음향 모델에 있어서도 세밀한 주파수 마스킹과 함께 시간 영역 마스킹을 고려하여 보다 정확한 결과를 얻을 수 있도록 향상되었다. 양자화를 위해서 각 패킷은 비선형적인 임계 대역과 시간적인 청각 특성을 반영할 수 있도록 설계된 부블럭으로 분할되었다. 따라서 낮은 비트율에서 고음질의 복원음을 얻을 수 있었다.

Keywords