Wideband Speech Coding Algorithm with Application of Wavelet Transform

웨이브렛 변환을 적용한 광대역 음성부호화 알고리즘

  • 이승원 (경북대학교 전자.전기공학부) ;
  • 배건성 (경북대학교 전자.전기공학부)
  • Published : 2002.07.01

Abstract

Wideband speech, characterized by a bandwidth of 50∼7000 ㎐, sounds more natural and intelligible, and is less tiring to listen to when compared to narrowband speech characterized by a bandwidth of 300∼3400 ㎐. Wideband speech coders, however, have not been as successful as the narrowband speech coders because of their higher bit rate. In this paper, we propose a new wideband speech coder which combines the European standard of a narrowband speech coder, i.e., GSM-EFR, and a transform coder using the discrete wavelet transform. The proposed wideband speech coder operates as follows input speech is first split into two subbands with equal bandwidth and the two subband signals are coded and decoded by each subband coder. A GSM-EFR is adopted as a lower subband coder and a subband coder with wavelet transformed speech is designed for a upper subband coder. The total bit rate of the proposed coder is 18.9kbps (12.2 kbps for lower band coder and 6.7 kbps for upper band coder), and informal listening test results have shown that the proposed coder has comparable speech quality to that of G.722 with 56 kbps.

협대역 음성부호화기에 비해 훨씬 우수한 합성음의 음질을 보이는 광대역 음성부호화기는 상대적으로 높은 전송률을 가져서 협대역 음성부호화기에 비해 사용범위가 제한되었다. 광대역 음성부호화기에서 이러한 전송 속도를 협대역 음성부호화기와 비슷한 수준으로 낮출 수 있다면, 보다 나은 음질의 음성 통신 시스템을 구현할 수 있을 것이다. 본 논문에서는 16㎑로 샘플링 된 입력 음성신호를 동일한 대역폭을 갖는 두부대역으로 분리하여, 저대역 부호화에는 유럽의 이동통신 표준안인 GSM-EFR 협대역 음성부호화기를 적용하고, 고대역 부호화에는 웨이브렛 변환을 이용하여 고안한 부대역 음성부화기를 적용한 광대역 음성부화기를 제안하였다. 제안한 음성부호화기는 저대역 신호와 고대역 신호의 부호화에 각각 12.2 kbps, 6.7 kbps의 전송 속도를 할당하여 18.9 kbps의 전송속도를 가지며, 합성음의 음질은 56 kbps의 전송속도를 갖는 G.722음성부호화기의 합성음과 비슷한 음질을 유지하였다.

Keywords

References

  1. IEEE Journal on Selected Areas in Commun 7 kHz Audio Coding within 64 kbits/s X.Maitre
  2. IEEE Commun G.722, a new ccitt coding standard for digital transmission of wideband audio signals P.Mermelstein
  3. SO/JTC draft : Information Technology-Coding of Audiovisual Objects, Part3 Audio, Subpart3 CELP
  4. ETSI Draft Tdoc S4/SMG11 (00)00167, AMR Wideband Development Overview (WB-1)
  5. Introduction to Data Compression(2nd ed.) K.Sayood
  6. ETSI Draft ETSI 300 726, Enhanced Full Rate (EFR) Speech Transcoding
  7. IEEE Signal Processing Mag. Wavelet and signal processing O.Rioul;M.Vetterli
  8. 한국음향학회지 v.19 no.5 웨이브렛 변환을 이용한 음성신호의 잡음 제거 한미경;배건성
  9. IEEE Trans. on Commun. v.COM28 An algorithm for vector quantization design Y.Linde;A.Buzo;R.M.Gray
  10. Objective Measures of Speech Quality S.R.Quackenbush;T.P.Barnwell;M.A.Clements