음성신호의 특성을 고려한 패킷 손실 은닉 알고리즘

Packet Loss Concealment Algorithm Based on Speech Characteristics

  • 윤성완 (연세대학교 전기전자공학과 디지털신호처리 연구실) ;
  • 강홍구 (연세대학교 전기전자공학과 디지털신호처리 연구실) ;
  • 윤대희 (연세대학교 전기전자공학과 디지털신호처리 연구실)
  • 발행 : 2006.07.01

초록

VoIP(Voice over Internet Pratocol)와 같은 IP 네트워크망에서는 패킷 지연, 지터, 패킷 손실 등의 이유로 QoS(Quality of Service)를 보장받지 못하기 때문에, 패킷 손실을 은닉하는 방법에 대한 연구는 필수적이다. IP망에서 사용되는 대부분의 저전송률 음성부호화기는 자체적으로 패킷 손실 은닉(PLC: Packet Loss Concealment) 알고리즘을 사용하고 있지만, 예측 기법에 기반한 양자화 특성상 패킷 손실 이후에도 에러가 전파되는 문제가 있다. 또한, 손실된 패킷의 음성신호 특성을 고려하지 않고 과거 파라미터값을 반복시키는 기존 PLC 방법은 그 구현은 쉽지만 천이구간에서의 합성신호의 음질이 심각히 저하된다. 본 논문에서는 패킷 손실 환경에서 랩신호 특성에 따른 에러전파 영향을 정량적으로 분석하고 그 결과를 토대로 보간법 기반의 새로운 PLC 알고리즘을 제안한다. 제안한 알고리즘은 파라미터별로 음성신호의 특성을 고려해 선택적으로 보간법을 적용하고, 예측 필터의 메모리를 효과적으로 갱신한다. 성능평가 결과, 제안한 알고리즘은 VoIP에서 널리 사용되는 G.729 의 기존 PLC 알고리즘에 비해 다양한 FER 환경에서 성능이 향상되었다.

Despite of the in-depth effort to cantrol the variability in IP networks, quality of service (QoS) is still not guaranteed in the IP networks. Thus, it is necessary to deal with the audible artifacts caused by packet lasses. To overcame the packet loss problem, most speech coding standard have their own embedded packet loss concealment (PLC) algorithms which adapt extrapolation methods utilizing the dependency on adjacent frames. Since many low bit rate CELP coders use predictive schemes for increasing coding efficiency, however, error propagation occurs even if single packet is lost. In this paper, we propose an efficient PLC algorithm with consideration about the speech characteristics of lost frames. To design an efficient PLC algorithm, we perform several experiments on investigating the error propagation effect of lost frames of a predictive coder. And then, we summarize the impact of packet loss to the speech characteristics and analyze the importance of the encoded parameters depending on each speech classes. From the result of the experiments, we propose a new PLC algorithm that mainly focuses on reducing the error propagation time. Experimental results show that the performance is much higher than conventional extrapolation methods over various frame erasure rate (FER) conditions. Especially the difference is remarkable in high FER condition.

키워드

참고문헌

  1. B. W. Wah, et al, 'LSP-based multiple-description coding for real-time low bit-rate voice over IP,' IEEE Transaction on Multimedia, vol. 7, no. 1, pp. 167-178, Feb. 2005 https://doi.org/10.1109/TMM.2004.840593
  2. T. J. Kostas, et al, 'Real-time voice over packet-switched networks,' IEEE Network, vol. 12, no.1, pp. 18-27, Jan.-Feb. 1998 https://doi.org/10.1109/65.660003
  3. J. C. Bolot, et al, 'Adpative FEC-Based Error Control for Internet Telephony,' Proceeding INFOCOM 99, vol. 3, pp. 21-25, March 1999
  4. K. Cluver, et al, 'Reconstruction of missing speech frames using sub-band excitation,' in Proc. IEEE Int. Symp. Time-Frequency and Time-Scale Analysis, pp. 277-280, June 1996
  5. F. Mertz, et al, 'Voicing-controlled frame loss concealment for adaptive multi-rate (AMR) speech frames voice-over-IP,' in Proc. Eurospeech 2003, pp. 1077-1080, Sep., 2003
  6. M. K. Lee, et al, 'A Quality Assessment Method of Voice Communication using Packet Loss Information,' IEEE Transactions on Speech and Audio Processing, submitted Feb., 2006
  7. ITU-T Rec. 0.729, 'Coding of Speech at 8 kbit/s CS-ACELP Speech Coder,' 1996
  8. ITU-T Rec. P.862, 'Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,' Feb. 2001
  9. J. Rosenberg, 'G.729 Error Recovery for Internet Telephony,' Project Report, Columbia University, May 1997
  10. J. Wang, et al, 'Parameter interpolation to enhance the frame erasure robustness of CELP coders in packet networks,' in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, vol.2, pp. 745-748, May, 2001