2.4 kbps 하모닉-CELP 코더를 위한 웨이블렛 피치 검출기

Wavelet-based Pitch Detector for 2.4 kbps Harmonic-CELP Coder

  • 발행 : 2003.11.01

초록

본 논문은 2.4 kbps 하모닉-CELP 부호화기를 위한 피치 검출기의 설계 방법과 전이 시점을 검출하고 그 값을 기준으로 유/무성음 변환 구간에 대한 합성 윈도우를 달리하여 효과적인 파형 보간이 이루어지도록 하기 위한 방법을 제안하였다. 하모닉-CELP 부호화기에서 유성음 구간은 과거와 현재 프레임의 표준 파형을 보간하여 이루어지므로 전이 구간에서 피치 주기가 반으로 줄거나 두 배로 예측되어질 경우, 피치주기의 심한 변화량에 의해 파형 왜곡 및 프레임 경계에서의 불연속을 발생시킨다. 또한 하모닉 합성을 할 때 삼각 윈도우에 의한 중첩-합산 (overlap-add) 방법을 사용하기 때문에 전이 구간에서 유성음 구간의 신호가 순간적인 증가 (감소)를 할 경우 삼각 윈도우의 영향으로 합성 여기 신호가 선형 증가 (감소) 하는 단점이 있다. 우선 피치 검출기의 설계는 정확한 피치의 검출을 하되 피치 더블링에 의한 프레임 불연속성을 막기 위해 1차 혼성 검색법을 사용하였으며, ACF에 의한 2차 검색으로 피치의 정확도를 높였다. 그리고 삼각 윈도우에 의해 합성 파형이 선형 증가하던 문제는 웨이블렛에 의해 검출된 GCI를 이용하여 전이 시점을 검출한 후, 그 값을 기준으로 사다리꼴 윈도우 설정을 하여 해결하였다. 실험 결과 파형 보간 코더에서 가장 문제가 되었던 피치 더블링이 사라졌으며, 피치 검색 오차율은 ACF 검출법에 비해 5.4% 개선되었고 웨이블렛에 의한 검출법에 비해 2.66% 개선되었다. 전이 구간에서의 MOS값은 0.13 향상되었다.

This paper presents the methods that design the Wavelet-based pitch detector for 2,4 kbps Harmonic-CELP Coder, and that achieve the effective waveform interpolation by decision window shape of the transition region, Waveform interpolation coder operates by encoding one pitch-period-sized segment, a prototype segment, of speech for each frame, generate the smooth waveform interpolation between the prototype segments for voiced frame, But, harmonic synthesis of the prototype waveforms between previous frame and current frame occur not only waveform errors but also discontinuity at frame boundary on that case of pitch halving or doubling, In addtion, in transition region since waveform interpolation coder synthesizes the excitation waveform by using overlap-add with triangularity window, therefore, Harmonic-CELP fail to model the instantaneous increasing speech and synthesis waveform linearly increases, First of all, in order to detect the precise pitch period, we use the hybrid 1st pitch detector, and increse the precision by using 2nd ACF-pitch detector, Next, in order to modify excitation window, we detect the onset, offset of frame by GCI, As the result, pitch doubling is removed and pitch error rate is decreased 5.4% in comparison with ACF, and is decreased 2,66% in comparison with wavelet detector, MOS test improve 0.13 at transition region.

키워드

참고문헌

  1. A. McCree, K. Truong, E. George, T. Barnwell, and V. Viswanathan, 'A 2.4 kbit/s coder candidate for the new U.S. tederal standard,' Proc, IEEE International Conference on Acoustics, Speech and Signal Processing, 200-203, Atlanta, 1996
  2. D. W. Griffin and J. S. Lim, 'Multiband excitation vocoder,' IEEE Trans. Acoust., Speech, Signal Processing, 36 (8), 1223-1235, 1988 https://doi.org/10.1109/29.1651
  3. R. J. McAulay and T. F. Quatieri, 'The application of subband coding to improve quality and robustness of the sinusoidal transform coder,' Proc. ICASSP 93, 2, 439-442, 1993
  4. W. B. Kleijn and J. Haagen, 'A speech coder based on decomposition of characteristic waveforms,' Proc. ICASSP 95, 508-511, 1995
  5. K. A. Teague, B. Leach, and W. Andrews, 'Development of a high-quality MBE based vocoder for implementation at 2400 bps,' Proc. IEEE Wichita Cont. Communications, Networking and Signal Processing, 129-133, April 1994
  6. H. Hassanein, A. Brind Amour, S. Dry, and K. Bryden, 'Frequency selective harmonic coding at 2400 bps,' Proc. 37th Midwest Symp, Circuits and Systems, 2, 1436-1439, 1995
  7. W. B. Kleijn, 'Encoding speech using prototype waveforms,' IEEE Trans. Speech Audio Processing, 1, 386-399, Oct. 1993 https://doi.org/10.1109/89.242484
  8. K. Yaghmaie and A. M. Kondoz, 'Multiband prototype waveform analysis synthesis for very low bitrate speech coding,' Proc. ICASSP97, 1571-1574, 1997
  9. D. J. Hiotakakos and C. S. Xydeas, 'Low bit rate coding using an inter-polated zinc excitation model', Proc. ICCS 94, 865-869, 1994
  10. E. Shlomot, V. Cuperman, and A. Gersho, 'Combined harmonic and waveform coding of speech at low bit rate,' Proc, ICASSP 98, 585-588, 1998
  11. J. Stachurski, A. McCree, V. Viswanathan, A. Heikkinen, A. Ramo, S. Himanen, and P. Blocher, 'HYBRID MELP/CELP coding at bit rates from 6,4 TO 2,4 kb/s', DSP Solutions R&D Center, Texas Instruments, Dallas, Texas, USA, 2003
  12. S. Mallat, W. L. Hwang, 'Singularity detection and processing with wavelets,' IEEE trans. on IT, 38 (2), 617- 643, 1992 https://doi.org/10.1109/18.119727
  13. S. Mallat and S. Zhong, Characterization of signals from multiscale edges, IEEE Trans. Pattern Anal. Machine lntell., 14, 710-732, July 1992 https://doi.org/10.1109/34.142909
  14. 손영호, 배건성, '웨이블렛 변환을 이용한 유성음/무성음/묵음분류,' 음성통신 및 신호처리 워크샵 논문집, 449-453, 1998
  15. S. Kadambe and G. F. Boudreux-Barlels, 'Application of the wavelet transform for Pitch detection of Speech Signal,' IEEE Trans Information Theory, 38 (2), Mar. 1992
  16. A. M. Kondoz, 'Code excited linear predictive coding,' Digital Speech, Chap. 6, 174-212, 1994
  17. ITU-T Recomendation G.729, 'Coding of speech at 8kbps using conjugate-structure algebraic code excited linear prediction (CS-ACELP),' June 1995
  18. F. C. A. Brooks, and Lajos Hanzo, 'A multiband excited waveform interpolated 2.35kbps speech codec for bandlimited channels,' IEEE Trans on VT, 49 (3), May 2000
  19. 김종학, 이인성, '하모닉 코딩과 CELP방법을 이용한 저 전송률 음성 부호화 방법 Low Rate Speech Coding Using the Harmonic Coding Combined with CELP Coding,' 한국음향학회지 THE JOURNAL OF THE ACOUSTICAL SOCIETY OF KOREA, 19 (3), 26-34, 1225-4428, 2000