분산 음성 인식 시스템을 위한 특징 계수 양자화 방식 설계

Design of a Quantization Algorithm of the Speech Feature Parameters for the Distributed Speech Recognition

  • 이준석 (한양대학교 전자컴퓨터공학부) ;
  • 윤병식 (한양대학교 전자전기제어계측공학과 대학원) ;
  • 강상원 (한양대학교 전자컴퓨터공학부)
  • 발행 : 2005.05.01

초록

본 논문에서는 분산 음성 인식 시스템에서 사용되는 멜켑스트럼 계수를 양자화 하기 위하여 예측 구조를 갖는 BC-TCQ 양자화기를 제안하였다. 분산 음성 인식 시스템을 위한 효율적인 멜켑스트럼 계수 양자화기를 설계하기 위하여, 인접 프레임간의 높은 상관도를 이용한 1차 AR 예측 필터를 적용하였다. 그리고 예측 필터에 의해서 구해지는 예측 에러 벡터는 BC-TCQ를 사용하여 양자화를 수행하였다. 본 연구에서 제안된 예측 BC-TCQ멜켑스트럼 계수 양자화기는 분산 음성 인식 시스템을 위해 ETSI 규격에서 사용되는 split VQ 멜켑스트럼 계수 양자화 방식보다 cepstral distortion (CD) 측면에서 훨씬 좋은 성능을 보이며, 인코딩 연산 복잡도 및 메모리 요구량에서도 더 유리하다.

In this paper, we propose a predictive block constrained trellis coded quantization (BC-TCQ) to quantize cepstral coefficients for the distributed speech recognition. For Prediction of the cepstral coefficients. the 1st order auto-regressive (AR) predictor is used. To quantize the prediction error signal effectively. we use a BC-TCQ. The performance is compared to the split vector quantizers used in the ETSI standard, demonstrating reduction in the cepstral distance and computational complexity.

키워드

참고문헌

  1. M. W. Marcellin, and T. R. Fischer, 'Trellis coded quantization of memoryless and Gauss-Markov sources,' IEEE Trans. Communications, 38, issue 1, 82-93, Jan. 1990 https://doi.org/10.1109/26.46532
  2. G. D. Forney Jr., 'The Viterbi algorithm,' Proc. IEEE, 61, 268-278, Mar. 1973
  3. S. Nikneshan and A. K. Khandani, 'Soft Decision Decoding of Fixed Rate Entropy Constrained Quantizer over a Noisy Channel,' 20th Biennial Symposium on Communications, 116-118, Kingston, ON, May 28-May 31, 2000
  4. S. Kang, Y. Shin, and T.R. Fischer, 'Low-complexity predictive trellis coded quantization of speech line spectral frequencies,' IEEE Trans. Signal Processing, 52 (7), 2070-2079, July 2004 https://doi.org/10.1109/TSP.2004.828916
  5. Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 (V1.1.2), April 2000
  6. R. F. Kubichk, 'Mel-Cepstral Distance measure for objective speech quality assessment,' Communications, Computers and Signal Processing, IEEE Pacific Rim Conf, 1, 125 - 128, May 1993
  7. N. S. Jayant, 'Digital Coding of Waveforms; Principles and Applications to Speech and Video,' Prentice Hall Signal Processing Series, Academic Press, 524-532, 1984