DOI QR코드

DOI QR Code

A Fast Normalized Cross-Correlation Computation for WSOLA-based Speech Time-Scale Modification

WSOLA 기반의 음성 시간축 변환을 위한 고속의 정규상호상관도 계산

  • Lim, Sangjun (Department of Electronics Eng., Pusan National University) ;
  • Kim, Hyung Soon (Department of Electronics Eng., Pusan National University)
  • 임상준 (부산대학교 전자전기공학과) ;
  • 김형순 (부산대학교 전자전기공학과)
  • Received : 2011.12.28
  • Accepted : 2012.08.04
  • Published : 2012.10.31

Abstract

The overlap-add technique based on waveform similarity (WSOLA) method is known to be an efficient high-quality algorithm for time scaling of speech signal. The computational load of WSOLA is concentrated on the repeated normalized cross-correlation (NCC) calculation to evaluate the similarity between two signal waveforms. To reduce the computational complexity of WSOLA, this paper proposes a fast NCC computation method, in which NCC is obtained through pre-calculated sum tables to eliminate redundancy of repeated NCC calculations in the adjacent regions. While the denominator part of NCC has much redundancy irrespective of the time-scale factor, the numerator part of NCC has less redundancy and the amount of redundancy is dependent on both the time-scale factor and optimal shift value, thereby requiring more sophisticated algorithm for fast computation. The simulation results show that the proposed method reduces about 40%, 47% and 52% of the WSOLA execution time for the time-scale compression, 2 and 3 times time-scale expansions, respectively, while maintaining exactly the same speech quality of the conventional WSOLA.

WSOLA 방식은 음성 신호의 시간축 변환을 위한 고음질의 효율적인 알고리즘으로 알려져 있다. WSOLA의 계산량은 두 신호 파형 사이의 유사도를 평가하는 반복적인 정규상호상관도 계산에 집중되어 있다. 본 논문은 WSOLA 계산량 감축을 위해 고속의 정규상호상관도 계산 방법을 제안하며, 제안된 방법에서는 미리 계산된 합 테이블을 통해 인접한 구간에서의 반복적인 정규상호상관도 계산의 중복성을 제거한다. 정규상호상관도의 분모 부분은 시간축 변환 비율에 관계없이 높은 중복성을 가지는데 반해, 분자 부분은 보다 낮은 중복성을 가지며 중복 정도가 시간축 변환 비율과 최적 이동값에 의해 영향을 받기 때문에 고속 계산을 위해 보다 복잡한 알고리즘이 요구된다. 시뮬레이션 결과, 제안된 방법이 기존의 WSOLA와 완전히 동일한 음질을 유지하면서도 시간축 압축의 경우 약 40%, 그리고 1/2배속 및 1/3배속으로의 시간축 신장의 경우 각각 약 47% 및 52%의 실행시간을 감소시킴을 보인다.

Keywords

References

  1. S. Roucos and A. M. Wilgus, "High quality time-scale modification for speech," in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP), Tampa, FL, pp. 493-496, 1985.
  2. W. Verhelst and M. Roelands, "An overlap-add technique based on waveform similarity (WSOLA) for high quality time-scale modification of speech," in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP), Minneapolis, MN, pp. 554-557, 1993.
  3. E. Moulines and F. Charpentier, "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones," Speech Commun., vol. 9, no. 5-6, pp. 453-467, 1990. https://doi.org/10.1016/0167-6393(90)90021-Z
  4. D. S. Kim, Y. H. Lee, H. K. Kim, S. H. Choi, J. W. Kim, M. B. Kim, "Complexity reduction of WSOLAbased time-scale modification using signal period estimation," Communications in Computer and Information Science, vol. 120, pp. 155-161, 2010. https://doi.org/10.1007/978-3-642-17604-3_17
  5. J. Luo and E. E. Konofagou, "A fast normalized cross-correlation calculation method for motion estimation," IEEE Trans. Ultrasonics, Ferroelectrics and Frequency Control, vol. 57, no. 6, pp. 1347-1357, 2010. https://doi.org/10.1109/TUFFC.2010.1554
  6. 임상준, 정용원, 김형순 "WSOLA 기반의 음속 변환을 위한 고속의 정규상호상관도 계산," 2011 한국음성학회 가을 학술대회 발표논문집, 85-86쪽, 2011.
  7. D. W. Griffin and J. S. Lim, "Signal estimation from modified short-time Fourier transform," IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-32, no. 2, pp. 236-243, Apr. 1984.
  8. S. Grotit, Y. Lavner, Time-scale modification of audio signals using enhanced WSOLA with management of transients, IEEE Trans. on Audio, Speech, and Language Processing, vol. 16, no. 1, pp. 106-115, Jan. 2008. https://doi.org/10.1109/TASL.2007.909444