Time-Scale Modification of Polyphonic Audio Signals Using Sinusoidal Modeling

정현파 모델링을 이용한 폴리포닉 오디오 신호의 시간축 변화

  • Published : 2001.02.01

Abstract

This paper proposes a method of time-scale modification of polyphonic audio signals based on a sinusoidal model. The signals are modeled with sinusoidal component and noise component. A multiresolution filter bank is designed which splits the input signal into six octave-spaced subbands without aliasing and sinusoidal modeling is applied to each subband signal. To alleviate smearing of transients in time-scale modification a dynamic segmentation method is applied to subbands which determines the analysis-synthesis frame size adaptively to fit time-frequency characteristics of the subband signal. For extracting sinusoidal components and calculating their parameters matching pursuit algorithm is applied to each analysis frame of subband signal. In accordance with spectrum analysis a psychoacoustic model implementing the effect of frequency masking is incorporated with matching pursuit to provide a resonable stop condition of iteration and reduce the number of sinusoids. The noise component obtained by subtracting the synthesized signal with sinusoidal components from the original signal is modeled by line-segment model of short time spectrum envelope. For various polyphonic audio signals the result of simulation shows suggested sinusoidal modeling can synthesize original signal without loss of perceptual quality and do more robust and high quality time-scale modification for large scale factor because of representing transients without any perceptual loss.

본 논문에서는 폴리포닉 음과 같은 복잡한 스펙트럼을 갖는 오디오 신호를 정현파 성분으로 모델링하고, 이를 바탕으로 고음질의 시간축 변화된 음을 얻는 방법을 제안한다. 입력 신호는 옥타브 밴드 구조의 다중 해상도 필터 뱅크를 통과하고 여기에서 나온 각 서브밴드 신호로부터 정현파 성분이 축출된다. 서브밴드 신호의 정현파 분석시 정현파 성분을 추출하는 구간의 크기를 국지적인 신호의 특성에 따라 다르게 해 주는 동적 세그멘테이션 방법을 적용한다. 이렇게 함으로써 기존 정현파 모델링에서 신호의 천이 구간에서 발생하는 퍼짐 현상을 개선하고, 시간축 변화 시에도 원래 음에 가까운 음질을 얻을 수 있다. 정현파 분석을 위한 스펙트럼 분석 도구로는 심리 음향 모델을 적용한 matching pursuit을 사용함으로써 정현파 성분의 갯수를 줄이고, matching pursuit의 반복 과정에 대한 합리적인 정지 조건을 제공할 수 있다. 정현파 성분으로 표현하기 어려운 신호의 잡음 성분은 원래 신호에서 정현파 성분으로 합성된 신호를 뺀 것으로 얻을 수 있으며, 스펙트럼 포락선 근사화 방법으로써 모델링된다. 본 논문의 알고리즘을 적용해 다양한 폴리포닉 음에 대해 실험한 결과 제안한 정현파 모델링 방법이 원래 신호의 음질을 잘 복원할 수 있고, 시간축 변화율이 큰 경우에도 신호의 천이 구간을 잘 표현할 수 있음을 확인하였다.

Keywords

References

  1. IEEE Trans. on Acoust., Speech and Signal Processing v.34 no.4 Speech analysis/synthesis based on a sinusoidal representation R.J. McAulay;T.F. Quatieri
  2. IEEE Trans. on Acoust., Speech and Signal Processing v.34 no.6 Speech transformations based on a sinusoidal representation T.F. Quatieri;R.J. McAulay
  3. IEEE Trans. on Acoust., Speech and Audio Processing v.5 no.5 Smith, Speech analysis/synthesis and modification using an analysis-by-synthesis/overlap-add sinusoidal model E.B. George;M.J.T
  4. Ph. D thesis, Stanford University A system for sound analysis/tranformation/synthesis based om a deterministic plus stochastic decomposition X. Serra
  5. Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing T. Chen, and S. Takagi, Time-sacle modification of audio signal with combined harmonic and wavelet representations K. N. Hamdy;A.H. Tewfik
  6. Ph. D thesis, Stanford University Audio representations for data compression and compressed domain processing S.N. Levine
  7. Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing Multiresolution sinusoidal modeling using adaptive segmentation M. Goodwin
  8. 한국음향학회지 v.19 no.4 동적 세그멘테이션을 이용한 폴리포닉 오디오 신호의 정현파 모델링 장호근;박주성
  9. IEEE Trans. on Signal Processing v.41 no.12 Matching Pursuit with time-frequency dictionaries S.G. Mallat;Z. Zhang
  10. Adaptive Signal Models M. Goodwin
  11. Advanced Audio Coding ISO/IEC13818-7:Information technology-generic coding of moving pictures and associated audio information-part 7
  12. Proc. of IEEE Workshop Appl. of Signal Processing to Audio and Acoustics Phase-locked vocoder M. Puckette
  13. Proc. of IEEE Workshop Appl. of Signal Processing to Audio and Acoustics Phase vocoder: About this phasiness business J. Laroche;M. Dolson
  14. Proc. IEEE Int Conf Acoustics, Speech and Signal Processing An analysis/synthesis tool for transient signals that allows a flexible sines+transients+noise model for audio T.S. Verma;T.H.Y. Meng
  15. 한국음향학회지 v.17 no.3 사운드 합성을 위한 DSP의 설계 및 검증 장호근;권민도;박주성