A Study on Real-time Implementing of Time-Scale Modification

음성 신호 시간축 변환의 실시간 구현에 관한 연구

  • Published : 1995.04.01

Abstract

A time scale modification method yielding rate-modified speech while conserving the characteristic of speech was implemented in real-time using a goneral purpose digital signal processor. Time scale modification changed pronunciation speed only, producing a time difference between the input signal and the modified signal, making it impossible to implement it in real-time. In this thesis, a system was implemented to remove the time difference between the input and modified signals. Speech signals slowed down or speeded up by a physical time scale modification method, such as adjusting the motor speed of the cassett tape recorder, was used as the input signal. Physical modification that controled only the inter speed of the cassette tape player distorted the pitch period of the original speech. In this study, a real-time system was implemented so that the pitch-distorted speech was reconstructed back to the original by fractional sampling pitch shifting using an FIR filter, and this signal was time scale modified to match the cassette tape recorder motor speed using SOLA time-scale medification. In experiments using speech signals medifiedby the proposed method, results obtained using a 16-bit resolution ADSP2101 processor and using computer simulations employing floating point operations showed about the same average frame signal-to-noise ratio of about 20 dB.

본 논문에서는 음성 신호가 가지고 있는 중요한 특성을 유지하면서 발음 속도만을 변화시키는 시간축 변환 방법을 범용 디지탈 신호 처리 프로세서를 이용하여 실시간으로 구현하였다. 음성 신호 시간축 변환은 음성 신호의 발음 속도만을 변화시키기 때문에, 입력 신호와 변환 신호간의 시간적 차이가 발생하여 실시간 처리가 불가능하다. 본 논문에서는 이러한 입력, 변환 신호간의 시간차를 해결하기 위해서, 카세트 테이프 레코더의 모터 회전 속도를 조절하는 것과 같은 물리적 시간축 변환으로, 입력 음성 신호를 느리게 또는 빠르게 변환시켜 그 신호를 실시간 시스템의 입력으로 사용하였다. 카세트 레코더의 주행 속도만을 조절하는 물리적 변환은 원 신호의 피치 정보를 왜곡시켜, 원 음성의 특성을 변화시키기 때문에, 본 연구에서는 FIR 필터를 이용한 피치 보정 기법으로 왜곡된 신호를 원신호로 복원한 후, SOLA 시간축 변환 방법을 이용하여, 복원된 신호를 카세트 레코더의 모터 속도에 맞추어 시간축으로 변환하는 시스템을 실시간으로 구현하였다. 구현된 알고리듬으로 음성 신호를 시간축으로 변환하는 실험에서, 16비트 해상도를 가진 ADSP2101 프로세서로 구현한 결과와 컴퓨터 시뮬레이션 결과를 비교할 때 평균 구간 신호 대 오차비가 대략 20dB로 두 결과가 거의 유사함을 알 수 있었다.

Keywords