Abstract
In this paper, a new temporal decomposition method is proposed. where not oniy distortion but also entropy are involved in segmentation. The interpolation functions and the target feature vectors are determined by a dynamic Programing technique. where both distortion and entropy are simultaneously minimized. The interpolation functions are built by using a training speech corpus. An iterative method. where segmentation and estimation are iteratively performed. finds the locally optimum Points in the sense of minimizing both distortion and entropy. Simulation results -3how that in terms of both distortion and entropy. the Proposed temporal decomposition method Produced superior results to the conventional split vector-quantization method which is widely employed in the current speech coding methods. According to the results from the subjective listening test, the Proposed method reveals superior Performance in terms of qualify. comparing to the Previous vector quantization method.
본 논문에서는 음성 신호를 시간축으로 분할하는 새로운 기법으로, 분할 시 왜곡과 엔트로피가 함께 고려된 기법이 제안되었다 시간축 분할에 필요한 보간 함수와 타겟 특징 벡터는 동적 프로그래밍 기법을 이용하여 왜곡과 엔트로피가 동시에 최소화되도록 얻어진다. 보간 함수는 학습 데이터를 이용하여 구성되도록 하였으며, 분할과 추정의 반복적인 수행에 의해 왜곡과 엔트로피가 지역적으로 최소화 되는 지점에서 설계되도록 하였다. 모의 실험에서 제안된 시간축 분할 기법은 현존 음성 부호화 기법에 널리 사용되고 있는 분할 벡터 양자화 기법과 비교하여, 왜곡-비트율 특성 관점에서 보다 우수한 성능을 나타내었으며, 주관적인 청취 테스트 결과, 음질적인 면에서도 기존의 벡터 양자화 기법에 비해 우수한 방법임을 알 수 있었다.