Abstract
In this paper. experiments are conducted to extract a set of non-Parametric warping functions to examine the characteristics of the warping among speakers' utterances. For this Purpose. we made use of MFCC and LP spectra of vowels in choosing reference spectrum of each vowel as well as representative spectra of each speaker. These spectra are compared by DTW to give the warping functions of each speaker. The set of warping functions are then defined by clustering the warping functions of all the speakers. Noting that male and female warping functions have shapes similar to Piecewise linear function and Power function respectively, a new hybrid set of warping functions is defined. The effectiveness of the extracted warping functions are evaluated by conducting phone level recognition experiments, and improvements in accuracy rate are observed in both warping functions.
화자들 사이의 워핑특성을 알아보기 위해 비정형 워핑함수를 도출하는 실험을 수행하였다. 이를 위해 모음의 MFCC와 LP 스펙트럼을 이용하여 화자별, 음소별 대표 스펙트럼을 선정한 다음 음소별 기준 스펙트럼을 선택하였다. 기준 스펙트럼과 대표 스펙트럼을 스펙트럼의 전체대역에서 DTW로 비교하여 화자별 워핑함수를 구한 다음, 이들을 clustering함으로써 비정형 워핑함수의 집합을 도출하였다. 이 함수집합에서 남성화자와 여성화자의 함수들이 각각 구간선형함수와 파워함수와 유사함을 관찰할 수 있었으며, 이를 근거로 이 함수들을 조합한 하이브리드 워핑함수집합을 정의하였다. 음소단위의 인식 실험을 통하여 새로 정의된 함수들의 인식률을 시험하였으며 두 함수집합 모두에서 개선된 인식률을 얻을 수 있었다.