Abstract
This paper presents a sub-band feature extraction approach in which the feature extraction method in the individual frequency sub-bands is determined in terms of speech recognition accuracy. As in the multi-band paradigm, features are extracted independently in frequency sub-regions of the speech signal. Since the spectral shape is well structured in the low frequency region, the all pole model is effective for feature extraction. But, in the high frequency region, the nonparametric transform, discrete cosine transform is effective for the extraction of cepstrum. Using the sub-band specific feature extraction method, the linguistic information in the individual frequency sub-bands can be extracted effectively for automatic speech recognition. The validity of the proposed method is shown by comparing the results of speech recognition experiments for our method with those obtained using a full-band feature extraction method.
본 논문에서는 주파수 부대역마다 최적의 특징추출을 위해서, 음성인식률을 기준으로 최적의 방법을 선택한다. 다중대역 음성인식 접근을 사용하여 각기 다른 주파수 영역에서 특징벡터를 독립적으로 추출함으로써 부대역별로 다른 특징추출 방법을 적용할 수 있었다. 저주파 대역의 음성은 비교적 스펙트럼의 구조가 명확하므로 전극모델을 사용하는 것이 효과적이었고, 고주파 대역에서는 비모수적인 변환방법인 이산 코사인 변환을 사용한 켑스트럼이 효과적이었다. 부대역별로 효과적인 특징추출 방법을 사용함으로써, 각 주파수 부대역에 포함된 음성인식을 위한 언어정보를 보다 효과적으로 추출할 수 있었다. 음성인식 실험결과, 제안한 방법은 전대역 특징추출보다 우수한 성능을 나타내었다.