Speaker-Independent Korean Digit Recognition Using HCNN with Weighted Distance Measure

가중 거리 개념이 도입된 HCNN을 이용한 화자 독립 숫자음 인식에 관한 연구

  • 김도석 (한국과학기술원 전기.전자공학과) ;
  • 이수영 (한국과학기술원 전기.전자공학과)
  • Published : 1993.10.01

Abstract

Nonlinear mapping function of the HCNN( Hidden Control Neural Network ) can change over time to model the temporal variability of a speech signal by combining the nonlinear prediction of conventional neural networks with the segmentation capability of HMM. We have two things in this paper. first, we showed that the performance of the HCNN is better than that of HMM. Second, the HCNN with its prediction error measure given by weighted distance is proposed to use suitable distance measure for the HCNN, and then we showed that the superiority of the proposed system for speaker-independent speech recognition tasks. Weighted distance considers the differences between the variances of each component of the feature vector extraced from the speech data. Speaker-independent Korean digit recognition experiment showed that the recognition rate of 95%was obtained for the HCNN with Euclidean distance. This result is 1.28% higher than HMM, and shows that the HCNN which models the dynamical system is superior to HMM which is based on the statistical restrictions. And we obtained 97.35% for the HCNN with weighted distance, which is 2.35% better than the HCNN with Euclidean distance. The reason why the HCNN with weighted distance shows better performance is as follows : it reduces the variations of the recognition error rate over different speakers by increasing the recognition rate for the speakers who have many misclassified utterances. So we can conclude that the HCNN with weighted distance is more suit-able for speaker-independent speech recognition tasks.

HCNN(Hidden Control Neural Network)은 신경회로망에 의한 비선형 예측과 HMM의 segmentation 기능을 접합시킨 신경회로망 모델로서, 시간에 따라 입출력 사상 함수를 변화시킴으로써 음성 신호를 잘 모델링할 수 있도록 되어 있다. 본 논물에서는 첫째, HCNN의 성능이 HMM보다 우수함을 보이고, 둘째로, HCNN에서의 예측 오차 측정에 적절한 거리 측도를 이용하기 위해 가중거리가 도입된 HCNN을 제안하여, 화자 독립 음성 인식에 있어 그 성능이 우수함을 보였다. 여기서 가중거리는 음성 특징 벡터 각 구성 성분의 분산도 차이를 고려한 거리이다. 화자 독립 숫자음 인식 실험 결과, 유클리드 저리를 이용한 HCNN에 대해 95%의 인식율을 얻었는데, 이는 HMM에 비해 1.28% 높은 결과로서, 확률적인 제한이 가해진 HMM에 비해 시스템의 동작인 모델링을 이용한 HCNN이 더 우수함을 알 수 있다. 또한 가중거리를 이용한 CNN에 대해서는 97.35%의 인식율을 얻었는데, 이는 유클리드 거리를 이용한HCNN에 비해 2.3%가 향상된 결과이다. 가중 거리를 도입한 HCHN의 경우에 더 높은 인식율을 얻은 이유는, 오인식이 많이 되는 화자의 인식율을 높임으로써 화자간의 인식율차가 감소하게 되기 때문임을 알 수 있었고, 따라서 화자 독립 음성인식에 가중거리를 도입한 HCNN이 보다 적합합을 알 수 있다.

Keywords