영상정보 보완에 의한 음성인식

Speech Recognition with Image Information

  • 발행 : 1999.06.01

초록

음성의 인식율 저하는 주로 잡음에 의해 발생하고, 이러한 요인을 제거하기 위해 주로 필터뱅크를 사용하여 왔지만, 본 논문은 2 차원 선형예측이라는 영상 특징 추출 방법을 이용하여 잡음에 강인한 숫자 음 인식을 시도하였다. 먼저, 음성에 대한 인식결과를 도출하기 위해, 13 차 선형예측 계수를 이용하여 인식을 시도하였다. 이 때, 잡음을 추가한 음성을 이용하여 시험한 결과, 5 개의 숫자음, ‘영’, ‘사’, ‘오’, ‘육’, ‘구’에서 인식결과의 저하를 볼 수 있었다. 이러한 결과를 향상시키기 위해 2 차원 선형예측 계수를 추가한 인식기 입력 데이터를 구현하였다. 이 때, 선형예측 계수는 각 프레임별로 추출하였고, 음성데이터와 합한 영상 데이터를 가지고 인식 실험을 실시하였다. 이 때, 숫자음 ‘사’ 와 ‘구’ 에 대해서는 상당한 향상을 보였다.

The main factor decreasing speech recognition rate is the surrounding noise. To lower the noise effect, we generally used the filter bank at preprocessing stage. But, in this paper, we tried to recognize the 10 numeral numbers using 2-D LPC to extract image feature. At first, we obtained the result of speech-only recognition using 13th-order LPC coefficients and then, for distorted speech recognition results of ‘0’, ‘4’, ‘5’, ‘6’ and 9’, we added image parameters such as 12th-order 2-D LPC coefficients. At each frame, we extracted the 2-D LPC coefficients, and simulated recognizer with two parameters such as speech and image. Finally, for the numbers, such as ‘4’and ‘9’, the better results were obtained.

키워드