A Study on Spoken Digits Analysis and Recognition

숫자음 분석과 인식에 관한 연구

  • 김득수 (대구공업대학 컴퓨터정보과) ;
  • 황철준 (대구과학대학 정보전자통신계열)
  • Published : 2001.09.01

Abstract

This paper describes Connected Digit Recognition with Considering Acoustic Feature in Korea. The recognition rate of connected digit is usually lower than word recognition. Therefore, speech feature parameter and acoustic feature are employed to make robust model for digit, and we could confirm the effect of Considering. Acoustic Feature throughout the experience of recognition. We used KLE 4 connected digit as database and 19 continuous distributed HMM as PLUs(Phoneme Like Units) using phonetical rules. For recognition experience, we have tested two cases. The first case, we used usual method like using Mel-Cepstrum and Regressive Coefficient for constructing phoneme model. The second case, we used expanded feature parameter and acoustic feature for constructing phoneme model. In both case, we employed OPDP(One Pass Dynamic Programming) and FSA(Finite State Automata) for recognition tests. When appling FSN for recognition, we applied various acoustic features. As the result, we could get 55.4% recognition rate for Mel-Cepstrum, and 67.4% for Mel-Cepstrum and Regressive Coefficient. Also, we could get 74.3% recognition rate for expanded feature parameter, and 75.4% for applying acoustic feature. Since, the case of applying acoustic feature got better result than former method, we could make certain that suggested method is effective for connected digit recognition in korean.

본 논문에서는 한국어의 음성학적 규칙을 적용한 연속 숫자음 인식에 관하여 연구한다. 연속 숫자음의 인식률은 일반적으로 음성인식 시스템 중에서 낮은 인식률을 나타낸다. 따라서 숫자음에 대하여 강건한 모델을 작성하기 위하여 음성 특징 파라미터와 음성학적 규칙을 적용하고 실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서는 음성학적 규칙을 적용한 19개의 연속분포 HMM을 유사음소 단위(PLUs)로 사용한다. 또한, 인식실험에 있어서는 일반적인 멜 켑스트럽과 회귀계수를 이용한 경우와 음성학적 규칙과 특징을 확장하여 모델을 작성한 경우에 대해서 유한상태 오토마타(Finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming) 법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 멜 켑스트럼만을 사용한 경우 55.4%, 멜 켑스트럼과 회귀계수를 사용한 경우에는 64.6%, 특징 파라미터를 확장한 경우 74.3%, 음성학적 특징까지 고려한 경우 75.4%로 기존의 경우보다 높은 인식률을 보였다. 따라서, 음성 특징 파라미터를 확장하고 음성학적 규칙까지 함께 적용한 경우 비교적 높은 인식률을 보여 제안된 방법이 연속 숫자음 인식에 유효함을 확인하였다.

Keywords