Robust Speech Segmentation Method in Noise Environment for Speech Recognizer

음성인식기 구현을 위한 잡음에 강인한 음성구간 검출기법

  • Published : 2003.04.01

Abstract

One of the most important subjects in the implementation of real time speech recognizer is to design both reliable VAD(Voice Activity Detection) and suitable speech feature vector. But, because it is difficult to calculate reliable VAD in the environment having surrounding noise, designed suitable speech feature vector may not be obtained. Solving this problem, in this paper, we implement not only short time power spectrum which is generally used but also two additive parameters, the comparison measure of spectrum density having robust property in noise and linear discriminant function using linear regression, then perform VAD by using the combination of each parameter having apt weight in other magnitudes of surrounding noise and confirm that proposed parameters show a robust characteristic in circumstances having surrounding noise by using DTW(Dynamic Time Waning) in recognition experiment.

실시간 음성 인식기의 구현에 있어서 선행되어야 할 과제는 신뢰성 있는 음성구간 검출과 적절한 음성특징벡터를 구하는 것이다. 그러나, 주변 잡음이 인가되는 환경에서는 신뢰성 있는 음성구간 검출이 어렵게 되어 적절한 음성특징벡터를 구할 수 없게 되어 최종적으로 인식기의 성능 저하를 초래하게 된다. 이러한 문제점을 보완하기 위하여 본 논문에서는 일반적으로 사용되어지는 단구간 파러 스펙트럼 외에 잡음에 강인한 특성을 가질 수 있도록 하는 새로운 특징 파라메터로써 스펙트럼 밀도비교척도와 선형회귀를 이용한 선형결정함수를 사용하였다. 이러한 두 가지 파라메터를 추가하여 주변 잡음의 크기에 따라 각각의 (파라메터를 적절한 가중치로 조합하여 음성구간 결정을 수행한 다음 DTW를 사용하여 인식실험을 한 결과 주변 잡음이 존재하는 환경에서도 강인한 특성을 가짐을 확인할 수 있었다.

Keywords

References

  1. ICSLP v.2 Word endpoints detection in the presence of non-stationary noise M.Toma;A.Lodi;R,Guerrieri
  2. IEEE Proceedings-I v.139 no.4 Voice activity detection using a periodicity measure R.Tucker
  3. Electronics Letters v.32 no.15 Robust speech pulse detecting using adaptive noise modelling N.B.Yoma;F.McInnes;M.Jack
  4. IEEE TENCON Robust voice activity detection using cepstral features J.A.Haigh;J.S.Mason
  5. Digital processing of speech signals L.R.Rabiner;R.W.Schafer
  6. Pattern Classification(Second Edition) Richard O.Duda;Peter E.Hart;David G.Stork
  7. IEEE Communication Magazine v.35 no.9 ITU-T Recommendation G.729 Annex B: a silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications A. Benyassine;E.Shlomot;H. Y. Su;D. Massaloux;C. Lamblin;J. P. Petit
  8. Spoken Language Processing X.Huang;A.Acero;H.W.Hon
  9. 한국음향학회 v.19 no.1s 신경망을 이용한 HMM의 오인식보상에 관한 연구 표창수;김창근;허강인
  10. 한국 신호처리 시스템학회 학술논문집 v.3 no.1 연속음성 인식장치를 위한 실시간 음성분할의 구현 박정원;김창근;한학용;허강인