DOI QR코드

DOI QR Code

Cepstral Normalization Combined with CSFN for Noisy Speech Recognition

켑스트럼 정규화와 켑스트럼 거리기반 묵음특징정규화 방법을 이용한 잡음음성 인식

  • 최숙남 (영남대학교 정보통신공학과) ;
  • 신광호 (KIST 바이오닉스 연구단) ;
  • 정현열 (영남대학교 공과대학 정보통신공학과)
  • Received : 2011.04.05
  • Accepted : 2011.09.20
  • Published : 2011.10.31

Abstract

The speech recognition system works well in general indoor environment. However, the recognition performance is dramatically decreased when the system is used in the real environment because of the several noises. In this paper we proposed CSFN-CMVN to improve the recognition performance of the existing CSFN(Cepstral distance based SFN). The CSFN-CMVN method is a combined method of cepstral normalization with CSFN that normalizes silence features using cepstral euclidean distance to classify speech/silence for better performance. From the test results using Aurora 2.0 DB, we could find out that our proposed CSFN-CMVN improves about 7% of more average word accuracy in all the test sets comparing with the typical silence features normalization SFN-I. We can also get improved accuracy of 6% and 5% respectively in compared tests with the conventional SFN-II and CSFN, showing the effectiveness of our proposed method.

일반적인 음성인식 시스템은 보통 실내 환경에서는 잘 동작하지만 잡음이 존재하는 실제 환경에서는 여러 가지 잡음의 영향으로 그 성능이 급격히 떨어진다. 본 논문에서는 잡음환경에 강인한 음성인식을 위하여 훈련 환경과 실제 환경의 불일치를 줄이기 위한 방법으로 켑스트럼 거리기반 묵음특징 정규화(CSFN: Cepstral distance based SFN) 방법에 켑스트럼 정규화 방법(CMVN:cepstral mean and variance normalization)을 결합한 CSFN-CMVN 방법을 제안하였다. 이 방법은 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언 거리를 결합하여 음성/묵음 분류에 사용하여 묵음특징을 정규화하는 CSFN 방법에 켑스트럼 정규화 방법을 결합하는 방법이다. Aurora 2.0 DB를 이용한 실험결과, 제안한 CSFN-CMVN은 기존의 대표적인 묵음특징 정규화 방법인 SFN-I 과 비교했을 때 모든 테스트 세트에 대한 평균 단어인식 정확도에서 약 7%의 인식률 향상을 가져옴을 확인하였다. 또한, 기존의 SFN-II, CSFN에 비해서도 약 6%, 5% 향상되었음을 확인 할 수 있어 제안한 방법의 유효성을 확인할 수 있었다.

Keywords

References

  1. K.S. Yao, E. Visser, O.W. Kwon, and T.W. Lee, "A Speech Processing Front-End with Eigenspace Normalization for Robust Speech Recognition in Noisy Automobile Environments," Proc. Eurospeech, pp. 9-12, 2003.
  2. 강선미, "잡음 환경하에서의 음성인식에 관한 연구," 산업기술연구소 논문집, 3, pp. 301-318, 1997
  3. 신광호, 정호열, 정현열, "ARMA 필터를 이용한 로그 에너지 특징의 정규화 방법," 한국멀티미디어학회 논문지, Vol.11, No.10, pp.1325-1337, 2008.
  4. 신광호, 정현열, "개선된 켑스트럼 거리기반 묵음특징 정규화 방법," 한국음향학회 추계학술발표대회 논문집, Vol.28, No.2, pp. 38-39, 2009.
  5. 신광호, 정현열, "강인한 음성인식을 위한 켑스트럼 거리와 로그에너지 기반 묵음 특징 정규화" 한국음향학회지 제 29권 제4호, pp. 278-285, 2010.
  6. 석용호, 최승호, 이황수, "잡음환경에서의 음성 인식을 위한 캡스트럽의 확률분포정규화기법," 한국음향학회지 제24권 제4호, pp. 224-229, 2005.
  7. C.-F. Tai and J.-W. Hung, "Silence Energy Normalization for Robust Speech Recognition in Additive Noise Environments," Proc. ICSLP, pp. 2558-2561, 2006.
  8. C.-C. Wang, C.-A. Pan, and J.-W. Hung, "Silence Feature Normalization for Robust Speech Recognition in Additive Noise Environments," Proc. ICSLP, pp. 1028-1031, 2008.
  9. W.Z. Zhu and D.O. Shaughnessy, "Log Energy Dynamic Range Normalization for Robust for Robust Speech Recognition", Proc. ICASSP, Vol.1, pp. 245-248, 2005.

Cited by

  1. 최대우도를 부가한 주파수 변이 PMC 방법의 잡음 음성 인식 성능개선 vol.16, pp.8, 2011, https://doi.org/10.9717/kmms.2013.16.8.905