Effective Feature Vector for Isolated-Word Recognizer using Vocal Cord Signal

성대신호 기반의 명령어인식기를 위한 특징벡터 연구

  • 정영규 (한국전자통신연구원 스마트인터페이스연구팀) ;
  • 한문성 (한국전자통신연구원 스마트인터페이스연구팀) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Published : 2007.04.15

Abstract

In this paper, we develop a speech recognition system using a throat microphone. The use of this kind of microphone minimizes the impact of environmental noise. However, because of the absence of high frequencies and the partially loss of formant frequencies, previous systems developed with those devices have shown a lower recognition rate than systems which use standard microphone signals. This problem has led to researchers using throat microphone signals as supplementary data sources supporting standard microphone signals. In this paper, we present a high performance ASR system which we developed using only a throat microphone by taking advantage of Korean Phonological Feature Theory and a detailed throat signal analysis. Analyzing the spectrum and the result of FFT of the throat microphone signal, we find that the conventional MFCC feature vector that uses a critical pass filter does not characterize the throat microphone signals well. We also describe the conditions of the feature extraction algorithm which make it best suited for throat microphone signal analysis. The conditions involve (1) a sensitive band-pass filter and (2) use of feature vector which is suitable for voice/non-voice classification. We experimentally show that the ZCPA algorithm designed to meet these conditions improves the recognizer's performance by approximately 16%. And we find that an additional noise-canceling algorithm such as RAST A results in 2% more performance improvement.

본 논문은 환경 노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 성대마이크는 환경 노이즈의 효과를 최소화하는 장점이 있다. 그러나 고주파의 부재와 부분적인 포먼트 정보 손실 때문에, 성대마이크를 이용해서 개발된 ASR시스템은 표준마이크를 이용한 시스템에 비해 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로부터 입력되는 정보 보안하는데 주로 사용된다. 본 논문은 한국어의 음운적 특정과 신호 분석을 통해 성대마이크만을 사용한 높은 성능의 ASR 시스템을 개발 할 수 있음을 보인다. 주파수 대역내 에너지 합을 이용하는 MFCC 알고리즘이 갖는 성대신호 분석의 문제점을 제시하고, 성대신호를 대상으로 보다 높은 성능을 갖는 특정추출 알고리즘의 조건을 제시한다. 이러한 조건은 (1) 민감한 band-pass filter와 (2) 유/무성음 분리를 위해 사용하는 특정벡터의 사용이다 실험 결과 제안된 조건을 만족하는 ZCPA 알고리즘을 적용한 경우가 MFCC를 적용한 경우보다 약 16%정도의 높은 성능을 보인다. 그러고 CMS와 RASTA와 같은 channel normalization 알고리즘을 적용한 경우 약 2%의 성능 향상이 있다.

Keywords

References

  1. S. F. Boll, 'Suppression of acoustic noise speech using spectral subtraction,' IEEE Trans. Acoust., Speech, Signal Processing, ASSP-27, 113-120, Apr., 1979 https://doi.org/10.1109/TASSP.1979.1163209
  2. R. J. McAulay and M. L. Malpass, 'Speech enhancement using a soft-desision noise suppression filter,' IEEE Trans. Acoust., Speech, Signal Processing, 28, 137-145, Apr. 1980 https://doi.org/10.1109/TASSP.1980.1163394
  3. Y. Ephraim and D. Malah, 'Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,' IEEE Trans. Acoust., Speech, Signal Processing, 33, 443-445, Apr. 1985 https://doi.org/10.1109/TASSP.1985.1164550
  4. Nakajima. Y, Kashioka. H, Shikano. K and Campbel. N, 'Non-audible murmur recognition input interface using stethoscopic microphone attached to the skin,' ICASSP'03, vloume 5, pp.708-11, 2003
  5. S. C. Jou, T. Schultz, and A. Waibel, 'Adaptation for Soft Whisper Recognition Using a Throat Microphone,' in Proc. ICSLP, Jeju Island, Korea, Oct 2004
  6. Zhengyoun Zhang, Zicheng Liu, Sinclair. M, Acero. A, Li Deng, Droppo, J, Xuedong Huang. Yanli Zheng, 'Multi-sensory microphones for robust speech detection, enhancement and recognition,' ICASSP'04, page: iii-781-4 vol.3, May 2004 https://doi.org/10.1109/ICASSP.2004.1326661
  7. S. Dupont, C. Ris, 2004, 'Combined use of close-talk and throat microphones for improved speech recognition under non-stationary background noise,' proc. of Robust 2004 (Workshop(ITRW) on Robustness Issues in Conversational Interaction), Norwich, Aug. 2004
  8. M. Graciarena. H. Franco, K. Sonmez, H Bratt, 'Combining Standard and Throat Microphones for Robust speech Recognition,' in IEEE Signal Processing Letters, Vol. 10, No. 3, pp. 72-74, March 2003 https://doi.org/10.1109/LSP.2003.808549
  9. Donghoon Hyun, Chulhee Lee, 'Optimization of mel-ceptrum for speech recognition,' IEEE SMC'99 Conference Proceeding Volume 1, pp.500-503, Oct. 1999
  10. O. Ghitza, 'Auditory models and human performances in tasks related to speech coding and speech recognition,' IEEE Trans. Speech and Audio Processing, vol. 2, no, 1, part II, pp. 115-132, 1994 https://doi.org/10.1109/89.260357
  11. 구현옥, 국어 음운학의 이해, 한국문화사, 1999
  12. 정경일 외, 한국어의 탐구와 이해, 박이정출판사, 2000
  13. 신지영, 차재은, 우리말 소리의 체계:국어 음운론 연구의 기초를 위하여, 한국문화사, 2003
  14. C. K. Un and S. C. Yang, 'A Pitch extraction algorithm based on LPC inverse filtering and AMDF,' IEEE Trans. Acoust., Speech Signal Processing, ASSP-25, 565-572, Dec. 1997
  15. Doh-Suk Kim, Soo-Young Lee, Rhee M. Kil 'Auditory Processing of Speech Signals for Robust Speech Recognigion in Real-Word Noisy Environments,' IEEE Tran. Speech and Audio Processing, vol., 7 No.1, Jan., 1999
  16. H. Hermansky and N. Morgan, 'Rasta processing of speech,' IEEE Trans. Speech Audio Processing, vol. 2, pp. 578-589, Oct. 1994 https://doi.org/10.1109/89.326616
  17. 이연철, 이상운, 홍훈섭, 한문성, 마평수, '넥마이크로 입력된 음성 신호에 대한 인식 연구', 제 18회 한국정보처리학회, 제9권 제2호, 2002