A Study on Embedded DSP Implementation of Keyword-Spotting System using Call-Command

호출 명령어 방식 핵심어 검출 시스템의 임베디드 DSP 구현에 관한 연구

  • 송기창 (광운대학교 전자통신공학과, 아이디폰 연구소) ;
  • 강철호 (광운대학교 전자통신공학과)
  • Received : 2010.02.02
  • Accepted : 2010.06.07
  • Published : 2010.09.30

Abstract

Recently, keyword spotting system is greatly in the limelight as UI(User Interface) technology of ubiquitous home network system. Keyword spotting system is vulnerable to non-stationary noises such as TV, radio, dialogue. Especially, speech recognition rate goes down drastically under the embedded DSP(Digital Signal Processor) environments because it is relatively low in the computational capability to process input speech in real-time. In this paper, we propose a new keyword spotting system using the call-command method, which is consisted of small number of recognition networks. We select the call-command such as 'narae', 'home manager' and compose the small network as a token which is consisted of silence with the noise and call commands to carry the real-time recognition continuously for input speeches.

최근 핵심어 검출 시스템은 유비쿼터스 홈네트워크의 UI(User Interface) 기술로써 각광받고 있다. 핵심어 검출 시스템은 TV, 라디오, 떠드는 소리 등과 같은 동적 생활 잡음에 매우 취약하다. 특히, 실제 임베디드 DSP(Digital Signal Processor) 환경에서는 상대적으로 CPU(Central Processing Unit) 연산능력이 떨어지므로, 실시간으로 입력되는 음성을 인식하기가 어려워 인식율은 급격히 하락하게 된다. 본 논문은 임베디드 DSP 환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '홈매니저'등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행한다.

Keywords

References

  1. 한종욱, 이덕규, 정교일, "홈네트워크 보안기술 동향," 한국통신학회지, 제23권 제9호, pp.113- 124, 2006.
  2. 신상열, "홈네트워크 개요 및 정책 동향," 電波, 제128호, pp.60-63, 2006.
  3. R. A. Sukkar and C-H. Lee, "Vocabulary independent discriminative utterance verification for non-keyword in subword based speech recognition," IEEE Trans. on speech and audio processing, Vol.4, No.6, pp.420-429, Nov. 1996. https://doi.org/10.1109/89.544527
  4. Mazin G Rahim, Chin-Hui Lee, Biing-Hwang Juang and Wu Chou, "Discriminative Utterance Verification Using Minimum String Verification Error(MSVE) Training," ICASSP, 1996.
  5. Hoi-Rin Kim, SingHun Yi and Hang-Seop Lee, "Out-Of-Vocabulary Rejection using Phone Filler Model in Variable Vocabulary Word Recognition," ICSP, Vol.1, pp.337-339, 1999.
  6. J. Kim, J Lee, and S Choi, "Hybrid Confidence Measure for Domain-Specific Keyword Spotting," Proc. of IEA/AIE, 15, 736-745, 2002.
  7. L. Rabiner and Biing-Hwang Juang, "Fundamentals of speech recognition", Prentice- Hall International, Inc., 1993.
  8. 박진영, 권호민, 박정원, 김창근, 허강인, "DSP기반의 잡음환경에 강인한 화자 독립 음성 인식기 구현," 대한전자공학회 03 신호처리소사이어티 추계학술대회, pp.69-72, 2003. 11.
  9. 장흥, 정익주, "TMS320C32 DSP를 이용한 실시간 화자종속 음성인식 하드웨어 모듈(VR32)구현," 한국음향학회지, 17권, 4호, pp.14-22, 1998년 5월.
  10. Sadaoki Furui, "50 Years of Progress in Speech Recognition Technology-Where We Are, and Where We Should Go-," In Proc. ICASSP 2007 Plenary Speech, 2007.
  11. Deng, A. Acero, M. Plumpe, and X.D. Huang, "Large-Vocabulary Speech Recognition under Adverse Acoustic Environments," In Proc. ICSLP, 2000, pp. III-806-809.
  12. Texas Instruments, TMS320VC5501 Fixed- Point Digital Signal Processor (Rev. K). Nov 2008.