User Adaptive Post-Processing in Speech Recognition for Mobile Devices

모바일 기기를 위한 음성인식의 사용자 적응형 후처리

  • Published : 2007.10.31

Abstract

In this paper we propose a user adaptive post-processing method to improve the accuracy of speaker dependent, isolated word speech recognition, particularly for mobile devices. Our method considers the recognition result of the basic recognizer simply as a high-level speech feature and processes it further for correct recognition result. Our method learns correlation between the output of the basic recognizer and the correct final results and uses it to correct the erroneous output of the basic recognizer. A multi-layer perceptron model is built for each incorrectly recognized word with high frequency. As the result of experiments, we achieved a significant improvement of 41% in recognition accuracy (41% error correction rate).

본 논문에서는 모바일 환경에서 고립단어 음성인식을 할 경우 화자종속 방법을 이용하여 성능을 높이는 사용자 적응형 후처리 방법을 제안한다. 이 방법은 인식기의 정확한 인식 결과를 위한 추가적인 처리들로 구성된다. 즉 인식기의 출력과 정확한 최종 결과들 간의 관계를 학습하여 이를 잘못된 인식기의 출력을 수정하는 데에 사용한다. 학습에는 패턴인식에 강인한 다층 퍼셉트론을 사용하며 학습 시간을 고려하여 모델을 세분화하고 동적으로 동작할 수 있도록 구현한다. 이 결과 인식기의 오류에 대해 41%를 수정하는 성과(오류 수정률: 41%)를 보였다.

Keywords

References

  1. Satoshi Kaki, Eiichiro Sumita, and Hitoshi Iida, 'A method for correcting speech recognition using the statistical features of character co-occurrence,' International Conference On Computational Linguistics, vol. 1, pp.653-657, 1998
  2. Minwoo Jeong, Byeongchang Kim, Gary Geunbae Lee, 'Semantic-oriented error correction for spoken query processing,' Automatic Speech Recognition and Understanding, IEEE, pp.156-161, 2003
  3. Myung Won Kim, Joung Woo Ryu, Eun Ju Kim, 'Speech Recognition with Multi-Modal Features Based on Neural Networks,' International Conference on Neural Information Processing (ICONIP), LNCS 4233, pp.797-806, 2006
  4. 송원문, 김명원, '문맥 및 사용 패턴 정보를 이용한 음성인식 후처리', 정보처리학회논문지 제13-B권 제5호, pp.553-560, 2006 https://doi.org/10.3745/KIPSTB.2006.13B.5.553
  5. Jiawei Han, Micheline Kamber, Data Mining concepts and techniques, pp.303-311, Morgan Kaufmann Publishers, 2001
  6. Tom M. Mitchell, Machine learning, McGraw-hill international editions, pp.81-127, 1997
  7. Deller, Hansen, Proakis, 'Discrete-time processing of speech signals,' IEEE PRESS, pp.677-744, 2000
  8. M. Ostendorf, 'From HMM's to segment models: a unified view of stochastic modeling for speech recognition,' IEEE SPA. pp.360-378, 1996
  9. Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland, The HTK book (for HTK version3.3), Cambridge University Engineering Department, 2005