The Vocabulary Recognition Optimize using Acoustic and Lexical Search

음향학적 및 언어적 탐색을 이용한 어휘 인식 최적화

  • 안찬식 (광운대학교 컴퓨터공학과) ;
  • 오상엽 (경원대학교 IT대학 컴퓨터소프트웨어)
  • Received : 2009.09.19
  • Accepted : 2010.01.21
  • Published : 2010.04.30

Abstract

Speech recognition system is developed of standalone, In case of a mobile terminal using that low recognition rate represent because of limitation of memory size and audio compression. This study suggest vocabulary recognition highest performance improvement system for separate acoustic search and lexical search. Acoustic search is carry out in mobile terminal, lexical search is carry out in server processing system. feature vector of speech signal extract using GMM a phoneme execution, recognition a phoneme list transmission server using Lexical Tree Search algorithm lexical search recognition execution. System performance as a result of represent vocabulary dependence recognition rate of 98.01%, vocabulary independence recognition rate of 97.71%, represent recognition speed of 1.58 second.

어휘인식 시스템은 스탠드 얼론(Standalone)으로 개발되어 지고 있으며 휴대용 단말기에서 사용하였을 경우 메모리 공간의 제약과 오디오 압축으로 인해 인식률이 낮게 나타난다. 본 연구에서는 휴대용 단말기의 성능과 인식률 향상을 위하여 음향학적 탐색과 언어적 탐색을 분리하여 어휘 인식 속도를 개선한 시스템을 제안하였다. 음향학적 탐색은 휴대용 단말기에서 수행하고 보다 복잡한 언어적 탐색은 서버에서 처리하는 시스템으로 음성신호로부터 특징벡터를 추출하여 GMM을 이용한 음소인식을 수행하고, 인식된 음소 열을 서버로 전송하여 렉시컬 트리 탐색 알고리즘을 사용하여 언어적 탐색 단계에서 어휘 인식을 수행하였다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.01%, 어휘 독립 인식률은 97.71%의 인식률을 나타냈으며 인식속도는 1.58초로 나타내었다.

Keywords

Acknowledgement

Supported by : 경원대학교

References

  1. 오지영, 김윤중, 고유정, "모바일 환경에서 인증과 음성인식을 위한 웹 서비스 구현," 한국멀티미디어학회 논문지, Vol.8,No.2, pp. 225-232, 2005
  2. 김기백, 최종호, "음석인식 기반 컨텐츠 네비게이션 시스템," 한국컴퓨터정보학회 논문지, Vol. 15, No.1, pp. 99-102, 2007.
  3. 김승희, 황규응, 전형배, 정훈, 박준, "분산어휘 인식을 위한 내장형 고속 및 경량 음소인식기 개발," 한국정보처리학회, 춘계학술발표대회, pp. 395-396, 2007.
  4. 윤경섭, "휴대용 단말기를 위한 실시간 무선 영상 음성 전송 기술," 한국컴퓨터정보학회 논문지, Vol. 14, No.4, pp. 111-117, 2009.
  5. 방기덕, 강철호, "차량용 항법장치에서의 관심지 인식을 위한 다단계 음성 처리 시스템," 한국멀티미디어학회 논문지, Vol.12, No.1, pp. 16-25, 2009.
  6. M. F. Gales, "Model-based techniques for nosie robust speech recognition," Ph. D. dissertation, University of Cambridge, Sept, 1995.
  7. D. Jurafsky and J. H. Martin, Speech and Language Processing, Prentice-Hall, 2000.
  8. David Pearce, "An overview of the ETSI standards activities for Distributed Speech Recognition Front-ends," The Speech Applications Conference, May 22-24, 2000.
  9. N. Srinivasamurthy, A. Ortega and S. Narayanan, "Efficient Scalable Encoding for Distributed Speech Recognition," Department of Electrical Engineering-Systems, Signal and Image Processing Institute, Integrated media Systems Center, March 28, 2004.
  10. A. S. Manos and V. W. Zue, "A study on outof- vocabulary word modeling for a segmentbased keyword spotting system," Master Thesis, MIT, 1996.
  11. T. Jitsuhiro, S. Takatoshi, and K. Aikawa, "Rejection of out-of-vocabulary words using phoneme confidence likelihood," ICASSP, pp. 217-220, 1998.
  12. Kris Demuynck, Tom Laureys, Dirk van Compernolle, and Hugo van Hamme, "FLavor: a flexible architecture for L VCSR," In EUROSPEECH-2003, pp. 1973-1976, 2003.
  13. L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993
  14. 곽운용, 오훈, "무선 이동 애드 혹 네트워크를 위한 동적 그룹 소스 라우팅 프로토콜," 한국통신학회 논문지, Vol.33, No.11A, pp. 1034-1042, 2008.
  15. 하은용, "이동 애드혹 네트워크에서 DSR 프로토콜을 위한 경로 축소 방법," 한국정보과학회 논문지, Vol.34, No.6, pp. 475-482, 2007.
  16. David B. Jhonson, David A. Maltz and Yih -Chun Hu. "The Dynamic Source Routing Protocol for Mobile Ad Hoc Networks for IPv4," RFC 4728, Feb. 2007.