차량용 항법장치에서의 관심지 인식을 위한 다단계 음성 처리 시스템

Multi-layer Speech Processing System for Point-Of-Interest Recognition in the Car Navigation System

  • 방기덕 (광운대학교 전자통신공학과) ;
  • 강철호 (광운대학교 전자통신공학과)
  • 발행 : 2009.01.30

초록

안전성을 최우선시 해야 하는 자동차 환경에서 관심지 (POI, Point-Of-Interest) 도메인을 대상으로 하는 대용량 고려 단어 인식 시스템은 최적의 인간-기계 상호접속(HMI, Human-Machine Interface) 기술을 요구하고 있다. 하지만, 매우 제한된 연산처리 능력과 메모리를 가지는 텔레매틱스 단말기에서 10만 단어 이상을 일반적인 음성인식 방식으로 처리하기는 불가능하다. 따라서 본 논문에서는 텔레매틱스 단말기의 관심지 인식을 위하여 다단계 구조의 대용량 고립단어 인식 시스템을 제안하였다. 이 관심지 인식 시스템의 성능향상을 위해 음소별 가우시안 혼합모델(GMM, Gaussian Mixture Model)을 사용한 음소 인식기와 음소별 거리 행렬(PDM, Phoneme-distance Matric) 레빈쉬타인(Levenshtein) 거리를 제안하였다. 제안한 방법은 낮은 처리속도와 적은 양의 메모리를 가지는 텔레매틱스 단말기에서도 대용량 고립단어에 대하여 우수한 인식 성능을 나타내었다. 본 논문에서 제안한 다단계 인식 시스템을 사용하였을 경우 실내에서 최대 94.8%, 자동차환경에서는 최대 92.4%의 인식 성능을 얻을 수 있었다.

In the car environment that the first priority is a safety problem, the large vocabulary isolated word recognition system with POI domain is required as the optimal HMI technique. For the telematics terminal with a highly limited processing time and memory capacity, it is impossible to process more than 100,000 words in the terminal by the general speech recognition methods. Therefore, we proposed phoneme recognizer using the phonetic GMM and also PDM Levenshtein distance with multi-layer architecture for the POI recognition of telematics terminal. By the proposed methods, we obtained high performance in the telematics terminal with low speed processing and small memory capacity. we obtained the recognition rate of maximum 94.8% in indoor environment and of maximum 92.4% in the car navigation environments.

키워드

참고문헌

  1. L. R. Bahl, P. V. deSouza, P. S. Gopalakrishnan, D. Nahamoo, and M. Picheny, "A Fast Match for Continuous Speech Recognition Using Allophonic Models," In Proc. IEEE ICASSP-92, Vol.1, pp.17-21, 1992.
  2. S. Ortmanns, A. Eiden, H. Ney, and N. Coenen, "Look -ahead Techniques for Fast Beam Search," In Proc. IEEE ICASSP-1997, pp. 1783-1786, 1997.
  3. Kris Demuynck, Tom Laureys, Dirk van Compernolle, and Hugo van Hamme, "FLavor: a flexible architecture for LVCSR," In EUROSPEECH-2003, pp. 1973-1976, 2003.
  4. K. Demuynck, J Duchateau, and D. Van Compernolle, "A static lexicon network representation for cross-word context dependent phones," in Proc. EUROSPEECH, Vol.1, pp. 143-146, 1997.
  5. W. Daelemans , S. Buchholz, and J. Veenstra, "Memorybased shallow parsing," in Proc. CoNLL, pp. 53-60, 1999.
  6. 조영수, 이기정, 김광태, 홍재근, “HMM을 이용한 한국어 음소인식(Korean Phoneme Recognition using HMM," 대한전자공학회 학술발표회 논문집, 제16권 1호, pp. 81-84, 1994.
  7. K. S. Fu, Syntactic Pattern Recogniton and Application, Prentice-Hall, 1982.
  8. 최태웅, 김순협, "음성인식기 상용화를 위한 단어 인식기성능향상의 관한 연구," 음성통신 및 신호처리 학술대회, 제 19권 1호, pp. 1-7, 2002.
  9. 김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도," 전자공학회 논문지, 제 43권 6호, pp. 496-504, 2006.
  10. Eiichi Tanaka and Tamotsu Kasai, "Synchronization and Substitution Error-corecting codes for the Levenshtein Metric," IEEE Trans. Information Theory, Vol.IT-22, No.2, pp. 156-176, 1976.
  11. Justin Zobel and Philip Dali "Phonetic String Matching: Lessons from Information Retrieval," SIGIR'96, pp. 166-173, 1996.