분산음성인식을 위한 내장형 고속/경량 음소인식기 개발

Development of Embedded Fast/Light Phoneme Recognizer for Distributed Speech Recognition

  • 김승희 (한국전자통신연구원 음성/언어정보연구센터) ;
  • 황규웅 (한국전자통신연구원 음성/언어정보연구센터) ;
  • 전형배 (한국전자통신연구원 음성/언어정보연구센터) ;
  • 정훈 (한국전자통신연구원 음성/언어정보연구센터) ;
  • 박준 (한국전자통신연구원 음성/언어정보연구센터)
  • Kim, Seung-Hi (Speech/Language Information Research Center, ETRI) ;
  • Hwang, Kyu-Woong (Speech/Language Information Research Center, ETRI) ;
  • Jeon, Hyun-Bae (Speech/Language Information Research Center, ETRI) ;
  • Jeong, Hoon (Speech/Language Information Research Center, ETRI) ;
  • Park, Jun (Speech/Language Information Research Center, ETRI)
  • 발행 : 2007.05.11

초록

ETRI 음성/언어정보연구센터에서는 분산음성인식을 위해 메모리를 작게 사용하며 속도가 빠른 음소인식기를 개발 중이다. 음향 모델, 언어 모델, 탐색 네트워크 등 고정되어 있는 정보는 인식기를 수행하기 이전에 미리 binary 형태로 구축하여 ROM 형태로 저장함으로써 실제 사용해야 할 RAM 용량을 대폭 줄일 수 있었다. Tied state에 기반한 triphone 모델에서는 unique HMM 만을 사용함으로써 인식시간 및 메모리 사용량을 대폭 줄일 수 있었다. Monophone 인식기의 경우 RAM 사용량이 179KB였으며, triphone 인식기의 경우 435KB의 RAM 사용량과 RTF(Real Time Factor) 0.02를 확인하였다.

키워드