음성 문자 공용인식기를 위한 SSMS 기반 가변 파라미터 모델

A Variable Parameter Model based on SSMS for an On-line Speech and Character Combined Recognition System

  • 석수영 (영남대학교 정보통신공학과) ;
  • 정호열 (영남대학교 정보통신공학과) ;
  • 정현열 (영남대학교 정보통신공학과)
  • 발행 : 2003.10.01

초록

음성 문자 공용 인식 시스템은 PDA (Personal Digital Assistants)와 같은 휴대용 모빌 환경에서 음성인식과 문자인식을 적용하기에 적합하도록 개발되었다. 공용 인식 시스템은 특징 파라미터 추출에 있어서는 음성과 문자부분이 독립적으로 수행되나, 인식 과정은 단일 엔진으로 수행된다. CHMM (Continuous Hidden Markov Model)을 이용하는 인식엔진은 고정 파라미터 모델 구조 대신에 동일한 인식률을 유지하면서 모델의 파라미터의 수를 효과적으로 줄일 수 있는 가변 파라미터 모델 구조를 사용하는 것이 유리하다. 본 논문에서는 문맥 독립 가변 파라미터 모델을 생성하기 위해 SSMS (Successive State and Mixture Splitting) 방법을 제안한다. SSMS 알고리즘은 시간 방향 분할과 혼합수 방향분할을 통해 적절한 상태수와 각 상태당 적절한 혼합수를 가지는 모델을 생성한다. 음성 인식 실험 결과 동일한 인식성능을 나타내는 경우 SSMS 기반 가변 파라미터 모델이 고정 파라미터 모델에 비해 GOPDD (Gaussian Output Probability Density Distribution)의 수가 40% 감소함을 확인할 수 있었다.

A SCCRS (Speech and Character Combined Recognition System) is developed for working on mobile devices such as PDA (Personal Digital Assistants). In SCCRS, the feature extraction is separately carried out for speech and for hand-written character, but the recognition is performed in a common engine. The recognition engine employs essentially CHMM (Continuous Hidden Markov Model), which consists of variable parameter topology in order to minimize the number of model parameters and to reduce recognition time. For generating contort independent variable parameter model, we propose the SSMS(Successive State and Mixture Splitting), which gives appropriate numbers of mixture and of states through splitting in mixture domain and in time domain. The recognition results show that the proposed SSMS method can reduce the total number of GOPDD (Gaussian Output Probability Density Distribution) up to 40.0% compared to the conventional method with fixed parameter model, at the same recognition performance in speech recognition system.

키워드

참고문헌

  1. EALPIT Proc. An on-line speech and character combined recognition system for multimodal interfaces S.Y.Suk;M.J.Kim;H.Y.Chung
  2. Second International Conference on Document Analysis and Recognition Proc. A statistical approach with HMMs for on-line cursive hangul(Korean Script) recognition B.K.Sin;J.Kim
  3. Journal of Applied Probability v.12 Determination of the order of a markov chain by Akaike's information criterion H.Tong https://doi.org/10.2307/3212863
  4. ICASSP Proc. Hmm topology optimization for handwriting recognition D.Li;A.Biem;J.Subrahmonia
  5. ICASSP-92 Proc. v.1 A successive state splitting algorithm for efficient allophone modeling J.Takami;S.Sagayama
  6. ICSP-97 Proc. A study on HM-Nets using Decision Tree-based Successive splitting H.Takaki;K.Mashahru;I.Akinori;K.Masaki
  7. ICASSP Proc. v.1 A connected spoken word recognition method by O(n) dynamic programming pattern matching algorithm S.Nakagawa
  8. Run-on recognition in an on-line handwriting recognition system G.Ralph;M.Stefan;W.Alex
  9. ICASSP-92 Proc. v.1 A successive state splitting algorithm for efficient allophone modeling J.Takami;S.Sagayama
  10. ICSP-97 Proc. A study on HM-Nets using Decision Tree-based Successive splitting H.Takaki;K.Mashahru;I.Akinori;K.Masaki
  11. 한국음향학회 학술발표대회 논문집 v.21 no.1 한국어 음성/문자 공용인식기의 성능향상을 위한 가변 상태수 CHMM모델의 구성 석수영;김민정;김광수;정호열;정현열
  12. 음성통신 및 신호처리 학술대회 논문집 v.19 no.1 Local Maximum방법을 이용한 가변 파라미터 CHMM 모델의 구성 석수영;김민정;정호열;정현열
  13. HWESPAC 8 Proc., WB32 An On-Line speech and character combined recognition system using CHMM with different model parameter S.Y.Suk;M.J.Kim;H.Y.Jung;H.Y.Chung