Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구

A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System

  • 발행 : 2003.10.01

초록

본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

In this paper, we carried out the performance evaluation of HM-Net(Hidden Markov Network) speech recognition system for Korean speech databases. We adopted to construct acoustic models using the HM-Nets modified by HMMs(Hidden Markov Models), which are widely used as the statistical modeling methods. HM-Nets are carried out the state splitting for contextual and temporal domain by PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) algorithm, which is modified the original SSS algorithm. Especially it adopted the phonetic decision tree to effectively express the context information not appear in training speech data on contextual domain state splitting. In case of temporal domain state splitting, to effectively represent information of each phoneme maintenance in the state splitting is carried out, and then the optimal model network of triphone types are constructed by in the parameter. Speech recognition was performed using the one-pass Viterbi beam search algorithm with phone-pair/word-pair grammar for phoneme/word recognition, respectively and using the multi-pass search algorithm with n-gram language models for sentence recognition. The tree-structured lexicon was used in order to decrease the number of nodes by sharing the same prefixes among words. In this paper, the performance evaluation of HM-Net speech recognition system is carried out for various recognition conditions. Through the experiments, we verified that it has very superior recognition performance compared with the previous introduced recognition system.

키워드

참고문헌

  1. Fundamentals of Speech Recognition L.R.Rabiner;B.H.Juang
  2. 日本電子情報通信學會 確率モデルによる音聲認識 中用聖一
  3. Proc. of ICASSP'92 v.1 A SUCCESSIVE STATE SPLITTING ALGORITHM FOR EFFICIENT ALLOPHONE MODELING j.tAKAMI;s.sAGAYAMA
  4. IEICE Trans. Info. & Syst. v.E78-D no.6 A new HMnet construction algorithm requiring no contextual factors M.Suzuki;S.Makino;A.Ito;H.Aso;H.Shimodaira
  5. Computer Speech and Language v.11 HMM topology design using maximum likelihood successive state splitting M.Ostendoft;H.Singer
  6. Ph.D.thesis A study on large vocabulary continuous speech recognition T.Hori
  7. IEEE 4th workshop on Multimedia Signal Processing New state clustering of hiden Markov network with Korean Phonological rules for speech recognition Se-Jin Oh;Cheoi-Jun Hwang;Bum-Koog Kim;Hyun-Yeol Chung;Akinori Ito
  8. 한국음향학회지 v.21 no.2 결정트리 상태 클러스트링에 의한HM-Net 구조결정 알고리즘을 이용한 음성인식에 관한 연구 오세진;황철준;김범국;정호열;정현열
  9. Proc. of Kyushu-Youngnam Joint Conference on Acoustics, Japan Performance Evaluation of HM-Nets Speech Recognition System using the Large Vocabulary Korean Speech Databases Se-Jin Oh;Cheol-Jun Hwang;Bum-Koog Kim;Hyun-yeol Chung
  10. 2003년도 대한전자공학회 하계종합학술발표대회 논문집 Ⅳ v.26 no.1 한국어 대어휘 음성 DB를 이용한 HM-Net 음성 인식 시스템의 성능평가 오세진;김광동;노덕규;송민규;황철준;김범국;정현얼
  11. 제 16회 신호처리합동학술대회 논문집 상태분할 모드에 따른 HM-Net 음성인식 시스템의 성능평가 오세진;김광동;노덕규;송민규;황철준;김범국;성우창;정현열