상태레벨 공유를 이용한 MLLR 적응화의 회귀클래스 생성에 관한 연구

A Study on Regression Class Generation of MLLR Adaptation Using State Level Sharing

  • 오세진 (한국천문연구원 KVN 사업본부) ;
  • 성우창 (영남대학교 전자정보공학부) ;
  • 김광동 (한국천문연구원 KVN 사업본부) ;
  • 노덕규 (한국천문연구원 KVN 사업본부) ;
  • 송민규 (한국천문연구원 KVN 사업본부) ;
  • 정현열 (영남대학교 전자정보공학부)
  • 발행 : 2003.11.01

초록

본 논문에서는 HM-Net (Hidden Markov Network)을 다양한 태스크에의 적용과 화자의 특성을 효과적으로 나타내기 위해 HM-Net 음성인식 시스템에 MLLR (Maximum Likelihood Linear Regression) 적응방법을 도입하였으며, HM-Net 학습 알고리즘을 개량하여 회귀클래스 생성방법을 제안한다. 제안방법은 PDT-SSS (Phonetic Decision Tree-based Successive State Splitting)알고리즘의 문맥방향 상태분할에 의한 상태레벨 공유를 이용한 방법이다. 즉, 문맥방향의 각 상태에 적응화자 음성데이터에 포함된 문맥정보를 분할하여 적응화될 음소환경을 결정하는 것이다. 따라서 제안방법은 새로운 화자로부터 문맥정보와 적응화 데이터의 발성 양에 의존하여 결정된 많은 적응 파라미터들을 (평균, 분산) 자유롭게 제어할 수 있게 된다. 제안방법의 유효성을 확인하기 위해 국어공학센터 (KLE) 452 데이터와 항공편 예약관련 (YNU200) 연속음성을 대상으로 인식실험을 수행한 결과, 음소인식, 단어인식, 연속음성인식에 대해서, 평균 34∼37%, 평균 9%, 평균 20%의 성능 향상을 각각 보였다. 또한 적응화 데이터의 양에 따른 인식성능 비교에서 제안방법을 적용한 인식 시스템이 적응 데이터의 양이 적은 경우에도 향상된 인식률을 보여 MLLR 적응방법의 특성을 만족하였다. 따라서 MLLR 적응방법을 도입한 HM-Net 음성인식 시스템에 제안한 회귀클래스 생성방법이 유효함을 확인할 수 있었다.

In this paper, we propose a generation method of regression classes for adaptation in the HM-Net (Hidden Markov Network) system. The MLLR (Maximum Likelihood Linear Regression) adaptation approach is applied to the HM-Net speech recognition system for expressing the characteristics of speaker effectively and the use of HM-Net in various tasks. For the state level sharing, the context domain state splitting of PDT-SSS (Phonetic Decision Tree-based Successive State Splitting) algorithm, which has the contextual and time domain clustering, is adopted. In each state of contextual domain, the desired phoneme classes are determined by splitting the context information (classes) including target speaker's speech data. The number of adaptation parameters, such as means and variances, is autonomously controlled by contextual domain state splitting of PDT-SSS, depending on the context information and the amount of adaptation utterances from a new speaker. The experiments are performed to verify the effectiveness of the proposed method on the KLE (The center for Korean Language Engineering) 452 data and YNU (Yeungnam Dniv) 200 data. The experimental results show that the accuracies of phone, word, and sentence recognition system increased by 34∼37%, 9%, and 20%, respectively, Compared with performance according to the length of adaptation utterances, the performance are also significantly improved even in short adaptation utterances. Therefore, we can argue that the proposed regression class method is well applied to HM-Net speech recognition system employing MLLR speaker adaptation.

키워드

참고문헌

  1. S. Sagayama and S. Honma, 'Estimation of unknown context using a phoneme environment clustering algorithm,' Proc. of ICSLP90, 1, 361-364, 1990
  2. K. F. Lee and H. W. Hon, 'Large vocabulary speaker independent continuous speech recognition using HMM,' Proc. of ICASSP'88. 123-126, 1988
  3. J. Takami and S. Sagayama, 'A successive state splitting algorithm for efficient allophone modeling,' Proc. of ICASSP'92, 1, 573-576, 1992
  4. S. Younq and P. Woodland, 'The use of state tying in continuous speech recognition,' Proc. of EUROSPEECH'93, 2203-2206, 1993
  5. J. L. Gauvain and C. H. Lee, 'Maximum a posteriori estimation for multivariate gaussian mixture observations of Markov Chains,' IEEE Trans. Speech Audio Processing, 2, 291-298, 1994 https://doi.org/10.1109/89.279278
  6. M. J. E. Gales and P. C. Woodland, Variance Compensation within the MLLR Framework, Technical Report CUED/FINFENG/TR242, Cambridge University, 1996
  7. M. J. E. Gales, The Generation and Use of Regression Class Trees for MLLR Adaptation, Technical Report CUED/F-INFENG/TR263, Cambridge University, 1996
  8. R. Haeb Umbach, 'Automatic generation of phonetic regression class trees for MLLR adaptation,' IEEE Trans. on Speech and Audio Processing, 9 (3), 299-302, 2001 https://doi.org/10.1109/89.906003
  9. 오세진, 황철준, 김범국, 정호열, 정현열, '결정트리 상태 클러스트링에 의한 HMNet 구조결정 알고리즘을 이용한 음성인식에 관한 연구,' 한국음향학회지, 21 (2), 199-210, 2002
  10. M. Ostendoft and H. Singer, 'HMM topology design using maximum likelihood successive state splitting,' Computer Speech and Language, 11, 17-41, 1997
  11. 임영춘, 오세진, 김광동, 노덕규, 송민규, 정현열, '음성인식에서 문맥의존 음향모델의 성능향상을 위한 유사음소단위에 관한 연구', 한국음향학회지, 22 (5), 2003
  12. 성우창, 오세진, 김광동, 정호열, 정현열, '결정트리 상태 클러스터링에 의한 MLLR 적응화의 회귀 클래스 생성에 관한 연구,' 2003년도 한국음향학회 하계학술발표대회 논문집, 22 1(s), 121-124, 2003
  13. T. Hori, M. Katoh, A. Ito, and M. Kohda, 'A study on HMNets using decision tree-based successive state splitting,' Proc. of ICSP'97, 2, 383-387, 1997
  14. L. R. Rabiner and B. H. Juang, Fundamentals of Speech Recognition. Prentice Hall, 1993
  15. S.-J. Oh, K.-D. Kim, D.-G. Roh, W.-C. Sung, and H.-Y. Chung, "Speaker adaptation using regression classes generated by phonetic decision tree based successive state splitting,' Abstract Book of EUROSPEECH'03, 51, 2003