Gaussian Density Selection Method of CDHMM in Speaker Recognition

화자인식에서 연속밀도 은닉마코프모델의 혼합밀도 결정방법

  • 서창우 ((주)인스모바일 기술연구소) ;
  • 이주헌 (동아방송대학 인터넷방송과) ;
  • 임재열 (한국기술교육대학교 정보기술공학부) ;
  • 이기용 (숭실대학교 정보통신전자공학부)
  • Published : 2003.11.01

Abstract

This paper proposes the method to select the number of optimal mixtures in each state in Continuous Density HMM (Hidden Markov Models), Previously, researchers used the same number of mixture components in each state of HMM regardless spectral characteristic of speaker, To model each speaker as accurately as possible, we propose to use a different number of mixture components for each state, Selection of mixture components considered the probability value of mixture by each state that affects much parameter estimation of continuous density HMM, Also, we use PCA (principal component analysis) to reduce the correlation and obtain the system' stability when it is reduced the number of mixture components, We experiment it when the proposed method used average 10% small mixture components than the conventional HMM, When experiment result is only applied selection of mixture components, the proposed method could get the similar performance, When we used principal component analysis, the feature vector of the 16 order could get the performance decrease of average 0,35% and the 25 order performance improvement of average 0.65%.

본 논문은 연속밀도 은닉마코프모델에서 각 상태별 혼합성분 개수를 결정하는 방법을 제안한다. 지금까지의 대부분의 연구가 연속밀도 은닉마코프모델에서 화자의 스펙트럼 특성에 상관없이 각 상태별 동일한 혼합성분 개수를 적용하였다. 이런 접근방법은 많은 계산량을 요구할 뿐만 아니라, 각 상태의 특성을 무시하고 있기 때문에 각 상태별 음성신호의 정확한 모델링을 할 수 없다. 따라서 본 논문에서 제안한 연속밀도 은닉마코프모델의 파라미터 추정은 각 상태별 혼합성분에 대한 발생 확률값에 따라서 결정하였다. 또한 혼합성분의 개수를 줄이는 과정에서 신호의 상관성을 줄이고 시스템의 전체적인 안정성을 얻기 위해서 주성분 분석을 이용하였다. 제안한 방법은 기존의 은닉마코프모델에 비해서 평균 10% 작은 혼합성분 개수를 이용했을 때를 기준으로 실험하였다. 실험결과에서 혼합성분 결정만을 적용했을 때 거의 비슷한 성능을 얻을 수 있었다. 그리고 주성분 분석을 이용했을 때, 특정벡터가 16 차일 때 평균 0.35%의 성능감소가 일어났지만, 25 차에서는 평균 0.65%의 성능개선을 얻을 수 있었다.

Keywords

References

  1. A. E. Rosenberg, C. H. Lee, and F. K. Soong, 'Subword talker verification using hidden Markov models,' IEEE ICASSP, 269-272, 1990
  2. S. Furui, 'An overview of speaker recognition technology,' ESCA workshop on Automatic Speaker Recognition Identification Verification, 1-9, 1994
  3. K. F. Lee, Automatic Speech Recognition: the development of the SPHINX system, Kluwer Academic, 1989
  4. X. D. Huang, Y. Ariki, and M. A. Jack, Hidden Markov Models for Speech Recognition. Edinburgh University, 1990
  5. R. C . Vasko, A. EI-Jarudi, J. R. Boston, 'An algorithm to determine hidden Markov model topology,' ICASS 96, 6, 3577-3580, May, 1996
  6. A. Biem, H. Jin-Young, and J. Subrahmonia, 'A bayesian model selection criterion for HMM topology optimization,' ICASSP 02, 1, 989-992, May 2002
  7. Y. Ariki, S. Tagashira, and M. Nishijima, 'Speaker recognition and speaker normalization by projection to speaker subspace,' ICASSP 96, Atlanta, USA, 319-322, 1996
  8. L. Liu and J. He, 'On the use of orthogonal GMM in speaker recognition,' Pro. ICASSP, 845-849, 1999