GMM을 위한 점진적 ${\cal}k-means$ 알고리즘에 의해 초기값을 갖는 EM알고리즘과 화자식별에의 적용

EM Algorithm with Initialization Based on Incremental ${\cal}k-means$ for GMM and Its Application to Speaker Identification

  • 서창우 ((주)인스모바일 기술연구소) ;
  • 한헌수 (숭실대학교 정보통신공학과) ;
  • 이기용 (숭실대학교 정보통신공학과) ;
  • 이윤정 (숭실대학교 정보통신공학과)
  • 발행 : 2005.04.01

초록

개개인의 음성을 이용한 화자식별에서, 화자 모델을 추정하는데 가우시안 혼합모델이 주로 사용된다. 최대 우도 추정을 갖는 가우시안 혼합모델의 파라미터 추정은 Expectation-Maximisation (EM)을 사용하여 얻을 수 있다. 그러나, EM 알고리즘은 초기값에 상당히 민감하고, 혼합성분의 개수를 미리 알고 있어야 하는 단점이 있다. 본 논문에서는, EM 알고리즘의 문제점을 해결하기 위하여 가우시안 혼합모델을 위한 점진적 ${\cal}k-means$ 알고리즘에 의한 초기값을 갖는 EM 알고리즘을 제안한다. 제안된 방법은 혼합성분의 개수를 점진적 ${\cal}k-means$ 방법을 이용하여 한번에 하나씩 혼합성분을 추정하여 최적의 혼합성분이 얻어 질 때까지 이를 반복 수행한다. 하나의 혼합성분이 추가될 때마다, 새로 얻어진 혼합성분과 이전에 구한 혼합성분들간의 상호 관계를 각각 측정한다. 이로부터, 통계적으로 독립인 최적의 혼합성분 개수를 추정할 수 있다. 제안된 방법의 성능을 확인하기 위하여 임의의 생성 데이터와 실제 음성을 사용하였다. 실험 결과에서, 제안된 방법이 기존의 방법보다 화자 식별 성능이 우수하였으며, 또한 성능을 유지하면서도 계산량 감소의 효과까지 볼 수 있었다.

Tn general. Gaussian mixture model (GMM) is used to estimate the speaker model from the speech for speaker identification. The parameter estimates of the GMM are obtained by using the Expectation-Maximization (EM) algorithm for the maximum likelihood (ML) estimation. However the EM algorithm has such drawbacks that it depends heavily on the initialization and it needs the number of mixtures to be known. In this paper, to solve the above problems of the EM algorithm. we propose an EM algorithm with the initialization based on incremental ${\cal}k-means$ for GMM. The proposed method dynamically increases the number of mixtures one by one until finding the optimum number of mixtures. Whenever adding one mixture, we calculate the mutual relationship between it and one of other mixtures respectively. Finally. based on these mutual relationships. we can estimate the optimal number of mixtures which are statistically independent. The effectiveness of the proposed method is shown by the experiment for artificial data. Also. we performed the speaker identification by applying the proposed method comparing with other approaches.

키워드

참고문헌

  1. Paclik, P., Novovicova, J., 'Number of components and initialization in Gaussian Mixture Model for pattern recognition', In Proceedings of the 14th ICPR, Australia, 886-890, 1998
  2. Figueiredo, M.A.T., Jain, A.K., 'Unsupervised Learning of finite mixture models,' IEEE Trans. on PAMI., 24 (3), 381-396, 2002 https://doi.org/10.1109/34.990138
  3. Reynolds, D.A. Rose, R., 'Robust text-independent speaker identification using Gaussian mixture speaker models,' IEEE Trans. on SAP, 3 (1), 72-82, 1995
  4. Dempster, A., Laird, N., Rubin, D., 'Maximum likelihood from incomplete data via the EM algorithm,' J.Roy.Statist. Soc. Ser., B39, 1-38, 1977
  5. Richardson, S., Green, P., 'Bayesian Approaches to Gaussian Mixture Modelling,' IEEE Trans. on PAMI, 2, 243-252, 1997
  6. Mclachlan, G., Peel, D., Finite Mixture Models, (John Wiley & Sons, New York, 2000)
  7. Akaike, H., 'Information theory and an extension of the maximum likelihood principle', In second International Symposium on Information Theory, eds. V.N. Petrov and F. Csaki, Budapest: Akailseoniai-Kiudo, 267-281, 1973
  8. Schwarz, G., 'Estimating the Dimension of a Model,' Annals of Statistics, 6, 461-464, 1978 https://doi.org/10.1214/aos/1176344136
  9. C. Biernacki, G.Celeux and G. Govarert., 'Assessing a Mixture Model for Clustering with the Integrated Completed Likelihood,' Technical Report 3,521, Inria, 1998
  10. Yang, Z.R., Zwolinski, M., 'Mutual information theory for adaptive mixture models,' IEEE Trans. on PAMI, 23 (4), 396-403, 2001 https://doi.org/10.1109/34.917574
  11. 이윤정, 이기용, '화자 식별을 위한 GMM의 혼합성분의 개수 추정', 한국음성과학회, 11 (2), 237-246, 2004
  12. Likas,A., Vlassis, N., Verbeek, J., 'The Global k-means clustering algorithm,' Pattern Recognition 36, 451-461, 2003 https://doi.org/10.1016/S0031-3203(02)00060-2
  13. Cheung, Y., 'k-means: A new generalized k-means clustering algorithm,' Pattern Recognition Letters 24, 2883-2893, 2003 https://doi.org/10.1016/S0167-8655(03)00146-6