화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델

RPCA-GMM for Speaker Identification

  • 이윤정 (숭실대학교 정보통신전자공학부) ;
  • 서창우 (인스 모바일 기술연구소) ;
  • 강상기 (삼성전자 정보통신총괄 연구소) ;
  • 이기용 (숭실대학교 정보통신전자공학부)
  • 발행 : 2003.10.01

초록

음성신호는 주변 잡음과 화자의 발성 패턴 변화, 음성 검출 오류에서 생기는 이상치(outlier)에 많은 영향을 받고 있다. 이러한 음성 신호를 이용하여 화자인식에 이용할 경우 인식률이 저하된다. 본 논문에서는 화자식별 (speaker identification)에서 학습 특징 벡터의 이상치와 고차원 문제를 해결하기 위하여 M-추정을 이용한 강인한 주성분 분석 가우시안 혼합모델 (Robust Principal Component Analysis-Gaussian Mixture Model)방법을 제안하였다. 제안된 방법은 먼저, 특징 벡터에 이상치가 존재할 경우 M-추정에 의하여 강인한 공분산 행렬을 재추정하여 얻어진 고유벡터로부터 변환 행렬을 구하여 감소된 차원을 갖는 새로운 특징벡터를 구한다. 여기에서 얻은 선형변환된 특징벡터로부터 화자의 가우시안 혼합 모델을 구한다. 제안된 방법의 성능을 검증하기 위하여 화자식별 실험을 하였다. 실험은 전형적인 가우시안 혼합 모델 방법과 주성분 분석법, 제안된 방법을 비교 분석하였다. 이상치가 2%씩 증가할 때마다 가우시안 혼합모델 방법과 주성분 분석법은 각각 0.65%, 0.55%씩 화자식별 성능이 저하되었지만, 제안된 방법은 0.03%정도 감소하였으므로 이상치에 더욱 강인함을 알 수 있다.

Speech is much influenced by the existence of outliers which are introduced by such an unexpected happenings as additive background noise, change of speaker's utterance pattern and voice detection errors. These kinds of outliers may result in severe degradation of speaker recognition performance. In this paper, we proposed the GMM based on robust principal component analysis (RPCA-GMM) using M-estimation to solve the problems of both ouliers and high dimensionality of training feature vectors in speaker identification. Firstly, a new feature vector with reduced dimension is obtained by robust PCA obtained from M-estimation. The robust PCA transforms the original dimensional feature vector onto the reduced dimensional linear subspace that is spanned by the leading eigenvectors of the covariance matrix of feature vector. Secondly, the GMM with diagonal covariance matrix is obtained from these transformed feature vectors. We peformed speaker identification experiments to show the effectiveness of the proposed method. We compared the proposed method (RPCA-GMM) with transformed feature vectors to the PCA and the conventional GMM with diagonal matrix. Whenever the portion of outliers increases by every 2%, the proposed method maintains almost same speaker identification rate with 0.03% of little degradation, while the conventional GMM and the PCA shows much degradation of that by 0.65% and 0.55%, respectively This means that our method is more robust to the existence of outlier.

키워드

참고문헌

  1. IEEE Trans. SAP. v.3 no.1 Robust text-independent speaker identification using gaussian mixture speaker models D.A.Reynolds;R.C.Rose
  2. ICASSP, Proc. On the use of orthogonal GMM in speaker recognition L.Liu;J.He
  3. Electronics Letters (22nd) v.37 no.24 GMM based on local PCA for Speaker identification C.Seo;K.Y.Lee;J.Lee https://doi.org/10.1049/el:20010976
  4. Principal Component Analysis I.T.Jolliffe
  5. Biometrika v.87 no.3 Princepal component analysis based on robust estimators of the covariance or correlation matrix: Influence function and efficiencies C.Croux;G.Haesbroeck https://doi.org/10.1093/biomet/87.3.603
  6. Robust Statistics P.J.Huber
  7. J. Royal Stat. Soc. v.29 Maximum likelihood from incomplete data via the EM algorithm A.Dempster;N.Laird;D.Doubin