DOI QR코드

DOI QR Code

Improvement in Supervector Linear Kernel SVM for Speaker Identification Using Feature Enhancement and Training Length Adjustment

특징 강화 기법과 학습 데이터 길이 조절에 의한 Supervector Linear Kernel SVM 화자식별 개선

  • 소병민 (서울시립대학교 컴퓨터과학부) ;
  • 김경화 (대검찰청 음성분석실) ;
  • 김민석 (LG 전자기술원) ;
  • 양일호 (서울시립대학교 컴퓨터과학부) ;
  • 김명재 (서울시립대학교 컴퓨터과학부) ;
  • 유하진 (서울시립대학교 컴퓨터과학부)
  • Received : 2011.06.22
  • Accepted : 2011.07.27
  • Published : 2011.08.31

Abstract

In this paper, we propose a new method to improve the performance of supervector linear kernel SVM (Support Vector Machine) for speaker identification. This method is based on splitting one training datum into several pieces of utterances. We use four different databases for evaluating performance and use PCA (Principal Component Analysis), GKPCA (Greedy Kernel PCA) and KMDA (Kernel Multimodal Discriminant Analysis) for feature enhancement. As a result, the proposed method shows improved performance for speaker identification using supervector linear kernel SVM.

본 논문에서는 supervector linear kernel SVM을 사용한 화자식별 시스템의 성능을 개선하는 방법을 제안하였다. 제안한 방법은 긴 학습 데이터를 여러 개의 짧은 학습 데이터로 분할하는 것을 기본 아이디어로 하고 있다. 제안한 방법의 성능을 평가하기 위해 서로 다른 4가지 데이터베이스에 PCA, GKPCA, KMDA를 사용하여 특징 강화를 하고 실험한 뒤 결과를 분석하였다. 실험 결과 제안한 방법이 supervector linear kernel SVM을 사용한 화자 식별 성능을 향상 시키는 것을 확인하였다.

Keywords

References

  1. W.M. Campbell, D.E. Sturim, D.A. Reynolds, "Support Vector Machines using GMM Supervectors for Speaker Verification," IEEE Signal Processing Letters, vol. 13, no. 5, pp. 308-311, 2006. https://doi.org/10.1109/LSP.2006.870086
  2. Douglas A. Reynolds and Richard C. Rose, "Robust Text- Independent Speaker Identification Using Gaussian Mixture Speaker Models," IEEE Trans. Speech Audio Processing, vol. 3, no. 1, pp. 72-83, 1995. https://doi.org/10.1109/89.365379
  3. Douglas A. Reynolds, Thomas F. Quatieri and Robert B. Dunn, "Speaker Verification Using Adapted Gaussian Mixture Models," Digital Signal Processing., vol. 10, no. 1-3, pp. 19-41, Jan. 2000. https://doi.org/10.1006/dspr.1999.0361
  4. J.-L. Gauvain and C.-H. Lee, "Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains," IEEE Trans. Speech Audio Proc., vol. 2, no. 2, pp. 291- 298, Apr. 1994. https://doi.org/10.1109/89.279278
  5. Smith, L. I, "A tutorial on Principal Components Analysis", 2002.
  6. 김민석, 양일호, 유하진, "Greedy Kernel PCA를 이용한 화자식별", 말소리, 66호, 105-116쪽, 2008.
  7. Kim, M-S., Yang, I-H., Yu, H-J., "Kernel multimodal discriminant analysis for speaker verification", In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 4498-4501. 2010.
  8. B. Scholkopf, A. Smola and K.-R. Muller, "Kernel Principal Component Analysis," In Int. Conf. on Aritificil Neural Networks, pp. 583-588, 1997.