A Study on the Mixed Model Approach and Symbol Probability Weighting Function for Maximization of Inter-Speaker Variation

화자간 변별력 최대화를 위한 혼합 모델 방식과 심볼 확률 가중함수에 관한 연구

  • 진세훈 (광운대학교 전자통신공학과) ;
  • 강철호 (광운대학교 전자통신공학과)
  • Published : 2005.10.01

Abstract

Recently, most of the speaker verification systems are based on the pattern recognition approach method. And performance of the pattern-classifier depends on how to classify a variety of speakers' feature parameters. In order to classify feature parameters efficiently and effectively, it is of great importance to enlarge variations between speakers and effectively measure distances between feature parameters. Therefore, this paper would suggest the positively mixed model scheme that can enlarge inter-speaker variation by searching the individual model with world model at the same time. During decision procedure, we can maximize inter-speaker variation by using the proposed mixed model scheme. We also make use of a symbol probability weighting function in this system so as to reduce vector quantization errors by measuring symbol probability derived from the distance rate of between the world codebook and individual codebook. As the result of our experiment using this method, we could halve the Detection Cost Function (DCF) of the system from $2.37\%\;to\;1.16\%$.

최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.

Keywords

References

  1. 이윤정, 서창우, 강상원, 이기용, '화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델', 한국 음향 학회지, 22 (7), 519-527, 2003
  2. Christoph Neukirchen, Jorg Rottland, Daniel Willett. Gerhard Rigoll, 'A continuous density interpretation of discrete HMM systems and MMI-neural networks', IEEE Trans. Speech Audio Processing, 9, 367-377, May 2001 https://doi.org/10.1109/89.917682
  3. Matsui T., Furui, S., 'Comparison of text-independent speaker recognition methods using VQ-distortion and discrete/continuous HMM's', IEEE Trans. Speech Audio Processing, 2, 456-459,July 1994 https://doi.org/10.1109/89.294363
  4. Zhivuan He, Qixiu Hu, 'A speaker identification system with verification method based on speaker relative threshold and HMM', 6th International Conference on Signal Processing, 1. 488-491, Aug. 2002
  5. Se-hyun Kim, Gil-Jin Jang, Yung-Hwan Oh, 'Improvement of speaker recognition system by individual information weighting', ICSLP2000, 6, China, 1017-1020, Oct. 2000
  6. 정희석, 강철호, '문장종속 화자확인 시스템을 위한 개선된 군집화 알고리즘에 관한 연구', 한국음향학회지, 23 (7), 548-553, 2004
  7. Reynolds, D.A., 'Comparison of background normalization methods for text independent speaker verification', Proceedings of the European Conference on Speech Technology, 963-966, 1995
  8. Y. Linde et al., 'An algorithm for vector quantizer design', IEEE Trans. Commun., COM-28, 84-95, Jan. 1980 https://doi.org/10.1109/TCOM.1980.1094577
  9. A. Martin, G. Doddington, T. kamm, M. Ordowski, and M. przybocki, 'The det curve in assessment of detection performance', Proceedings of European Conference on Speech Technology, 4, 1895-1989. 1997