초록
최근 대부분의 화자확인 시스템은 패턴 인식 접근방식에 기인하고 있다. 패턴 분류기의 성능은 화자의 특징 파라미터를 어떻게 분류하는가 하는 데에 기인한다. 그 특징 파라미터를 잘 분류하기 위해서는, 화자간 변이를 최대화하고 특징 파라미터 간 거리를 효과적으로 측정하는 것이 매우 중요하다. 따라서, 본 논문에서는 개인 모델과 월드 모델을 동시에 배치함으로써 화자간 변이를 최대화 할 수 있는 개선된 혼합 모델 구조를 제안한다. 결정 과정 시 제안한 혼합 모델 방식을 사용함으로써 화자간 변별력을 최대화 할 수 있었다. 또한, 입력데이터에 대한 개인 모델과 월드 모델의 거리비율에 따라 심볼 확률 값을 가중하여 벡터 양자화 에러를 줄이는 가중치 함수를 제안 한다. 실험 결과, 이두 가지 방법을 취함으로써 DCF (Detection Cost Function)를 $2.37\%$에서 $1.16\%$로 낮출 수 있었다.
Recently, most of the speaker verification systems are based on the pattern recognition approach method. And performance of the pattern-classifier depends on how to classify a variety of speakers' feature parameters. In order to classify feature parameters efficiently and effectively, it is of great importance to enlarge variations between speakers and effectively measure distances between feature parameters. Therefore, this paper would suggest the positively mixed model scheme that can enlarge inter-speaker variation by searching the individual model with world model at the same time. During decision procedure, we can maximize inter-speaker variation by using the proposed mixed model scheme. We also make use of a symbol probability weighting function in this system so as to reduce vector quantization errors by measuring symbol probability derived from the distance rate of between the world codebook and individual codebook. As the result of our experiment using this method, we could halve the Detection Cost Function (DCF) of the system from $2.37\%\;to\;1.16\%$.