A Speaker Pruning Method for Reducing Calculation Costs of Speaker Identification System

화자식별 시스템의 계산량 감소를 위한 화자 프루닝 방법

  • 김민정 (영남대학교 전자정보공학부) ;
  • 오세진 (한국천문연구원 KVN사업본부그룹) ;
  • 정호열 (영남대학교 전자정보공학부) ;
  • 정현열 (영남대학교 전자정보공학부)
  • Published : 2003.08.01

Abstract

In this paper, we propose a speaker pruning method for real-time processing and improving performance of speaker identification system based on GMM(Gaussian Mixture Model). Conventional speaker identification methods, such as ML (Maximum Likelihood), WMR(weighting Model Rank), and MWMR(Modified WMR) we that frame likelihoods are calculated using the whole frames of each input speech and all of the speaker models and then a speaker having the biggest accumulated likelihood is selected. However, in these methods, calculation cost and processing time become larger as the increase of the number of input frames and speakers. To solve this problem in the proposed method, only a part of speaker models that have higher likelihood are selected using only a part of input frames, and identified speaker is decided from evaluating the selected speaker models. In this method, fm can be applied for improving the identification performance in speaker identification even the number of speakers is changed. In several experiments, the proposed method showed a reduction of 65% on calculation cost and an increase of 2% on identification rate than conventional methods. These results means that the proposed method can be applied effectively for a real-time processing and for improvement of performance in speaker identification.

본 논문에서는 GMM (Gaussian Mixture Model)에 기반한 문맥독립 화자식별 시스템의 식별성능 향상과 실시간 처리를 위한 계산량 감소를 위하여 화자 프루닝 (Speaker Pruning) 방법을 제안한다. 기존의 화자식별 방법인 최대유사도(Maximum Likelihood) 방법과 가중모델순위 (Weighting Model Rank) 방법, 수정된 가중모델순위 (Modified WMR) 방법 등은 입력 음성 전체와 모든 화자모델들과의 유사도를 프레임 단위로 계산하여 가장 큰 누적 유사도를 가지는 화자를 식별화자로 결정하는 방법으로써, 입력 프레임 및 등록 화자수가 늘어남에 따라 계산량 및 식별시간이 늘어나는 단점이 있었다. 이러한 단점을 해결하기 위하여, 제안방법은 입력음성 프레임의 일부분만을 이용하여 화자모델들과의 프레임 유사도를 계산한 후 계산된 유사도를 이용하여 등록화자의 상위 일부분의 화자만을 선택하고, 선택된 화자들에서만 유사도 계산을 수행함으로서 계산량 및 식별시간을 줄이는 방법이다. 또한, 화자 프루닝을 적용할 경우 화자수가 가변 되더라도 수정된 가중모델 순위방법을 적용할 수 있어 식별성능을 높일 수 있다. 식별실험결과, 제안방법을 적용한 경우 기존의 최대 유사도 방법이나 가중모델순위 방법보다 최대 65%의 계산량 및 식별시간을 감소시킬 수 있었으며, 약 2%의 향상된 식별결과를 나타내어, 본 논문에서 제안한 방법의 유효성을 확인할 수 있었다.

Keywords

References

  1. 정보과학회지 v.19 no.7 음성을 이용한 화자인식 기술의 현황과 전망 정현열
  2. Trans. IECE v.55-A no.1 Talker recognition by longtime averaged speech spectrum S.Furui;F.Itakura;S.Saito
  3. Computer Speech and Language v.2 Evaluation of a vector quantization talker recognition system in text independent and text dependent models A.E.Rosenberg;F.K.Soong https://doi.org/10.1016/0885-2308(87)90005-2
  4. IEEE Trans. on SAP v.3 no.1 Robust text-independent speaker identification using Gaussian mixture speaker models D.A.Reynolds;R.C.Rose
  5. An overview of speaker recognition technology, in Acoustic speech and speaker recognition S.Furui;C.H.Lee(ed.);F.K.Soong(ed.);K.K.Paliwal(ed.)
  6. Proc. Acoust. Soc. Jsp. Text-independent speaker identification on TIMIT database K.Markov;S.Nakagawa
  7. Proc. ICSLP '96 Frame level likelihood normalization for text-independent speaker identification using gaussian mixture models K.Markov;S.Nakagawa
  8. Proc. ICASSP'98 v.2 Frame pruning for speaker recognition L.Besacier;J.F.Bonastre
  9. Journal of the Acoustical Society of Korea v.21 no.8 Frame selection, hybrid, modified weighting model rank method for robust text-independent speaker identification M.J.Kim;S.J.Oh;H.Y.Jung;H.Y.Chung
  10. Proc. Acous. Soc. Korea Modified weighting model rank method for improving the performance of real-time text-independent speaker recognition system M.J.Kim;S.J.Oh;S.Y.Suk;H.Y.Jung;H.Y.Chung
  11. Speech Communication v.9 no.4 Speech database development at MIT: TIMIT and beyond V.Zue;S.Seneff;J.Glass https://doi.org/10.1016/0167-6393(90)90010-7