강건한 문맥독립 화자식별을 위한 프레임 선택방법, 복합방법, 수정된 가중모델순위 방법

Frame Selection, Hybrid, Modified Weighting Model Rank Method for Robust Text-independent Speaker Identification

  • 김민정 (영남대학교 정보통신공학과) ;
  • 오세진 (대구과학대학 디지털 정보통신계열) ;
  • 정호열 (영남대학교 정보통신공학과) ;
  • 정현열 (영남대학교 정보통신공학과)
  • 발행 : 2002.11.01

초록

본 논문에서는 세 가지 문맥독립 화자식별방법을 제안한다. 먼저, 화자 식별시 성도의 특성을 충분히 표현하지 못한 프레임이 포함되지 않도록 하는 프레임선택 (Frame Selection; FS)방법을 제안한다. 이 방법은 각 프레임에서 가장 큰 유사도와 두 번째로 큰 유사도의 차이를 평가하여 중요 프레임을 선택한 후, 선택된 프레임만을 이용하여 유사도를 계산하는 방법이다. 두 번째로 제안하는 복합 (Hyrid)방법은 FS와 가중모델순위 (Weighting Model Rank: WMR)방법을 결합시킨 것으로, FS방법을 이용하여 중요 프레임을 선택한 후, 지수함수 가중치를 이용하여 식별화자를 결정하는 것이다. 마지막으로 제안하는 수정된 가중모델순위 (Modified WMR; MWMR)방법은 식별화자를 결정할 때 유사도의 상대적 위치만을 고려하였던 기존의 U방법과는 달리 유사도와 유사도의 상대적 위치를 함께 고려하는 방법이다. 화자식별 실험결과 제안한 방법들이 기존의 ML 방법보다 향상된 식별률을 보였으며, 복합 방법 및 MWMR방법의 경우에는 WMR방법보다 각각 약 2%와 3%의 향상된 식별률을 나타내어 제안한 방법들의 유효성을 확인할 수 있었다.

In this paper, we propose three new text-independent speaker identification methods. At first, to exclude the frames not having enough features of speaker's vocal from calculation of the maximum likelihood, we propose the FS(Frame Selection) method. This approach selects the important frames by evaluating the difference between the biggest likelihood and the second in each frame, and uses only the frames in calculating the score of likelihood. Our secondly proposed, called the Hybrid, is a combined version of the FS and WMR(Weighting Model Rank). This method determines the claimed speaker using exponential function weights, instead of likelihood itself, only on the selected frames obtained from the FS method. The last proposed, called MWMR (Modified WMR), considers both original likelihood itself and its relative position, when the claimed speaker is determined. It is different from the WMR that take into account only the relative position of likelihood. Through the experiments of the speaker identification, we show that the all the proposed have higher identification rates than the ML. In addition, the Hybrid and MWMR have higher identification rate about 2% and about 3% than WMR, respectively.

키워드

참고문헌

  1. 정보과학회지 v.19 no.7 음성을 이용한 화자인식 기술의 현황과 전망 정현열
  2. Trans. IECE v.55-A no.1 Talker recognition by longtime averaged speech spectrum S.Furui;F.Itakura;S.Saito
  3. Computer Speech and Language v.2 Evaluation of a vector quantization talker recognition system in text independent and text dependent models A.E.Rosenberg;F.K.Soong https://doi.org/10.1016/0885-2308(87)90005-2
  4. IEEE Trans. on SAP v.3 no.1 Robust text-independent speaker identification using Gaussian mixture speaker models D.A.Reynolds;R.C.Rose
  5. Acoustic Speech and Speaker Recognition An overview of speaker recognition technology S.Furui;C.H.LEE(ed.);F.K.Soong(ed.);K.K.Paliwal(ed.)
  6. Proceedings of Acoustical Society of Japan Text-Indepandent speaker identification on TIMIT database K.Markov;S.Nakagawa
  7. Introduction to Statistical Pattern Recognition K.Fukunaga
  8. Speech Communication v.17 no.1-2 Speaker identification and verification using Gaussian mixture speaker models D.A.Reynolds https://doi.org/10.1016/0167-6393(95)00009-D