Text-dependent Speaker Recognition System Using DTW & VQ

VQ와 DTW를 이용한 문장 의존형 화자인식 시스템

  • Jung JongSoon (Dept. of Telecommunication, Soongsil University) ;
  • Oh SeYoung (Dept. of Telecommunication, Soongsil University) ;
  • Bae MyungJin (Dept. of Telecommunication, Soongsil University)
  • 정종순 (숭실대학교 정보통신공학과) ;
  • 오세영 (숭실대학교 정보통신공학과) ;
  • 배명진 (숭실대학교 정보통신공학과)
  • Published : 2001.11.01

Abstract

The speaker recognition method using DTW algorithm has the problem that is reducing the performance of the speaker recognition system as the time variation. So there are many proposed algorithms to solve these problems. This paper proposes the new method If make the reference pattern that is acceptable to intra-speaker variation by reference pattern normalization. And to avoid reducing performance of speaker recognition system, we use the modified reference pattern to recognize the system user. The used methods in this paper are VQ and DTW. As the result of simulation we can obtain the $97.5\%$ of recognition accuracy rate.

초기 DTW(Dynamic Time Warping)를 이용한 화자인식 방법은 인식률이 시간이 지남에 따라 저하된다는 단점이 있었다[1][3][4]. 따라서 이를 보완하기 위한 새로운 알고리즘이 많이 제안되었다. 본 논문에서는 DTW방법을 이용한 화자 인식 시스템의 사용자 등록시기에 화자에 대한 불충분한 음성특징을 보충하고 시간이 지남에 따라 발생하는 오인식률의 증가를 줄이기 위해 사용자 등록시 기준패턴의 정규화를 수행하고 시스템 사용시 기준패턴을 변경하는 방법이다. 본 논문에서 사용된 핵심적인 알고리즘은 VQ(Vector Quantization)와 DTW 방법이다. 본 논문의 알고리즘을 이용한 모의 실험 결과 기존의 방법에 비해 $3.3\%$ 인식률 향상되어 $97.5\%$의 인식률을 얻을 수 있었다.

Keywords