정질적 기준을 이용한 다층신경망 기반 화자증명 시스템의 등록속도 단축방법

Improving Speaker Enrolling Speed for Speaker Verification Systems Based on Multilayer Perceptrons by Using a Qualitative Background Speaker Selection

  • 이태승 (한국항공대학교 대학원 항공전자공학과) ;
  • 황병원 (한국항공대학교 대학원 항공전자공학과)
  • 발행 : 2003.07.01

초록

다층신경망 (multilayer perceptron)이 다른 패턴인식 방법에 비해 여러 가지 이점을 제공하지만 다층신경망에 기반한 화자증명 시스템은 낮은 증명오류를 달성하기 위한 대규모 배경화자로 인한 느린 등록속도의 문제를 안는다. 이 문제를 해결하기 위해 QnDCS(quantitative discriminative cohort speakers) 방법에서 화자군집 방법을 다층신경망 기반화자증명 시스템에 도입하여 화자등록에 필요한 배경화자의 수를 줄이려는 시도가 있었다. QnDCS 방법이 목적을 어느 정도 달성하긴 했지만 등록속도의 향상률이 만족할만한 수준이지 못했다. 본 논문에서는 보다 높은 등록속도 향상률을 달성하기 위한 방법으로서, 선택되는 배경화자의 수를 더욱 낮추는 정질에 기반한 기준을 도입한 QlDCS (qualitative discriminative cohort speakers) 방법을 제안한다. 두 방법에 대한 성능평가를 위해 다층신경망과 지속음에 기반한 화자증명 시스템과 음성 데이터베이스를 사용한 실험을 실시한다 그 결과 제안한 방법이 QlDCS에 비해 온라인 방식의 EBP (error backpropagation)에 대한 학습속도 향상률 면에서 2배 이상 더 짧은 시간 내에 화자를 등록하는 것으로 나타나 보다 높은 효율을 지녔음을 증명한다.

Although multilayer perceptrons (MLPs) present several advantages against other pattern recognition methods, MLP-based speaker verification systems suffer from slow enrollment speed caused by many background speakers to achieve a low verification error. To solve this problem, the quantitative discriminative cohort speakers (QnDCS) method, by introducing the cohort speakers method into the systems, reduced the number of background speakers required to enroll speakers. Although the QnDCS achieved the goal to some extent, the improvement rate for the enrolling speed was still unsatisfactory. To improve the enrolling speed, this paper proposes the qualitative DCS (QlDCS) by introducing a qualitative criterion to select less background speakers. An experiment for both methods is conducted to use the speaker verification system based on MLPs and continuants, and speech database. The results of the experiment show that the proposed QlDCS method enrolls speakers in two times shorter time than the QnDCS does over the online error backpropagation(EBP) method.

키워드

참고문헌

  1. Proceedings of the IEEE International Conference on Acoustics v.1 Robust model for speaker verification against session-dependent utterance variation T.Matsui;K.Aikawa
  2. Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing v.1 Model adaptation methods for speaker verification W.Mistretta;K.Farrell
  3. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing v.1 Speaker Adaptation of tied-mixture-based phoneme models for text-prompted speaker recognition T.Matsui;S.Furui
  4. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing v.1 Speaker background models for connected digit password speaker verification A.E.Rosenberg;S.Parthasarathy https://doi.org/10.1109/ICASSP.1996.540295
  5. Neural Networks for Speech and Sequence Recognition Y.Bengio
  6. 한국음향학회지 v.21 no.6 다층신경망 기반 화자증명 시스템에서 학습 데이터 감축을 통한 화자등록속도 향상방법 이백영;이태승;황병원
  7. Automatic Speech and Speaker Recognition An overview of speaker recognition technology S.Furui
  8. Speech Recognition C.Becchetti;L.P.Ricotti
  9. Proceedings of the IEEE International Conference on Electronics, Circuits and Systems v.3 New cepstrum frequency scale for neural network speaker verification P.Cristea;Z.Valsan