Flexible Speaker Adaptation Reflecting the Quality of Adaptation Data

Adaptation Data의 Quality를 고려한 강인한 화자 적응

  • Pyo Hyun-A (Division of Com outer Science Department of Electrical Engineering & Computer Science Korea Advanced Institute of Science and Technology) ;
  • Kim Se-Hyun (Division of Com outer Science Department of Electrical Engineering & Computer Science Korea Advanced Institute of Science and Technology) ;
  • Oh Yung-Hwan (Division of Com outer Science Department of Electrical Engineering & Computer Science Korea Advanced Institute of Science and Technology)
  • 표현아 (한국과학기술원 전자전산학과 전산학) ;
  • 김세현 (한국과학기술원 전자전산학과 전산학) ;
  • 오영환 (한국과학기술원 전자전산학과 전산학)
  • Published : 2002.07.01

Abstract

최근 음성 인식 시스템의 성능 향상을 위해 화자 적응(speaker adaptation)에 대한 연구가 활발히 진행되고 있다. HMM 기반 인식 시스템의 모델 파라미터를 수정하는 화자 적응의 경우, MAP 방법과 MLLR 방법에 대한 연구가 주류를 이루고 있다. 두 방법은 adaptation data의 양에 따라서 서로 다른 성능을 보인다. 본 논문에서는 adaptation data의 quality를 정의하고, 이를 기존 두 방법의 가중치로 이용하여 화자 적응을 수행하는 방법을 제안한다. 제안한 방법을 KAIST 통신연구실에서 구축한 한국어 도시이름 500단어 인식 시스템에 적용하여 성능을 개선하였다.

Keywords