Improvement of Keyword Spotting Performance Using Normalized Confidence Measure

정규화 신뢰도를 이용한 핵심어 검출 성능향상

  • Published : 2002.05.01

Abstract

Conventional post-processing as like confidence measure (CM) proposed by Rahim calculates phones' CM using the likelihood between phoneme model and anti-model, and then word's CM is obtained by averaging phone-level CMs[1]. In conventional method, CMs of some specific keywords are tory low and they are usually rejected. The reason is that statistics of phone-level CMs are not consistent. In other words, phone-level CMs have different probability density functions (pdf) for each phone, especially sri-phone. To overcome this problem, in this paper, we propose normalized confidence measure. Our approach is to transform CM pdf of each tri-phone to the same pdf under the assumption that CM pdfs are Gaussian. For evaluating our method we use common keyword spotting system. In that system context-dependent HMM models are used for modeling keyword utterance and contort-independent HMM models are applied to non-keyword utterance. The experiment results show that the proposed NCM reduced FAR (false alarm rate) from 0.44 to 0.33 FA/KW/HR (false alarm/keyword/hour) when MDR is about 8%. It achieves 25% improvement of FAR.

Rahim의 논문 (M.G. Rahim, et al., PROC. of ICASSP96, 1996)과 같은 기존의 후처리 방법은 음소 모델과 반모델 (anti-model)의 유사도를 이용하여 음소 단위 신뢰도를 계산하고, 이들의 평균을 단어 단위 신뢰도로 정의한다. 그런데 음소단위의 신뢰도가 동일한 확률밀도함수를 갖는 것이 아니기 때문에 특정단어의 경우 계산된 신뢰도는 대체로 낮은 값을 갖는다. 이를 극복하기 위한 방법으로서, 본 논문에서는 기존의 신뢰도를 통계적으로 정규화한 신뢰도를 제안한다. 즉 음소단위의 신뢰도가 가우시안 분포를 갖는다고 가정한 후 트라이 폰(sri-phone) 단위로 정규화하여 동일한 정규분포를 갖도록 한다. 본 논문에서는 제안된 방법의 검증을 위하여 문맥종속 핵심어 모델과 문맥독립 필러 모델을 이용한 일반적인 핵심어 검출기를 사용하였다. 실험결과 제안된 정규화 신뢰도 (NCM: Normalized Confidence Measure)가 불검출율 (WDR: Missed Detection Rate) 8%정도에서 오검출율 (PAR: false alarm rate)을 0.44에서 0.33 FA/KW/HR (false alarm/keyword/hour)로 저하시켰다. 이것은 오검출율에서 성능이 25% 향상된 것이다.

Keywords

References

  1. Proc. of ICASSP 96 Discriminative utterance verification using minimum string verification error (MSVE) training M. G. Rahim;C. H. Lee;B. H. Juang;W. Chou
  2. Proc. of Eurospeech v.93 no.2 Phonetic-based word spotter : Various configurations and application to event spotting P. Jeanrenaud;K. Ng;J. R. Siu;M. Rohlicek;H. Gish
  3. 한국음향학회지 v.20 no.2 가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교 김기태;문광식;김회린;이영직;정재호
  4. Proc. of ICSLP 2000 v.2 Keyword spotting in auto-sttendant system G. Guo;Y. W. Z. Lin;B. S. Yaun;Q. Zhao;J. A. Liu
  5. Technical report of Cambridge university engineering department, TR 38 Token Passing;a simple conceptual model for connected speech recognition systems S. J. Young;N. H. Russell;J. H. S. Thornton
  6. Proc. of Eurospeech 97 v.1 Efficient methods for detecting keywords in continuous speech J. Junkawitsch;G. Ruske;H. Hoge