Rejection Performance Analysis in Vocabulary Independent Speech Recognition Based on Normalized Confidence Measure

정규화신뢰도 기반 가변어휘 고립단어 인식기의 거절기능 성능 분석

  • 최승호 (동신대학교 멀티미디어학과)
  • Published : 2006.02.01

Abstract

Kim et al. Proposed Normalized Confidence Measure (NCM) [1-2] and it was successfully used for rejecting mis-recognized words in isolated word recognition. However their experiments were performed on the fixed word speech recognition. In this Paper we apply NCM to the domain of vocabulary independent speech recognition (VISP) and shows the rejection Performance of NCM in VISP. Specialty we Propose vector quantization (VQ) based method for overcoming the problem of unseen triphones. It is because NCM uses the statistics of triphone confidence in the case of triphone-based normalization. According to speech recognition experiments Phone-based normalization method shows better results than RLJC[3] and also triphone-based normalization approach. This results are different with those of Kim et al [1-2]. Concludingly the Phone-based normalization shows robust Performance in VISP domain.

고립단어 인식기의 오 인식 단어를 거절하기 위한 방법으로 정규화 신뢰도가 제안되어 논문 [1-2]에서 성공적으로 적용된 바 있다. 그러나 정규화 신뢰도의 성능 측정을 위해 고정된 단어 셌을 대상으로 실험을 하였다. 본 논문에서는 정규화 신뢰도를 가변어휘 음성인식 영역에 적용하여 신뢰도의 거절성능을 밝히고 특히, 벡터양자화기를 이용하여 미 출현 트라이 폰의 문제를 극복하는 방법을 제안한다. 이때 정규화 신뢰도는 트라이 폰 신뢰도들의 통계적 특징(평균과 표준편차)을 사용한다. 가변어휘 인식실험 결과음소 단위의 정규화방법이 트라이 폰 기반 정규화방법에 비하여 우수한 성능을 보였으며 이러한 결과는 논문 [1-2]의 결과와는 상이한 것으로 트라이 폰 기반 정규화 방법이 미 출현 트라이 폰에 대하여 강인하지 못하다는 점을 시사하고 있다. 따라서 정규화 신뢰도가 음소 또는 트라이 폰에 상관없이 기준 신뢰도인 RLTC 신뢰도 [3]에 비하여 우수한 성능을 보였으며 가변어휘 인식에서도 동작함을 확인 할 수 있었다.

Keywords

References

  1. J. Kim, J Lee, S. Choi, 'Hybrid Confidence Measure for Domain-Specific Keyword Spotting', Proc. of lEA/AlE, 15, 736-745. 2002 https://doi.org/10.1007/3-540-48035-8_71
  2. 김철, 이경록, 김진영, 최승호, 최승호, '정규화 신뢰도를 이용한 핵심어 검출 성능 향상.' 한국음향학회지, 21 (4), 380-386, 2002
  3. M.G. Rahim, C.H. Lee, B.H. Juang, W.Chou, 'Discriminative utterance verification using minimum string verification error (MSVE) training', ICASSP-96. 3585-3588, May. 1996
  4. S. Young, HTK Book, ver 2.1, Cambridge University, 1997
  5. Y. Linde. A. Buzo, and R.M. Gray, 'An algorithm for Vector Quantizer design', IEEE Trans. on Communications. COM - 28 (1). 84-95, January. 1980
  6. E. Bocchieri, 'Vector Quantization for the Efficient Computation of Continuous Density Likelihoods', in Proc. of the IEEE Int. Conf. Acoustic, Speech, Signal Processing, 692-695, April, 1993
  7. S.J. Young, N.H. Russell, J.H.S. Thornton, 'Token Passing a simple conceptual model for connected speech recognition systems', Technical report of Cambridge University Engineering Department, TR38, July, 1989