DOI QR코드

DOI QR Code

A Study of Keyword Spotting System Based on the Weight of Non-Keyword Model

비핵심어 모델의 가중치 기반 핵심어 검출 성능 향상에 관한 연구

  • 김학진 (명지전문대학 컴퓨터정보과) ;
  • 김순협 (광운대학교 컴퓨터공학과)
  • Published : 2003.08.01

Abstract

This paper presents a method of giving weights to garbage class clustering and Filler model to improve performance of keyword spotting system and a time-saving method of dialogue speech processing system for keyword spotting by calculating keyword transition probability through speech analysis of task domain users. The point of the method is grouping phonemes with phonetic similarities, which is effective in sensing similar phoneme groups rather than individual phonemes, and the paper aims to suggest five groups of phonemes obtained from the analysis of speech sentences in use in Korean morphology and in stock-trading speech processing system. Besides, task-subject Filler model weights are added to the phoneme groups, and keyword transition probability included in consecutive speech sentences is calculated and applied to the system in order to save time for system processing. To evaluate performance of the suggested system, corpus of 4,970 sentences was built to be used in task domains and a test was conducted with subjects of five people in their twenties and thirties. As a result, FOM with the weights on proposed five phoneme groups accounts for 85%, which has better performance than seven phoneme groups of Yapanel [1] with 88.5% and a little bit poorer performance than LVCSR with 89.8%. Even in calculation time, FOM reaches 0.70 seconds than 0.72 of seven phoneme groups. Lastly, it is also confirmed in a time-saving test that time is saved by 0.04 to 0.07 seconds when keyword transition probability is applied.

본 논문에서는 핵심어 검출기의 성능 향상을 위해 가베지 클라스 클러스터링과 함께 필러 모델에 가중치론 부여하는 방안 및 태스크 도메인 이용자들의 발화 음성의 성향 분석을 통해 핵심어 천이 확률을 계산하여 핵심어 검출기반 대화 음성처리 시스템의 처리 시간 단축 방안을 제안한다. 제안한 방법은 음성학적으로 유사한 음소끼리 묶어서 사용함으로써 하나의 음소는 잘 표현하지 못하지만 비슷한 음소 그룹의 표현에는 유용한 방법으로 본 논문에서는 한국어 형태론과 태스크 도메인으로 선정한 증권거래 대화음성처리 시스템에서 활용되는 발화 문장을 분석하여 5 음소군을 제시한다. 또한 이들 음소군에 태스크 종속적인 필러 모델 가중치를 부여하며, 두 번째로는 시스템의 처리시간 단축을 위해 연속 발화 문장 속에 포함되어 있는 핵심어 천이 확률을 계산하여 시스템에 적용 실험한다. 제안한 시스템의 성능 평가를 위해 태스크 도메인에 활용되는 4,970 문장의 코퍼스를 구축하고, 이용자 중 20대∼30대 5명이 발성하게 하여 실험한 결과, 제안한 5 음소군에 가중치를 부여한 방법의 FOM은 87.5%로 Yapanel[1]의 7음소군 85.5%보다 우수한 성능을 보였으나, LVCSR의 89.8%보다는 약간 뒤지는 성능을 확인하였다. 계산시간에 있어서도 0.70초로 7음소군의 0.72초보다 우수한 성능을 보였다. 핵심어 천이 확률 분석을 통한 인식 시간 단축 실험에서는 천이 확률을 적용했을 때 약 0.04초∼0.07초의 처리 시간을 단축하는 것을 확인하였다.

Keywords

References

  1. Umit Yapanel, 'Garbage modeling techniques for a turkish keyword spotting,' Bogazici univ., 2000
  2. R. Rose, 'Definition of subword acoustic units for word spotting,' Proc. EURO SPEECH 93, pp.1049-1052, 1993
  3. P. Jeanrenaude, K. Ng, M. Siu, J. R. Rohlicek and H. Gish, 'Phonetic-based word spotter : various configurations and application to event spotting,' Proc. EURO SPEECH 93, pp.1057-1060, 1993
  4. E. Lleida, J. B. Marino, J. Salavedra, A. Bonafonte, E. Monte and A. Martinez, 'Out-of-vocabulary word modelling and rejection for keyword spotting,' Proc. EURO SPEECH 93, pp.1265-1268, 1993
  5. M. Weintraub, 'Keyword-spotting using SRI's DECIPHER large-vocabulary speech recognition system,' Proc. ICASSP 93, pp. 463-466, 1993 https://doi.org/10.1109/ICASSP.1993.319341
  6. 오영환, '음성 언어 정보처리', 홍릉과학출판사, 1998
  7. Alexandros S. Manos and Victor W. Zue, 'A segment based word spotter using phonetic filler models,' Spoken Lanauage Systems Group Laboratory for Computer Science Massachusetts Institute of Technology Cam bridge, 1996
  8. Young, S.J., Russell, N. H., Thornton J. H. S., Token Passing : a Simple Conceptual Model for Connected Speech Recognition Systems, Technical Report, Cambridge University Engineering Department, July, 1989
  9. Rose, R. C., Discriminant Word spotting Techniques for Rejecting Non-vocabulary Utterances in Unconstrained Speech, Proceedings of the 1992 International Conference on Acoustics, Speech and Signal Processing, March, 1992
  10. Knill, K. M. and Young S. J., 'Speaker Dependent Keyword Spotting for Accessing Stored Speech,' CUED/F-INFENG/TR 193, October, 1994
  11. 'Garbage modeling techniques for a Turkish keyword spotting system,' 2001
  12. Rose R. C. and Paul D. B., 'A Hidden Markov Model Based Keyword Recognition System,' in Proc. IEEE ICASSP, pp.129-132, April, 1990 https://doi.org/10.1109/ICASSP.1990.115555
  13. Herve Bourlard, Bart D'hoore, Jean-Marc Boite 'Optimizing recognition and rejection performance in word spotting systems,' in Proc. IEEE ICASSP, pp.1-373-376, 1994
  14. J. G. Wilpon, L. R. Rabiner, C. H. Lee and E. R. Goldman, 'Automatic recognition of keywords in unconstrained speech using hidden markov models,' IEEE Trans. Acoust., Speech, Signal Processing, Vol.38, No.11, pp1870-1878, 1990 https://doi.org/10.1109/29.103088
  15. 김형순, '연속음성 인식에서의 Keyword spotting 적용방식 연구', 한국전자통신연구소, 1995
  16. 허 웅, '국어음운론', 정음사, 1987