DOI QR코드

DOI QR Code

가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델

Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System

  • 김민제 (울산대학교 컴퓨터정보통신공학부) ;
  • 이정철 (울산대학교 컴퓨터정보통신공학부)
  • 발행 : 2006.10.31

초록

본 논문에서는 화자독립 가변어휘 핵심어 검출기의 성능을 개선하기 위하여 두 가지의 새로운 비핵심어 모델링 방법을 제안한다. 첫째는 K-means 알고리즘 기반 monophone 군집화 방법을 개선하기 위해 monophone을 state단위로 결정트리를 기반으로 군집화하여 비핵심어를 모델링하는 방법이다. 둘째는 single state multiple mixture 방법을 개선하기 위해 음절단위 multi-state multiple mixture 방법으로 모델링하는 방법이다. 실험에서 ETRI 표준 한국어 공통음성 단어 DB를 이용하여 트라이폰 모델을 훈련하였고, 훈련에 사용하지 않은 음성데이터를 이용하여 핵심어 검출closed 테스트를 수행하였다. 그리고 사무실 환경에서 4명의 화자가 각각 100문장씩 발성한 400문장의 음성데이터를 이용하여 100단어 핵심어 검출 open 테스트를 수행하였다. 실험 결과 결정트리기반 상태 군집화 방법이 기존의 K-means 알고리듬 기반 monophone clustering 방법보다 핵심어 검출 성능이 28%/29%(closed/open test) 향상되었다 그리고 음절단위 multi-state multiple mixture 방법이 비핵심어 전체를 single state 모델로 구성하는 방법보다 핵심어 검출 성능이 22%/2%(closed/open test) 향상됨으로써 본 논문에서 제안한 두 가지 알고리듬이 우수한 결과를 나타내었다

We Propose two new methods for non-keyword modeling to improve the performance of speaker- and vocabulary-independent keyword spotting system. The first method is decision tree clustering of monophone at the state level instead of monophone clustering method based on K-means algorithm. The second method is multi-state multiple mixture modeling at the syllable level rather than single state multiple mixture model for the non-keyword. To evaluate our method, we used the ETRI speech DB for training and keyword spotting test (closed test) . We also conduct an open test to spot 100 keywords with 400 sentences uttered by 4 speakers in an of fce environment. The experimental results showed that the decision tree-based state clustering method improve 28%/29% (closed/open test) than the monophone clustering method based K-means algorithm in keyword spotting. And multi-state non-keyword modeling at the syllable level improve 22%/2% (closed/open test) than single state model for the non-keyword. These results show that two proposed methods achieve the improvement of keyword spotting performance.

키워드

참고문헌

  1. 황병한, '한국어 가변어휘 인식을 위한 음소 모델링 방법에 관한 연구', 부산대학교 석사졸업논문, 1999
  2. 신영욱, '가변어휘 핵심어 검출 시스템의 구현 및 성능개선', 부산대학교 석사졸업논문, 2001
  3. 김치수, 배건성, '고립단어 인식시스템에서 음성-비음성 식별에 관한 연구', 한국음향학회 학술대회지, 242-245, 1998
  4. 김상훈, 오승신, 정호영, 전형배, 김정세, '공통음성 DB 구축' 한국음향학회 학술대회지, 21-24. 2002
  5. R. C. Rose and D. B. Paul. 'A hidden Markov model based keyword recognition system,' ICASSP, 129-132, 1990
  6. J. G. Wilpon, L. R. Rabiner, C. H. Lee and E. R. Goldman, 'Automatic recognition of keywords in unconstrained speech using hidden Markov models,' IEEE Trans. Acoust., Speech, Signal Processing, 38 (11) 1870-1878, 1990 https://doi.org/10.1109/29.103088
  7. C.-H.Wu, Y.-J.Chen and G.-L.Yan. 'Integration of phonetic and prosodic information for robust utterance verification', Vision, Image and Signal Processing, 147 55-61, 2000 https://doi.org/10.1049/ip-vis:20000099
  8. Se-Jin Oh, Hyun-Yeol Chung, Cheol-Jun Hwang, Bum-Koog Kim, Ito, A., 'New state clustering of hidden Markov network with Korean phonological rules for speech recognition', Multimedia Signal Processing, 39-44, 2001
  9. Mei-Yuh Hwang, Xuedong Huang, Alleva. F.A., 'Predicting unseen triphones with senores', Speech and Audio Processing, 4 (6) 412-419, 1996 https://doi.org/10.1109/89.544526
  10. Young S, Kershaw D, Odell J, Ollason D, Valtchev V, Woodland P, The HTK Book, Entropic Research Laboratories Inc .. 1996