A Study on Recognition Units and Methods to Align Training Data for Korean Speech Recognition)

한국어 인식을 위한 인식 단위와 학습 데이터 분류 방법에 대한 연구

  • 황영수 (관동대학교 정보기술공학부)
  • Published : 2003.04.01

Abstract

This is the study on recognition units and segmentation of phonemes. In the case of making large vocabulary speech recognition system, it is better to use the segment than the syllable or the word as the recognition unit. In this paper, we study on the proper recognition units and segmentation of phonemes for Korean speech recognition. For experiments, we use the speech toolkit of OGI in U.S.A. The result shows that the recognition rate of the case in which the diphthong is established as a single unit is superior to that of the case in which the diphthong is established as two units, i.e. a glide plus a vowel. And recognizer using manually-aligned training data is a little superior to that using automatically-aligned training data. Also, the recognition rate of the case in which the bipbone is used as the recognition unit is better than that of the case in which the mono-Phoneme is used.

본 연구는 한국어 분절음 인식을 위한 인식 단위 설정과 학습시 학습 데이터 분할 방법에 대한 연구이다 대용량 음성 인식을 수행할 경우, 표준 패턴의 인식 단위를 단어나 음절이 아닌 분절음 단위로 사용하여야 효율적인 음성 인식을 수행할 수 있다. 본 연구는 이와 같은 분절음 인식을 수행하기 위한 연구로서, 인식 단위 설정 변화와 학습시 학습 데이터 분할 방법에 따른 인식 결과를 미국 OGI 연구소의 speech toolkit을 이용하여 검토한다. 인식 단위에 관해서 특히 모음의 경우 철자에 기초한 음소별 인식 단위 설정과 현대어 발음에 기초한 인식 단위 설정을 비교했으며, 그 결과 발음에 기초해 몇 개의 모음을 통합한 경우가 더 우수한 결과를 보였으며, 학습 데이터 분할 방법에 따른 인식 결과는 손으로 분할한 방법이 자동 분할 방법보다 약 2-3%의 인식 향상을 보였다. 또한 인식 단위의 설정에 있어서 독립된 분절음으로 설정한 경우보다 앞, 뒤의 소리의 상황을 고려한 바이폰(bipbone)을 이용할 경우가 5.7%-25.9%의 향상된 인식 결과를 보였다 인식 방법에 있어서는 HMM 만을 이용한 방법보다 신경회로망과 HMM을 결합한 인식 방법이 6.1%-7.5%의 더 좋은 인식률을 나타내었다.

Keywords

References

  1. IEEE Trans. Acoust. Speech, Signal Processing v.ASSP-27 Two-Level DP matching-dynamic programming based pattern matching algorithm for connected word recognition H. Sakoe
  2. IEEE Trans. on Com v.COM-28 An algorithm for vector quantizer design Y. Linde;A. Buzo;R. M. Gray
  3. IEEE ASSP Mag. An Introduction to Hidden Markov Models L. R. Rabiner;B. H. Juang
  4. Adaptive Pattern Recognition and Neural Networks Y. H. Pao
  5. IEEE Trans. Inf. Theory v.IT-13 Error Bounds for Conventional Codes and an Asymptotically Optimal Decoding Algorithm A. J. Viterbi
  6. CSLU in OGI CSLU-HMM: The CSLU Hidden Markov Modeling Environment J. Schalkwyk;P. Hosom;Ed Kaiser;K. Shobaki
  7. CSLU in OGI Training Neural Network for Speech Recognition J. P. Hosom;R. Cole;M. Party;J. Schalkwyk;Y. Yan;W. Wei
  8. proceeding of ICSP 2001 A Study on Korean Recognition Units for Speech Recognition System Y. S. Hwang
  9. 2002한국신호처리시스템학회추계학술대회논문집 음소 분류에 따른 화자 적응 변화에 대한 연구 채나영;황영수