On the Development of a Large-Vocabulary Continuous Speech Recognition System for the Korean Language

대용량 한국어 연속음성인식 시스템 개발

  • 최인정 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 권오욱 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 박종렬 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 박용규 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 김도영 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 정호영 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 은종관 (한국과학기술원 전기 및 전자공학과 통신연구실)
  • Published : 1995.10.01

Abstract

This paper describes a large-vocabulary continuous speech recognition system using continuous hidden Markov models for the Korean language. To improve the performance of the system, we study on the selection of speech modeling units, inter-word modeling, search algorithm, and grammars. We used triphones as basic speech modeling units, generalized triphones and function word-dependent phones are used to improve the trainability of speech units and to reduce errors in function words. Silence between words is optionally inserted by using a silence model and a null transition. Word pair grammar and bigram model based oil word classes are used. Also we implement a search algorithm to find N-best candidate sentences. A postprocessor reorders the N-best sentences using word triple grammar, selects the most likely sentence as the final recognition result, and finally corrects trivial errors related with postpositions. In recognition tests using a 3,000-word continuous speech database, the system attained $93.1\%$ word recognition accuracy and $73.8\%$ sentence recognition accuracy using word triple grammar in postprocessing.

본 논문에서는 연속분포 HMM을 이용한 대용량 한국어 연속음성인식 시스템에 관하여 기술한다. 인식 시스템의 성능을 개선하기 위하여 음성 모델링 단위의 선정, 단어간 모델링, 탐색 알고리듬, 문법에 관하여 연구하였다. 기본 인식단위로 트라이존을 사용하며 학습성을 개선하고 기능어에서의 에러 발생을 줄이기 위하여 일반화된 트라이폰과 function word-de-pendent phone을 사용한다. 단어 사이에는 묵음 모델과 null transition을 사용하여 선택적으로 묵음을 추가하였다. 언어모델로는 단어 클래스에 근거한 word pair 문법과 bigram 모델이 이용된다. 또한 지식 정보들을 효율적으로 활용할 수 있도록 N개의 후보 문장들을 탐색할 수 있는 알고리듬을 구현하였다. 후처리기에서는 word triple문법을 사용하여 N개의 최적 문장을 재정렬하여 최종적인 인식 문장을 결정하며, 마지막으로 후치사와 관련된 사소한 에러들을 수정한다. 3천단어의 연속음성 데이타베이스에 대한 인식실험에서, 후처리로 word triple 문법을 사용하여 $93.1\%$의 단어 인식률과 $73.8\%$의 문장 인식률을 얻었다.

Keywords