실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구

A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment

  • 이정기 (광운대학교 컴퓨터공학과) ;
  • 남동선 (광운대학교 컴퓨터공학과) ;
  • 양진우 (춘천기능대학 전자과) ;
  • 김순협 (광운대학교 컴퓨터공학과)
  • 발행 : 2000.04.01

초록

본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

Is this paper, we studied on the automatic speech control system in real-time windows environment using voice recognition. The applied reference pattern is the variable DMS model which is proposed to fasten execution speed and the one-stage DP algorithm using this model is used for recognition algorithm. The recognition vocabulary set is composed of control command words which are frequently used in windows environment. In this paper, an automatic speech period detection algorithm which is for on-line voice processing in windows environment is implemented. The variable DMS model which applies variable number of section in consideration of duration of the input signal is proposed. Sometimes, unnecessary recognition target word are generated. therefore model is reconstructed in on-line to handle this efficiently. The Perceptual Linear Predictive analysis method which generate feature vector from extracted feature of voice is applied. According to the experiment result, but recognition speech is fastened in the proposed model because of small loud of calculation. The multi-speaker-independent recognition rate and the multi-speaker-dependent recognition rate is 99.08% and 99.39% respectively. In the noisy environment the recognition rate is 96.25%.

키워드

참고문헌

  1. Fundamentals of Speech Recognition L.R. Rabiner;B.H. Juang
  2. The Bell system Technical Journal v.54 no.2 An Algorithm for Determining the Endpoints of Isolated Utterance L.R. Rabiner;M.R. Sambur
  3. IEEE Transactions on communications Dynamic Programming Algorithm Optimization for Spoken Word Recognition H. Sakoe;S. Chiba
  4. IEEE Transaction on Acoustic, Speech and Signal Processing v.ASSP-32 no.2 The Use of a One-Stage Dynamic Programming Algorithm for Connected Word Recognition Hermann Ney
  5. Proc. ESCA Tutorial and Research Workshop on Robust Speech Should Recognizers Have Ears? H. Hermansky
  6. 한국 음향 학회 학술 발표회 논문집 v.17 no.1 음성 인식을 이용한 Windows 95 제어 시스템의 구현 남동선;이정숙;이성권;김순협;이항섭