다층회귀예측신경망의 음성인식성능에 관한 연구

A Study on the Speech Recognition Performance of the Multilayered Recurrent Prediction Neural Network

  • 안점영 (동의대학교 전기 전자공학부)
  • 발행 : 1999.06.01

초록

4층구조의 다층퍼셉트론을 변형하여 3 종류의 다층회귀예측신경망을 구성하고, 예측차수, 두 은닉층의 뉴런개수, 연결세기의 초기치 및 전달함수 변화에 따른 각 망의 음성인식성능을 실험을 통해 각각 비교 분석한다. 실험결과에 의하면, 다층회귀신경망이 다층퍼셉트론에 비해 음성인식성능이 우수하다. 그리고 구조적으로는 상위은닉층의 출력을 하위은닉층으로 회귀할 때 인식성능이 가장 우수하며, 각 망 공히 상, 하위은닉층의 뉴런 10 혹은 15개, 예측차수 3 혹은 4차일 때 인식률이 양호하다. 학습시 연결세기의 초기치를 -0.5에서 0.5사이로 설정하고, 하위은닉층에서 단극성 시그모이드 전달함수를 사용할 때 인식성능이 더욱 향상된다.

We devise the 3 models of Multilayered Recurrent Prediction Neural Network(MLRPNN), which are obtained by modifying the Multilayered Perceptron(MLP) with 4 layers. We experimentally study the speech recognition performance of 3 models by a comparative method, according to the variation of the prediction order, the number of neurons in two hidden layers, initial values of connecting weights and transfer function, respectively. By the experiment, the recognition performance of each MLRPNN is better than that of MLP. At the model that returns the output of the upper hidden layer to the lower hidden layer, the recognition performance shows the best value. All MLRPNNs, which have 10 or 15 neurons in the upper and lower hidden layer and is predicted by 3rd or 4th order, show the improved speech recognition rate. On learning, these MLRPNNs have a better recognition rate when we set the initial weights between -0.5 and 0.5, and use the unipolar sigmoid transfer function in the lower hidden layer.

키워드