음성인식을 위한 새로운 혼성 recurrent TDNN-HMM 구조에 관한 연구

A study on the new hybrid recurrent TDNN-HMM architecture for speech recognition

  • 장춘서 (금오공과대학교 컴퓨터 공학부)
  • 발행 : 2001.01.01

초록

본 논문에서는 혼성 모듈 구조의 recurrent 시간지연신경회로망(time-delay neural network)과 HMM(hidden Markov model)을 결합한 음성인식을 위한 새로운 구조에 대해 연구하였다. 시간지연신경회로망에서는 윈도우 크기를 확장하는 것이 인식률 향상에 유리하므로 이를 위해 첫 번째 은닉층에 궤환 구조를 사용하여 윈도우 크기를 실제로 크게 하지 않고도 동일한 효과를 얻을 수 있도록 하였다. 다음 이 시간지연신경망에서 입력된 음소의 특징 벡터의 시간에 따라 변화하는 성질을 잘 처리 할 수 있도록 시간지연신경회로망의 입력층을 복수의 상태로 나누어 음소특징의 시간축에 대한 각 상태마다 특징 감지기를 갖도록 하였다. 이때 시간지연신경회로망은 전체 음성인식 영역에 적용될 수 있도록 모듈 방식의 구조로 구성되었다. 그리고 이 모듈 구조 시간지연신경망의 출력 벡터를 HMM에 연결하여 서로 결합 하므로써 양 구조의 장점을 취하는 혼성 구조의 인식시스템을 구성하였고 이때 이 혼성 구조에서 효율적으로 적용할 수 있는 HMM 파라미터 smoothing 방법을 제시하였다.

ABSTRACT In this paper, a new hybrid modular recurrent TDNN (time-delay neural network)-HMM (hidden Markov model) architecture for speech recognition has been studied. In TDNN, the recognition rate could be increased if the signal window is extended. To obtain this effect in the neural network, a high-level memory generated through a feedback within the first hidden layer of the neural network unit has been used. To increase the ability to deal with the temporal structure of phonemic features, the input layer of the network has been divided into multiple states in time sequence and has feature detector for each states. To expand the network from small recognition task to the full speech recognition system, modular construction method has been also used. Furthermore, the neural network and HMM are integrated by feeding output vectors from the neural network to HMM, and a new parameter smoothing method which can be applied to this hybrid system has been suggested.

키워드

참고문헌

  1. K. F. Lee, 'Automatic speech recognition : the development of the SPHINX system,' Kluwer Academic Publisher, 1989
  2. N. Merhav and Y. Ephraim, 'Hidden Markov modeling using the most likely state sequence,' Proc. of Int. Conf. ASSP, pp.469-472, 1991
  3. R. P. Lipmann, 'Pattern classification using neural networks,' IEEE Comm. Magazine, Vol.27, pp.46-47, Nov. 1989 https://doi.org/10.1109/35.41401
  4. H. Iwamida et al., 'A hybrid speech recognition system using HMMs with an LVQ-trained code book,' Proc. of IEEE Int. Conf. ASSP, pp.489-492, 1990 https://doi.org/10.1109/ICASSP.1990.115756
  5. S. Katagari et al., 'A new HMM/LVQ hybrid algorithm for speech recognition,' IEEE Proc. of GLOBECOM'90, pp.1032-1036, 1990 https://doi.org/10.1109/GLOCOM.1990.116659
  6. L. T. Liles and H. F. Silverman, 'Combining hidden Markov model and neural network classifiers,' Proc. of IEEE Int. Conf. ASSP, s.8.2, pp.417-420, 1990 https://doi.org/10.1109/ICASSP.1990.115724
  7. E. Trentin and M. Gori, 'A survey of hybrid ANN/HMM models for automatic speech recognition,' Neurocomputing 37, pp.91-126, 2000 https://doi.org/10.1016/S0925-2312(00)00308-8
  8. A. Waibel, et al., 'Phoneme recognition using time-delay neural networks,' IEEE Trans., ASSP, Vol.37, pp.328-339, March, 1989 https://doi.org/10.1109/29.21701
  9. A. Waibel, 'Modularity and scaling in large phonemic neural networks,' IEEE Trans., ASSP, Vol.37, pp.1888-1897, May, 1989 https://doi.org/10.1109/29.45535
  10. K. F. Lee and H. W. Hon, 'Speaker-independent phoneme recognition using hidden Markov models,' IEEE Trans., ASSP, pp.1641-1648, Nov. 1989 https://doi.org/10.1109/29.46546
  11. R. Schwarz, et al., 'Robust smoothing methods for discrete hidden Markov models,' Proc. of Int. Conf. ASSP. pp. 548-551, 1989 https://doi.org/10.1109/ICASSP.1989.266485