Continuous Speech Recognition based on Parmetric Trajectory Segmental HMM

모수적 궤적 기반의 분절 HMM을 이용한 연속 음성 인식

  • Published : 2000.04.01

Abstract

In this paper, we propose a new trajectory model for characterizing segmental features and their interaction based upon a general framework of hidden Markov models. Each segment, a sequence of vectors, is represented by a trajectory of observed sequences. This trajectory is obtained by applying a new design matrix which includes transitional information on contiguous frames, and is characterized as a polynomial regression function. To apply the trajectory to the segmental HMM, the frame features are replaced with the trajectory of a given segment. We also propose the likelihood of a given segment and the estimation of trajectory parameters. The obervation probability of a given segment is represented as the relation between the segment likelihood and the estimation error of the trajectories. The estimation error of a trajectory is considered as the weight of the likelihood of a given segment in a state. This weight represents the probability of how well the corresponding trajectory characterize the segment. The proposed model can be regarded as a generalization of a conventional HMM and a parametric trajectory model. The experimental results are reported on the TIMIT corpus and performance is show to improve significantly over that of the conventional HMM.

본 논문에서는 음성 패턴을 효율적으로 모델링하고자 분절 특징(segmental feature)을 이 용하여 은닉 마코프 모델(hidden markov model)의 일반적인 형식에 기반한 새로운 모수적 궤적 모델 (parametric trajectory model)을 제안한다. 일반적으로 벡터의 열로써 표현되는 분절은 관측 열의 궤적(trajectory)으로 표현된다. 이 궤적은 연속적인 프레임들의 전이 정보(transitional information)를 표현하는 디자인 행렬을 이용하여 얻어지며, 다항식의 회귀 함수(polynomial regression function)로써 나타낼 수 있다. 이러한 궤적을 HMM에 적용하기 위해서 프레임 특징 대신 분절의 특성 을 표현하는 궤적으로 대치하고 우도(likelihood) 계산에 궤적들의 비교에 의한 확률 값을 반영시켜야 한다. 본 논문에서는 궤적간의 유사도를 측정하는 분절 우도(segment likelihood)와 모델을 구성하는 궤적변수의 추정 알고리즘을 제안한다. 임의의 분절에 대한 관측 확률은 제안된 분절 우도와 궤적의 추정 오차(estimation error of trajectories)의 곱으로써 표현된다. 궤적의 추정 오차는 상태에서 주어진 분절 우도의 가중치로 표현될 수 있으며, 이 가중치는 궤적과 대응되는 분절의 적합도를 표현하는 확률을 나타낸다. 본 논문에서 제 안된 모델은 일반적 인 HMM과 모수적 궤적 모델의 일반화(generalization) 또는 확장(extension) 모델로 생각될 수 있다. 본 모델의 성능을 평가하기 위하여 TIMIT 데이터에 기반한 실험을 한 결과, 분절 길이(segment length)와 회귀 차수(regression order)가 변할수록 일반적인 HMM에 비하여 뚜렷한 성능향상이 있음을 알 수 있었다.

Keywords

References

  1. IEEE Transactions on ASSP v.37 no.8 A tutorial on hidden Markov models and selected applications in speech recognition L. R. Rabiner
  2. Hidden Markov models for speech recognition X. D. Huang;Y. Ariki;M. A. Jack
  3. International Conference on Acoustics, Speech and Signal Processing 1993 v.Ⅱ A segmental speech model with application to word spotting H. Gish;K. Ng
  4. International Conference on Spoken Language Processing 1996 v.Ⅰ Parametric trajectory models for speech recognition H. Gish;K. Ng
  5. International Conference on Acoustics, Speech and Signal Processing 1993 v.Ⅱ A segmental HMM for speech pattern modeling M. Russell
  6. European Conference on Speech Communication and Technology 1993 Segmental hidden Markow models M. J. F. Gales;S. J. Young
  7. IEEE Trans. on Speech and Audio Processing v.2 no.4 Speech recognition using hidden Morkov models with polynomial regression functions as nonstationary states L. Deng(et al)
  8. IEEE Trans. on Speech and Audio Processing v.4 no.5 From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition M. Ostendorf(et al.)
  9. International Conference on Acoustic, Speech and Signal Processing Speech recognition using a linear dynamic segmental HMM W. J. Holmes;M. J. Russell
  10. Signal Processing v.27 A generalized hidden Markov model with state-conditioned trend functions of time for speech signal L. Deng.
  11. Numerical Recipes in C(2nd Ed.) W. H. Press;A. A. Teukolsky;W. T. Vetterling;B. P. Flannery
  12. Proceedings of IEEE International Conference on Acoustic, Speech and Signal Processing Model Parameter Estimation For Mixture Density Polynomial Segment Models T. Fukada;Y. Sagisaka;K. K. Paliwal
  13. IEEE Trans. On Acoustics, Speech and Signal Processing v.37 no.11 Speaker-independent phone recognition using hidden Markov models K. F. Lee;H. W. Hon