A study on the lip shape recognition algorithm using 3-D Model

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구

  • Published : 2002.08.01

Abstract

Recently, research and developmental direction of communication system is concurrent adopting voice data and face image in speaking to provide more higher recognition rate then in the case of only voice data. Therefore, we present a method of lipreading in speech image sequence by using the 3-D facial shape model. The method use a feature information of the face image such as the opening-level of lip, the movement of jaw, and the projection height of lip. At first, we adjust the 3-D face model to speeching face Image sequence. Then, to get a feature information we compute variance quantity from adjusted 3-D shape model of image sequence and use the variance quality of the adjusted 3-D model as recognition parameters. We use the intensity inclination values which obtaining from the variance in 3-D feature points as the separation of recognition units from the sequential image. After then, we use discrete HMM algorithm at recognition process, depending on multiple observation sequence which considers the variance of 3-D feature point fully. As a result of recognition experiment with the 8 Korean vowels and 2 Korean consonants, we have about 80% of recognition rate for the plosives md vowels.

최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 논은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형살 모델을 입력 동영상에 정합시키고 정합된 3차원 형상모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차인 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다.

Keywords

References

  1. E.Petajan, B.Bischoff, D.Bodoff, and N. M. Brooke, 'An Improved Automatic Lipreading System to enhance Speech Recognition.' In ACM SIGCHI, 1988
  2. Mase and A.Pentland.'LIP Reading. Automatic Visual Recognition of Spoken Word.' Proc. Image Understanding and Machin Vision, Optical of America, June. 1989
  3. K. E. Finn and A. A. 'Montgomery. Automatic Optically-Based Recognition of Speech.' Pattern Recognition Letters, 8:159 -164, 1988 https://doi.org/10.1016/0167-8655(88)90094-3
  4. K. Mase and A. Pentland. 'Lip Reading: Automatic Visual Recognition of poken Words.' Technical Report 117, M.I.T. Media Lab Vision Science, 1989
  5. Danial Reisfeld and Yehezkel Yeshurun, 'Robust Detection of Facial Features by Generalized Symmetry,' Proc. ICPR, pp.117-120 ,1992
  6. Young Dong Lee, Chong Seak Choi, Kap Seak Choi, 'Lip Shape Synthesis of Korean Syllable for Human Interface.' Korea Institut Comunication, vol 19, pp.614-623
  7. L.R.Raider, 'Mathematical Foundations of Hidden Markov Models', Recent Advances in speech understanding and Digital systems
  8. L.R.Raider and B.H.Juang, 'An Introduction to Hidden Markov Models,' IEEE ASSP Magazine Vol. 3, No.1, 99.4-16, Jan 1986 https://doi.org/10.1109/MASSP.1986.1165342