A Study on Analysis of Variant Factors of Recognition Performance for Lip-reading at Dynamic Environment

동적 환경에서의 립리딩 인식성능저하 요인분석에 대한 연구

  • 신도성 (전남대학교 전자공학과) ;
  • 김진영 (전남대학교 전자공학과) ;
  • 이주헌 (전남대학교 정보통신공학부 & RRC HECS)
  • Published : 2002.07.01

Abstract

Recently, lip-reading has been studied actively as an auxiliary method of automatic speech recognition(ASR) in noisy environments. However, almost of research results were obtained based on the database constructed in indoor condition. So, we dont know how developed lip-reading algorithms are robust to dynamic variation of image. Currently we have developed a lip-reading system based on image-transform based algorithm. This system recognize 22 words and this word recognizer achieves word recognition of up to 53.54%. In this paper we present how stable the lip-reading system is in environmental variance and what the main variant factors are about dropping off in word-recognition performance. For studying lip-reading robustness we consider spatial valiance (translation, rotation, scaling) and illumination variance. Two kinds of test data are used. One Is the simulated lip image database and the other is real dynamic database captured in car environment. As a result of our experiment, we show that the spatial variance is one of degradations factors of lip reading performance. But the most important factor of degradation is not the spatial variance. The illumination variances make severe reduction of recognition rates as much as 70%. In conclusion, robust lip reading algorithms against illumination variances should be developed for using lip reading as a complementary method of ASR.

최근 립리딩에 대한 연구는 음성인식방법에 있어서 부가적인 정보를 제공하여 잡음환경에서 견인한 음성 인식을 하거나 음성정보의 부가적인 특징벡터로 사용하기 위한 방법으로 연구되고 있다. 그러나 립리딩 연구의 대부분은 실험실 환경하의 제한된 결과로서, 실제 다양한 동적 환경에서의 견인성에 대해서는 연구된 바가 없다. 현재 우리는 입술정보만을 이용한 자동22단어 인식기를 만들었으며, 이미지 기반 립리딩의 성능은 53.54%의 성능을 가지고 있다. 본 연구에서는 기 구현된 립리딩 시스템을 기반으로 하여, 립리딩 성능이 환경 적인 변화에 대해서 얼마나 안정할 수 있는지, 그리고 립리딩의 인식성능 저하를 일으키는 주요 요인이 무엇인지에 대하여 연구하였다. 입술이미지의 동적 변이로서는 이동, 회전. 크기변화와 같은 공간적 변화와 빛에 의한 조명변화를 고려하였다. 실험용 데이터로는 영상변환에 의한 시뮬레이션 된 데이터와 동적 변화가 심한 자동차 환경에서 수집한 데이터를 사용하였다. 실험결과 입술의 공간 변화가 인식성능 저하의 한가지 요인으로 작용함을 발견하였다. 그러나 실제적으로 공간변화보다 더 심각한 성능저하 원인은 시간흐름에 따른 조명조건의 변화로써 70%이상의 왜곡이 발생했다. 따라서 신뢰할 수 있는 립리딩 시스템 구현을 위해서 고려해야 할 가장 큰 요인은 빛의 변화임을 발견할 수 있었다.

Keywords

References

  1. Processing Of the Int. Conf. On Image Processing An Image transform approach for HMM based automatic lipreading G.Potamianosm;H.P.Graf;E.Cosatto
  2. Proc. IEEE Int. Conf. On Acoustics, Speech and Signal Processing Eigenlips for robust speech recognition C.Bregler;Y.Konig
  3. IEEE Signal Processing Lett. v.2 Lip-syncronization using speech-assisted video processing T.Chen;H.P.Graf;K.Wang https://doi.org/10.1109/97.376913
  4. Proc.Of the 5th IEEE Int. Conf. On Image Processing Lip features automatic extraction M.Lievin;F.Luthon
  5. Image Processing, ICIP98, Proceedings, International Conference v.3 An image transform approach for HMM based automatic lipreadingn G.Potamianos;G.H.Graf;E.Cosatto
  6. ITC-CSCC v.1 Robustness of Lipreading against the Variations of Rotation, Translation and Scaling D.S.Min;J.Y.Kim
  7. ITC-CSCC v.2 Robust Lip Extraction and Tracking of the Mouth Region D.S.Min;J.T.Kim
  8. 한국음향학회지 v.8 no.3 입술 파라미터 선정에 따른 바이모달 음성인식 성능 비교 및 검증 박병구;김진영;임재열
  9. 한국음향학회지 v.18 no.3 입술 파라미터 선정에 따른 바이모달 음성인식 성능 비교 및 검증 박병구;김진영;임재열
  10. 한국음향학회지 v.18 no.4 바이모달 음성인식의 음성정보와 입술정보 결합방법 비교 박병구;김진영;최승호