DOI QR코드

DOI QR Code

A Study on Speechreading about the Korean 8 Vowels

한국어 8모음 자동 독화에 관한 연구

  • 이경호 (한라대학교 정보통신방송공학부) ;
  • 양룡 (인하대학교 컴퓨터정보과) ;
  • 김선옥 (한라대학교 정보통신방송공학부)
  • Published : 2009.03.31

Abstract

In this paper, we studied about the extraction of the parameter and implementation of speechreading system to recognize the Korean 8 vowel. Face features are detected by amplifying, reducing the image value and making a comparison between the image value which is represented for various value in various color space. The eyes position, the nose position, the inner boundary of lip, the outer boundary of upper lip and the outer line of the tooth is found to the feature and using the analysis the area of inner lip, the hight and width of inner lip, the outer line length of the tooth rate about a inner mouth area and the distance between the nose and outer boundary of upper lip are used for the parameter. 2400 data are gathered and analyzed. Based on this analysis, the neural net is constructed and the recognition experiments are performed. In the experiment, 5 normal persons were sampled. The observational error between samples was corrected using normalization method. The experiment show very encouraging result about the usefulness of the parameter.

본 논문은 한국어 8단모음을 인식하기 위한 효율적인 파라미터의 추출과 자동 독화 시스템의 구축에 관하여 연구한 것이다. 얼굴의 특징들은 다양한 칼라 공간에서 다양한 값으로 표현되는 것을 이용하여 각 표현 값들을 증폭하거나 또는 축소, 대비시켜 얼굴 요소들이 추출되도록 하였다. 눈과 코의 위치, 안쪽 입의 외곽선, 윗입술의 상단, 이의 외곽선을 특징 점으로 찾았으며, 이를 분석하여 안쪽 입의 면적, 안쪽 입의 높이와 폭, 이의 보임 비율 코와 윗입술 상단과의 거리를 파라미터로 사용하였다. 2400개의 영상으로 분석하였고 이 분석을 바탕으로 신경망 시스템을 구축한 후 인식 실험을 하였다. 정상인 5명이 동원되었고, 사람들 사이에 있는 관찰 오차를 정규화를 통하여 수정하였으며 실험하여 파라미터의 유용성 관점에서 좋은 결과를 얻었다.

Keywords

References

  1. 최병문, "구화교육," 한국구화학교, 1970년 11월
  2. Sumby, W.H. and Pollack, I., "Visual Contribution to Speech Intelligibility in Noise," Journal of the Acoustical Society of America, Vol. 26, No. 2, pp. 212-215. Mar. 1954 https://doi.org/10.1121/1.1907309
  3. MCGurk, H., & MacDonald, J., "Hearing Lips and Seeing Voices," Nature, No. 264, pp. 746-748, Des. 1976.
  4. Summerfield, A. Q., "Some Preliminaries to A Comprehensive Account of Audio-Visual Speech Perception," Hearing by Eye: The Psychology of Lip-Reading. London, United Kingdom: Lawrence Erlbaum Associates, pp. 3-51, 1987.
  5. Petajan, E. D., "Automatic lipreading to Enhance Speech Recognition," Ph.D. Dissertation, University of Illinois at Urbana-Champaign, Feb. 1984.
  6. Petajan, E. D., "Automatic Lipreading to Enhance Speech Recognition," Proceedings of the IEEE Communication Society Global Telecommunications Conference, Atlanta, Georgia, USA, pp. 26-29, Nov. 1984.
  7. Finn, E. K & Montgomery A.A. "Automatic Optically Based Recognition of Speech," Pattern Recognition Letters, Vol. 8, No. 3, pp. 159-164, Oct. 1988. https://doi.org/10.1016/0167-8655(88)90094-3
  8. Stork, D. G., & Hennecke, M.E., "Speechreading by Humans and Machines," ISBN 3-540-61264-5, Springer, Dec. 1996.
  9. Yuhas, B. P., Goldstein, M.H. & Sejnowski, T.J., "Integration of Acoustic and Visual Speech Signals Using Neural Networks," IEEE Communications Magazine, Vol. 27, pp. 65-71, Nov. 1989 https://doi.org/10.1109/35.41402
  10. Mase, K. & Pentland, A., "Automatic Lipreading By Computer," Trans. Inst. Elec. Info, and Com. Eng., Vol. J73-D-II, No. 6, pp. 796-803, Nov. 1990.
  11. Silsbee, P. L., "Computer Lipreading for Improved Accuracy in Automatic Speech Recognition," Ph.D. dissertation. The University of Texas at Austin, Sep. 1993.
  12. Bregler, C, Omohundro, S. M. & Konig, Y., "A Hybrid Approach to Bimodal Speech Recognition," in 28th Annual Asilomar Conference on Signals, Systems, and Computers, no. 1, pp. 556-560, Nov. 1994.
  13. Chiou, G. I. & Hwang, J. N. "A Neural Network Based Stochastic Active Contour Model (NNS-SNAKE) for Contour Finding of Distinct Features," IEEE Trans, on Image Processing, Vol. 4, No. 19, pp. 1192-1195, Oct. 1995.
  14. Adjoudani, A. et al.. "A Multimedia Platform for Audio-Visual Speech Processing," Proc. European Conference on Speech Communication and Technology, Rhodes, Greece, pp. 1671-1674, Sept. 1997
  15. Meier, U., Stiefelhagen, R., Yang, J., Waibel, A., "Towards Unrestricted lipreading," International Journal of-Pattern Recognition and Artificial Intelligence, vol. 14, no. 5, pp. 571-785, Jun. 1999.
  16. 김진범, 김진영, "이미지 변환과 HMM에 기반한 자동립디딩," 대한전자공학회 추계학술대회 논문집, 제22권, 2호, 585-588쪽, 1999년 11월
  17. 김진범, 김진영, "입술 대칭성에 기반한 효율적인 립리딩 방법," 전자공학회논문지, 제37권, 5호, 55-464쪽, 2000년 9월
  18. 이지은, 김진영, 이주헌, "시간영역 이미지 필터링에 의한 립디딩 성능 향상," 한국음향학회 학술발표대회논문집, 제20권, 2호, 45-48쪽, 2001년 11월
  19. 이지은, "시간영역 이미지 필터링에 의한 립디딩 성능 향상," 전남대학교대학원 석사학위논문, 2002년 2월
  20. 민덕수, "동적 환경에서 립디딩 성능저하 요인 분석 및 인식성능 향상에 관한 연구," 전남대학교대학원 석사학위논문, 2002년 2월
  21. 민소희, 김진영, 최승호, "입술 정보를 이용한 음성 특징 파라미터 추정 및 음성 인식 성능 향상," 대한음성학회지, 44호, 83-92쪽, 2002년 12월
  22. 김진영, 민소희, 최승호, "음성인식에서 입술 파라미터 열화에 따른 견인성 연구," 음성과학, 제10권, 2호, 27-33쪽, 2003년 6월
  23. 백성준, 김진영, "입술정보 및 SFM을 이용한 음성의 음질향상알고리듬," 음성과학, 제10권, 2호, 77-84쪽, 2003년 6월
  24. 신도성, "입술영상접기와 프레임간 필터링을 이용한 립디딩 성능 개선," 전남대학교대학원 박사학위논문, 2004년 2월
  25. 김진영, 신도성, "상태공유 HMM을 이용한 서브워드 단위 기반 립디딩," 음성과학, 제8권, 3호, 123-131쪽, 2001년 9월
  26. 신도성, 김진영, 최승호, "시간영역 필터를 이용한 립디딩 성능향상에 관한 연구," 한국음향학회, 제22권, 5호, 375-382쪽, 2003년 7월
  27. 신도성, 김진영, 이주헌, "동적 환경에서의 립디딩 인식 성능저하 요인분석에 대한 연구," 한국음향학회, 제21권, 5호, 471-477쪽, 2002년 7월
  28. 서재영, "단순 특징값과 촬영 각도에 따른 한국어 모음의 오디오 비주얼 인식에 관한 연구," 성신여자대학교대학원 석사학위논문, 2005년 2월
  29. Hsu, R. L, Abdel-Mottaleb, M., Anil K. J., "Face Detection in Color Images," IEEE Trans. on Pattern Analysis, vol. 24, no. 5, pp. 696-706, May. 2002. https://doi.org/10.1109/34.1000242
  30. 이경호, 양룡, 이상범, "색상 정보를 이용한 자동 독화 특징 추출," 한국컴퓨터정보학회 논문지, 제13권, 6호, 107-116쪽, 2008년 11월
  31. 이경호, 김선옥, "색상 정보를 이용한 자동 독화 특징 추출(입술 상단 검출)," 한라대학교 논문집, 11집, 125-135쪽, 2009년 2월
  32. 이경호, 금종주, 이상범, "한국어 5모음의 조음적 제어 분석을 이용한 자동독화에 관한 연구," 컴퓨터산업교육학회, 제8권, 4호, 281-288쪽, 2007년 10월
  33. 김선옥, 이경호, "얼굴 특징점을 이용한 한국어 8모음 독화시스템 구축," 한국컴퓨터정보학화, 제16권, 2호, 135-140쪽, 2008년 12월