Speech Activity Decision with Lip Movement Image Signals

입술움직임 영상신호를 고려한 음성존재 검출

  • 박준 (한국전자통신연구원 음성인터페이스연구팀) ;
  • 이영직 (한국전자통신연구원 음성/언어정보연구센터) ;
  • 김응규 (한밭대학교 공과대학 정보통신 컴퓨터공학부) ;
  • 이수종 (한국전자통신연구원 음성인터페이스연구팀)
  • Published : 2007.01.31

Abstract

This paper describes an attempt to prevent the external acoustic noise from being misrecognized as the speech recognition target. For this, in the speech activity detection process for the speech recognition, it confirmed besides the acoustic energy to the lip movement image signal of a speaker. First of all, the successive images are obtained through the image camera for PC. The lip movement whether or not is discriminated. And the lip movement image signal data is stored in the shared memory and shares with the recognition process. In the meantime, in the speech activity detection Process which is the preprocess phase of the speech recognition. by conforming data stored in the shared memory the acoustic energy whether or not by the speech of a speaker is verified. The speech recognition processor and the image processor were connected and was experimented successfully. Then, it confirmed to be normal progression to the output of the speech recognition result if faced the image camera and spoke. On the other hand. it confirmed not to output of the speech recognition result if did not face the image camera and spoke. That is, if the lip movement image is not identified although the acoustic energy is inputted. it regards as the acoustic noise.

본 논문은 음성인식을 위한 음성구간 검출과정에서, 음향에너지 이외에도 화자의 입술움직임 영상신호까지 확인하도록 함으로써, 외부의 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위하여 시도한 것이다. 먼저, PC용 화상카메라를 통하여 영상을 획득하고, 입술움직임 여부가 식별된다. 그리고 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세스와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서는 공유메모리에 저장되어 있는 데이터를 확인함으로써 사람의 발성에 의한 음향에너지인지의 여부를 확인하게 된다. 음성인식기와 영상처리기를 연동시켜 실험한 결과, 화상카메라에 대면해서 발성하면 음성인식 결과의 출력까지 정상적으로 진행됨을 확인하였고, 화상카메라에 대면하지 않고 발성하면 음성인식 결과를 출력하지 않는 것을 확인하였다. 이는 음향에너지가 입력되더라도 입술움직임 영상이 확인되지 않으면 음향잡음으로 간주하도록 한 것에 따른 것이다.

Keywords

References

  1. G. Potaminanos. H.P. Graf, and E. Cosatto, 'An Image Transform Approach for HMM Based Automatic Lipreading, Image . Processing', 1988. lCIP 98. Proceeding, 173-177, Oct. 1998
  2. M.T. Chan, Y. Zhang, and T.S, Huang, 'Real-Tima Lip Tracking and Birrodal Continuous Speech Recognition', IEEE Second Workshop on Multimedia Signal Proceeding, 65-70, 7-9 Dec. 1998
  3. Rafael C. Gonzalez, Richard E. Woods, Digital Irrege Processing, (Second Edition, 2002) pp 567-642
  4. 이수종, 박준, 이영직, 김응규, '연속 영상 프레임으로부터 입술움직임 영상신호 검출', 한국음향학회 2006하계학술발표대회, 2006.8.26. 281-284
  5. F. Levrrerie and M.D. Levine, 'Simulating the Grassfire Transform Using and Active Contour Model', Trans. IEEE Pattern Analysis and Machine Intelligence, 14 (1):56-75, 1992 https://doi.org/10.1109/34.107013
  6. Z.Q.Wu, J.A.Ware, WR.Stewart, and J.Jiang, 'The Rerroval of Blocking Effects Caused by Partially Overlapped Sub-Block Contrast Enhancement'. Journal of Electronic lmeging-July-September 2005-Volurne 14, Issue 3, 033006(8 pages)
  7. 김상형, Windows API 정복, (가남사 2005.3.10) pp 1019-1153