Audio-Visual Integration based Multi-modal Speech Recognition System

Lee, Sahng-Woon;Lee, Yeon-Chul;Hong, Hun-Sop;Yun, Bo-Hyun;Han, Mun-Sung;

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2002.11a
/
Pages.707-710
/
2002
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

Audio-Visual Integration based Multi-modal Speech Recognition System

오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템

Lee, Sahng-Woon (Electronics and Telecommunications Research Institute) ;
Lee, Yeon-Chul (Human Media Tech. Inc.) ;
Hong, Hun-Sop (Electronics and Telecommunications Research Institute) ;
Yun, Bo-Hyun (Electronics and Telecommunications Research Institute) ;
Han, Mun-Sung (Electronics and Telecommunications Research Institute)

이상운 (한국전자통신연구원) ;
이연철 ((주)휴먼미디어테크) ;
홍훈섭 (한국전자통신연구원) ;
윤보현 (한국전자통신연구원) ;
한문성 (한국전자통신연구원)

Published : 2002.11.15

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Audio-Visual Integration based Multi-modal Speech Recognition System

오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)