Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition

Shin, Min-Hwa;Park, Ji-Hun;Kim, Hong-Kook;

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

2010.07a
/
Pages.150-151
/
2010

The Korean Institute of Broadcast and Media Engineers (한국방송∙미디어공학회)

Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출

Shin, Min-Hwa (School of Information and Communications, Gwangju Institute of Science and Technology) ;
Park, Ji-Hun (School of Information and Communications, Gwangju Institute of Science and Technology) ;
Kim, Hong-Kook (School of Information and Communications, Gwangju Institute of Science and Technology)

신민화 (광주과학기술원 정보통신공학부) ;
박지훈 (광주과학기술원 정보통신공학부) ;
김홍국 (광주과학기술원 정보통신공학부)

Published : 2010.07.08

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 잡음환경에서의 이중채널 음성인식을 위한 통계모델 기반 음성구간 검출 방법을 제안한다. 제안된 방법에서는 다채널 입력 신호로부터 얻어진 공간정보를 이용하여 음성 존재 및 부재 확률모델을 구하고 이를 통해 음성구간 검출을 행한다. 이때, 공간정보는 두 채널간의 상호 시간 차이와 상호 크기 차이로, 음성 존재 및 부재 확률은 가우시안 커널 밀도 기반의 확률모델로 표현된다. 그리고 음성구간은 각 시간 프레임 별 음성 존재 확률 대비 음성 부재 확률의 비를 추정하여 검출된다. 제안된 음성구간 검출 방법의 평가를 위해 검출된 구간만을 입력으로 하는 음성인식 성능을 측정한다. 실험결과, 제안된 공간정보를 이용하는 통계모델 기반의 음성구간 검출 방법이 주파수 에너지를 이용하는 통계모델 기반의 음성구간 검출 방법과 주파수 스펙트럼 밀도 기반 음성구간 검출 방법에 비해 각각 15.6%, 15.4%의 상대적 오인식률 개선을 보였다.

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)