Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출

  • Shin, Min-Hwa (School of Information and Communications, Gwangju Institute of Science and Technology) ;
  • Park, Ji-Hun (School of Information and Communications, Gwangju Institute of Science and Technology) ;
  • Kim, Hong-Kook (School of Information and Communications, Gwangju Institute of Science and Technology)
  • 신민화 (광주과학기술원 정보통신공학부) ;
  • 박지훈 (광주과학기술원 정보통신공학부) ;
  • 김홍국 (광주과학기술원 정보통신공학부)
  • Published : 2010.07.08

Abstract

본 논문에서는 잡음환경에서의 이중채널 음성인식을 위한 통계모델 기반 음성구간 검출 방법을 제안한다. 제안된 방법에서는 다채널 입력 신호로부터 얻어진 공간정보를 이용하여 음성 존재 및 부재 확률모델을 구하고 이를 통해 음성구간 검출을 행한다. 이때, 공간정보는 두 채널간의 상호 시간 차이와 상호 크기 차이로, 음성 존재 및 부재 확률은 가우시안 커널 밀도 기반의 확률모델로 표현된다. 그리고 음성구간은 각 시간 프레임 별 음성 존재 확률 대비 음성 부재 확률의 비를 추정하여 검출된다. 제안된 음성구간 검출 방법의 평가를 위해 검출된 구간만을 입력으로 하는 음성인식 성능을 측정한다. 실험결과, 제안된 공간정보를 이용하는 통계모델 기반의 음성구간 검출 방법이 주파수 에너지를 이용하는 통계모델 기반의 음성구간 검출 방법과 주파수 스펙트럼 밀도 기반 음성구간 검출 방법에 비해 각각 15.6%, 15.4%의 상대적 오인식률 개선을 보였다.

Keywords