Abstract
In this paper, we propose a new speech separation algorithm to extract and enhance the target speech signals from mixed speech signals by utilizing both magnitude and phase information. Since the previous statistical modeling algorithms assume that the log power spectrum values of the mixed speech signals are independent in the temporal and frequency domain, discontinuities occur in the resultant separated speech signals. To reduce the discontinuities, we apply a smoothing filter in the time-frequency domain. To further improve speech separation performance, we propose a statistical model based on both magnitude and phase information of speech signals. Experimental results show that the proposed algorithm improve signal-to-interference ratio (SIR) by 1.5 dB compared with the previous magnitude-only algorithms.
본 논문은 혼합 음성 신호로부터 크기와 위상 정보를 모두 고려하여 목표 음성 신호를 추출하고 향상하는 음성 분리 알고리듬을 제안한다.기존 연구에서는 혼합된 음성 신호의 로그 전력 스펙트럼 값이 시간-주파수 영역에서 서로 독립이라고 가정한 통계적 모델을 적용하기 때문에 음성 분리 결과 파형에 불연속을 야기한다. 본 논문에서는 이러한 불연속을 감소시키기 위하여 시간-주파수 영역에서의 스무딩 필터를 적용한다. 음성 분리 성능을 더욱 향상시키기 위하여 음성 신호의 크기와 함께 위상 정보를 고려하는 통계적 모델을 제안한다. 실혐 결과, 제안된 알고리즘이 기존의 크기 정보만을 사용한 알고리즘에 비하여 1.5 dB의 화자대간섭비 (SIR)를 개선하는 것으로 나타난다.