Abstract
In speech communications in noisy environments, speech intelligibility is seriously degraded due to the masking effect of ambient noise. In this paper, a new method to improve speech intelligibility in noisy environments is proposed. Based on the perception theory that the temporal envelope plays a major role in determining intelligibility, the proposed method uses a novel operation that enhances the fluctuation of band-wise temporal envelope and also contains pitch enhancement for improving speech naturalness. In addition, a new subjective evaluation scheme employing binaural listening is proposed in order to measure more reliable performance. The subjective performance measured with the proposed scheme shows that the proposed method improves both intelligibility and naturalness in various environments, whereas a function parameter can control the performance trade-off between intelligibility and naturalness.
주변 잡음이 심한 환경의 음성 통신에서 음성 명료도는 주변 잡음의 마스킹 효과로 인하여 크게 저하된다. 본 논문에서는 잡음 환경에서 음성 명료도를 향상시켜 통화 품질을 높이는 새로운 방법을 제안한다. 청각 이론에 의하면 음성의 시간축포락선은 명료도 결정에 중요한 역할을 한다. 이에 따라 본 논문에서는 대역별 시간축 포락선의 변화를 강화하여 명료도를 향상시키는 방법을 사용하며, 음질을 추가로 향상시키기 위한 피치 강화동작을 포함한다. 또한, 실제 통화상황에서의 정확한 주관적 성능 평가를 위하여 양 귀를 이용하는 새로운 주관적 성능 평가 방법을 제안한다. 제안하는 평가 방식을 통하여 제안하는 명료도 향상 기술의 성능을 평가하였으며, 명료도와 음질이 모두 향상되는 것을 확인하였고, 동작 파라미터 조정을 통하여 명료도와 음질 사이의 상호 관계가 조정되는 것을 확인하였다.