The suppression of noise-induced speech distortions for speech recognition

음성인식을 위한 잡음하의 음성왜곡제거

  • Chi, Sang-Mun (Samsung Electronics, Wireless Terminals Division) ;
  • Oh, Yung-Hwan (Dept. of Computer Science, Korea Advanced Institute of Science and Technology)
  • Published : 1998.12.01

Abstract

In noisy environments, human speech productions are influenced by noises(Lombard effect), and speech signals are contaminated. These distortions dramatically reduce the performance of speech recognition systems. This paper proposes a method of the Lombard effect compensation and noise suppression in order to improve speech recognition performance in noise environments. To estimate the intensity of the Lombard effect which is a nonlinear distortion depending on the ambient noise levels, speakers, and phonetic units, we formulate the measure of the Lombard effect level based on the acoustic speech signal, and the measure is used to compensate the Lombard effect. The distortions of speech under noisy environments are cancelled out as follows. First, spectral subtraction and band-pass filtering are used to cancel out noise. Second, energy nomalization is proposed to cancel out the variation of vocal intensity by the Lombard effect. Finally, the Lombard effect level controls the transform which converts Lombard speech cepstrum to clean speech cepstrum. The proposed method was validated on 50 korean word recognition. Average recognition rates were 82.6%, 95.7%, 97.6% with the proposed method, while 46.3%, 75.5%, 87.4% without any compensation at SNR 0, 10, 20 dB, respectively.

본 논문에서는 잡음에 의해 기인된 음성의 왜곡을 제거하여 음성인식기의 성능을 향상시키는 방법을 기술한다. 잡음 환경에서는 음성의 발성 방식이 변이하고(롬바드효과), 잡음이 음성신호에 첨가되므로 음성인식기의 성능을 저하시킨다. 롬바드 효과는 주변 잡음의 크기나 종류, 화자의 특성과 음소 등에 종속적인 비선형적인 변환이므로 측정방법이 알려져 있지 않았다. 본 연구에서는 롬바드 효과의 크기를 측정하는 방법을 제시하고, 롬바드 효과의 크기에 따른 롬바드 효과의 보정방법을 제안한다. 잡음에 의한 음성의 왜곡은 다음의 과정을 통해서 제거한다. 우선, 스펙트럼 차감법을 사용하여 음성에 포함된 잡잡음을 제거하고, 음성의 동적인 특성을 강조하기 위해 대역 통과 필터링을 한다. 두 번째로 에너지 정규화 과정을 통해서 롬바드 효과에 의한 음성의 발성 강도의 변이를 제거한다. 마지막으로 제안한 롬바드 효과의 크기 척도는 롬바드 음성의 켑스트럼에 존재하는 왜곡을 제거하는 변환에 이용한다. 제안한 방법을 음성인식에 적용한 결과, SNR(signal-to-noise ratio) 0, 10, 20 dB에서 46.3%, 75.5%, 87.4%의 인식률을 82.6%, 95.7%, 97.6%로 향상시켰다.

Keywords