DOI QR코드

DOI QR Code

Voice Activity Detection employing the Generalized Normal-Laplace Distribution

일반화된 정규-라플라스 분포를 이용한 음성검출기

  • Received : 2013.11.27
  • Accepted : 2014.01.28
  • Published : 2014.03.31

Abstract

In this paper, we propose a novel algorithm to improve the performance of a voice activity detection(VAD) which is based on the generalized normal-Laplace(GNL) distribution. In our algorithm, the probability density function(PDF) of the noisy speech signal is represented by the GNL distribution and the variance of the speech and noise of GNL distribution are estimated using higher order moments. Experimental results show that the proposed algorithm yields better results compared to the conventional VAD algorithms.

본 논문에서는 일반화된 정규-라플라스(generalized normal-Laplace) 분포 기반의 음성 검출기(voice activity detection) 알고리즘을 제안한다. 제안된 알고리즘은, 잡음 섞인 음성 신호의 확률밀도함수를 일반화된 정규-라플라스 분포로 표현한 다음, 일반화된 정규-라플라스 분포의 음성과 잡음의 분산을 고차 모멘트(higher order moments)를 이용하여 추정한다. 제안된 알고리즘은 다양한 조건의 잡음 환경에서 기존의 음성 검출기들과 비교하였으며 향상된 성능을 보였다.

Keywords

1. 서 론

최근 ICT(information and communication, technology) 기술의 발달로 인하여 이동통신기기에서의 다양한 멀티미디어 서비스가 제공되면서 제한된 주파수 대역을 효율적으로 사용하기 위한 연구가 활발히 진행되고 있다. 제한된 주파수 대역을 효율적으로 사용하기 위해 최근 음성 부호화기들은 입력신호의 정보량에 따라 전송률을 선택적으로 부여하는 가변 전송률 방식을 채택한다[1,2]. 이러한 가변 전송률 음성 부호화기(variable bit rate speech codec)에서는 입력 신호에 음성이 있으면 전송률을 높이고 잡음만 존재 하면 전송률을 낮게 선택함으로써 통화 음질을 유지하며 평균 전송률을 낮추는 효율적인 방법을 사용한다. 따라서 입력 신호에 음성이 존재 하는지 아닌지를 결정하는 음성 검출기(VAD: voice activity detection)는 매우 중요한 기술이다.

음성 검출기는 음성 부호화기 뿐만 아니라 음성 향상, 음성 인식 등 음성 신호처리 기술에서 필수적으로 사용되는 기술이기 때문에 성능향상을 위한 다양한 알고리즘들이 지속적으로 연구되어지고 있다[3,4]. 그중 Ephraim과 Malah가 발표한 최소 평균 제곱 오차(MMSE: minimum mean square error) 기반의 음성 향상 알고리즘[5]에 사용된 음성의 존재와 부재에 대한 통계적 모델을 가우시안 분포로 가정하여 우도비 테스트(LRT: likelihood ratio test)에 적용한 통계적 모델 기반의 음성 검출 알고리즘이 발표되었으며 성능이 우수한 것으로 알려져 있다[6]. 주목할 점은 직접 구할 수 없는 파라미터를 현재와 과거의 정보로부터 추정하는 DD(decision-directed) 기법을 이용하여 음성의 존재와 부재에 대한 우도비를 구하는 것이다.

통계적 모델 기반의 음성 검출 기법이 발표된 이후 이 알고리즘의 성능을 향상하기위한 연구가 계속 되었다. 그중 음성 활동의 특징을 적용한 것으로 인접 프레임들과의 강력한 상호 연관성을 반영한 조건 사후 최대 확률(CMAP: conditional maximum a posteriori) 기반의 음성 검출 알고리즘이 있다. 이 방법은 음성이 활동하는 프레임의 바로 전 프레임과 다음 프레임은 음성이 활동할 확률이 높다고 할 수 있고 그 반대 또한 성립하는 조건을 판별식에 반영한 것이다[7]. 또 다른 최근 연구에서는 Teager Energy를 기반으로 음성 부재 확률을 구하여 음성을 검출하는 방법을 발표하였다[8].

기존의 통계적 모델에 기반한 음성 검출 알고리즘은 음성과 잡음 신호의 분산을 가우시안 분포를 따른다고 가정한다. 하지만 최근 연구 보고에 의하면 음성과 잡음 신호는 라플라스와 가우시안 분포를 각각 따른다고 발표했다[9]. 따라서 본 연구에서는 음성 검출기의 성능을 향상시키기 위해 일반화된 정규-라플라스(GNL: generalized normal-Laplace) 분포를 적용하여 음성을 검출하는 방법을 고찰한다. 우선 잡음 섞인 음성 신호의 확률밀도함수를 일반화된 정규-라플라스 분포로 나타낸 후 음성과 잡음의 분산을 고차 모멘트(higher order moments)를 이용하여 추정하면 우도비를 구할 수 있다. 제안된 음성 검출 방법은 다양한 잡음 환경에서 기존의 음성 검출 알고리즘들과 비교하였으며 향상된 성능을 보였다.

 

2. 가우시안 분포 기반 기존의 음성 검출기

시간 영역에서 배경 잡음 신호 d(t)에 깨끗한 음성 신호 x(t)가 인가된 입력 신호를 y(t)라 하고 여기서 t는 샘플링 인덱스를 나타낸다. 입력 신호 y(t)를 이산 퓨리에 변환(DFT: discrete Fourier transform)하여 주파수 영역으로 변환 하면 아래와 같이 표현된다.

여기서 n은 프레임 인덱스를 나타내고 k는 주파수 밴드를 나타낸다. 일반적으로 배경 잡음은 항상 존재하므로 잡음 신호만 존재하는 경우와 잡음 신호와 음성 신호가 동시에 존재하는 경우로 나눌 수 있다. 따라서 음성의 부재와 존재를 가설 H0와 H1로 표현하면 다음과 같이 나타낼 수 있다.

음성과 잡음 신호의 스펙트럼이 복소 가우시안 분포를 따른다고 가정을 하면 가설 H0, H1조건으로 한 확률밀도함수는 다음과 같이 주어진다[6].

여기서 λx(k,n)와 λd(k,n)는 각 프레임에서 주파수 밴드별 음성과 잡음의 분산이며, 이때 k번째 주파수 밴드에 대한 우도비는 아래와 같이 구한다.

여기서 ξ(k,n)=λx(k,n)/λd(k,n)과 γ(k,n)=|Y(k,n)|2/λd(k,n)는 사전 신호대 잡음비(a priori SNR: a priori signal-to-noise ratio)와 사후 신호대 잡음비(a posteriori SNR)을 각각 나타낸다[6]. 사후 신호대 잡음비 γ(k,n)은 음성 부재 구간에서 갱신되는 신호로부터 얻은 잡음 분산 λd(k,n)을 이용하여 추정하며, 사전 신호대 잡음비 ξ(k,n)은 DD(decision-directed) 기법을 이용하여 다음과 같이 추정한다[7].

여기서 |(k,n-1)|은 이전 프레임의 k번째 주파수 밴드에서 추정된 음성 신호의 스펙트럼 성분의 크기이며, MMSE를 기반으로 구한다[6]. 또한 α는 가중치 파라미터이며 0∼1사이 값을 갖는다. P[・]연산자는 다음과 같이 정의된다.

통계적 모델 기반의 음성 검출기에 대한 결정식은 각 주파수 채널에서 구해진 우도비를 기하평균하여 아래와 같이 음성 활동 여부를 판단한다[6-8].

 

3. 제안된 GNL 분포 기반의 음성 검출기

음성과 잡음 신호의 분산을 추정하기 위해 독립 정규와 일반화된 라플라스 분포의 콘볼루션으로 표현된 GNL 분포는 다음과 같다[9].

여기서 fT(t), σ2x 그리고 σ2d은 GNL의 확률밀도함수, 음성의 분산 그리고 잡음의 분산을 각각 나타낸다. 특성화함수는 확률밀도함수의 역 퓨리에 변환이므로 위의 식 (10)을 다음과 같이 쓸 수 있다.

여기서 ՓND(t), ՓLD(t) 그리고 ՓGNL(t)는 정규, 라플라스 그리고 GNL 분포의 특성화함수이며 γ는 형상모수(shape parameter)이다. 위의 식 (11)에서 미지의 파라미터 σ2x, σ2d 그리고 γ는 분포의 모멘트를 이용하여 추정할 수 있다. 분포의 모멘트는 특성화함수의 항에서 정의되며 다음과 같다.

여기서 p는 모멘트의 차수이다. GNL 분포의 고차 모멘트는 식 (11)과 (12)으로부터 계산되며 아래와 같다[9].

여기서 고차 모메트는 표본 모멘트에 의해 근사화되며 이를 이용하여 음성과 잡음의 분산은 다음과 같다.

여기서 는 p차의 표본 모멘텀이다.

GNL의 특징화함수와 고차 모멘텀을 기반으로 음성과 잡음의 분산비(SNRV: speech-to-noise variance ratio)를 구하면 다음과 같다.

음성이 존재하는 구간과 잡음만 존재하는 구간에서의 입력 신호의 분산은 다른 특성을 보인다[9]. 그러므로 본 논문에서는 현재 프레임에서의 SNVR(=SNVRc), 잡음만 존재하는 프레임에서의 SNVR(=SNVRd)를 이용하여 새로운 파라미터를 아래와 같이 구한다.

그림 1은 제안한 새로운 파라미터 SNVRr과 SNVRc의 음성과 잡음에 대한 분산의 히스토그램을 보여준다. 보는 것과 같이 제안한 새로운 파라미터가 잡음 환경에서 음성과 잡음을 구분하는 능력이 우수한 것을 알 수 있다. 이를 기반으로 음성 활동을 검출하기 위한 제안된 알고리즘의 결정법은 다음과 같다.

그림 1.White, Babble 그리고 Office 잡음들을 5 dB SNR 조건에서 SNVRc와 SNVRr의 히스토그램

여기서 α는 음성 쪽으로 바이어스된 것에 대한 보상 값이며 p(Hi)는 음성의 존재와 부재에 대한 사전 확률 값이다.

 

4. 실험 방법 및 결과

본 논문에서 제안된 음성검출기의 성능을 평가하기 위해 기존의 통계적 모델에 기반한 음성 검출기, Teager Energy 기반의 음성 검출기 그리고 실제 사용 가능성을 확인하기 위해서 G.729B 음성코덱[10]과 음성 검출 성능을 비교하였다. 실험에 사용된 데이터는 음성 검출 알고리즘에서 성능 평가 비교를 위해 사용된 음성 데이터의 길이를 고려하여 각각 4명의 남성, 여성화자가 각각 57초씩 말하였으며, 이 데이터들을 모두 합하여 총 456초의 음성을 8kHz로 샘플링 하였다. 또한 평가를 위해 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 수동으로 표시하였다. 분류된 음성 데이터의 음성 구간은 총 58.2%로 유성음 44.5%, 무성음 13.4%로 구성되었다. 또한 정상 잡음과 비정상 잡음의 경우에서 성능 평가를 위해 white, babble, office 잡음을 5, 10 dB 그리고 15 dB SNR로 부과하였다.

표 1은 기존의 음성검출기들과 음성 검출 성능을 비교하기 위해 위에서 설명한 456초의 잡음 섞인 데이터를 사용하여 Pe(probability of total error), Pm(probability of miss) 그리고 Pfa(probability of false alarm)을 나타낸 것이다. 표 1을 보면 모든 잡음 상황에서 제안된 음성 검출 알고리즘이 기존의 음성 검출 알고리즘보다 성능이 우수한 것을 볼 수 있다. 기존 알고리즘 중에서 가장 성능이 좋은 Teager Energy기반의 음성 검출기와 비교하였을 때, 비정상 잡음인 babble과 office 잡음에서의 Pe 성능 향상 폭은 SNR 5dB [1.3, 0.5]로 정상 잡음인 white 잡음에서의 향상폭인 2.7 보다 낮았다. 이러한 결과는 babble과 office잡음이 음성과 비슷한 특징을 가지고 있는 것을 원인으로 본다. G.729B의 음성검출기는 음성 검출을 위해 음성의 에너지가 저주파 대역에 집중돼있는 특성을 잘 나타내는 파라미터들을 사용한다. 때문에 전체 주파수 대역에 에너지가 고르게 퍼져있는 white 잡음의 경우 잡음 구간뿐만 아니라 음성과 잡음이 섞여있는 구간에서도 잡음으로 판단하여 white 잡음에서 G.729B의 Pfa가 상대적으로 낮고 Pm이 높게 나왔다. 이것을 통해 제안된 음성검출기의 성능이 비정상 잡음 환경보다 정상 잡음 환경에서 더 우수하다는 것을 알 수 있다.

표 1.기존의 음성 검출기와 제안된 음성검출기의 성능 비교

 

5. 결 론

본 논문에서는 음성 검출기의 성능을 향상시키기 위해 일반화된 GNL 분포 기반의 음성을 검출 알고리즘을 제안하였다. 제안된 알고리즘에서는 잡음 섞인 음성 신호의 확률밀도함수를 일반화된 GNL 분포로 나타낸 후 음성과 잡음의 분산을 고차 모멘트를 이용하여 추정하였다. 이렇게 구한 음성과 잡음의 분산을 이용하여 음성 검출을 위한 결정식을 구하여 음성 활동 구간을 검출 하였다.

제안된 알고리즘의 성능 평가를 위해 Pe, Pm 그리고 Pfa값을 표 1에서 기존의 음성 검출 알고리즘들과 비교하였다. 제안된 알고리즘은 전체적으로 우수한 성능을 보였고 특히 white 잡음에서 보다 뛰어난 성능을 보였다. 이러한 실험결과에서 알 수 있듯이 제안된 음성 검출 알고리즘의 성능이 우수하다는 것을 알 수 있다.

References

  1. Y. Gao, E. Shlomot, A. Benyassine, J. Thyssen, Huan-yu Su, and C. Murgia, "The SMV Algorithm Selected by TIA and 3GPP2 for CDMA Applications," Proc. the IEEE International Conference on Acoustics, Speech and Signal Processing, Vol. 2, pp. 709-712, 2001.
  2. 3GPP2 Spec., "Source-controlled Variablerate Multimedia Wideband Speech Codec (VMR- WB), Service Option 62 and 63 for Spread Spectrum Systems," 3GPP2-C.S0052- A, Vol. 1, 2005.
  3. 류종훈, 김대경, 박장식, 손경식, "새로운 음성 활동 검출법에 의한 Boll의 스펙트럼 차감 알고 리즘," 멀티미디어학회논문지, 제4권, 제1호, pp. 46-55, 2001.
  4. 김태석, 장종칠, "연속음성인식을 위항 음성구 간과 피치검출에 관한 연구," 멀티미디어학회 논문지, 제8권, 제1호, pp. 56-61, 2005.
  5. Y. Ephraim and D. Malah, "Speech Enhancement using a Minimum Mean-square Error Short-time Spectral Amplitude Estimator," IEEE Trans. Acoustics, Speech, Sig. Process., Vol. ASSP-32, No. 6, pp. 1190-1121, 1984.
  6. J. Sohn, N.S. Kim, and W. Sung, "A Statistical Model-based Voice Activity Detection," IEEE Sig. Process. Lett., Vol. 6, No. 1, pp. 1-3, 1999.
  7. J.W. Shin, H.J. Kwon, S.H. Jin, and N.S. Kim, "Voice Activity Detection based on Conditional MAP Criterion," IEEE Signal Processing Letters, Vol. 15, pp. 257-260, 2008. https://doi.org/10.1109/LSP.2008.917027
  8. Y.S. Park and S. Lee, "Voice Activity Detection using Global Speech Absence Probability based on Teager Energy for Speech Enhancement," IEICE Trans. Inform. System, Vol. E95-D, No. 10, 2012.
  9. T. Moazzeni, A. Amei, J. Ma, and Y.Jiang, "Statistic Model Based SNR Estimation Method for Speech Signals," Electronics Letters, Vol. 48, No. 12, pp. 727-728, 2012. https://doi.org/10.1049/el.2012.0799
  10. ITU-T Rec. G.729, Annex B, A Silence Compression Scheme for G.729 Optimized for Terminals Conforming to ITU-T V.70.