• 제목/요약/키워드: Voice activity detection (VAD)

검색결과 60건 처리시간 0.027초

Robust Voice Activity Detection Using the Spectral Peaks of Vowel Sounds

  • Yoo, In-Chul;Yook, Dong-Suk
    • ETRI Journal
    • /
    • 제31권4호
    • /
    • pp.451-453
    • /
    • 2009
  • This letter proposes the use of vowel sound detection for voice activity detection. Vowels have distinctive spectral peaks. These are likely to remain higher than their surroundings even after severe corruption. Therefore, by developing a method of detecting the spectral peaks of vowel sounds in corrupted signals, voice activity can be detected as well even in low signal-to-noise ratio (SNR) conditions. Experimental results indicate that the proposed algorithm performs reliably under various noise and low SNR conditions. This method is suitable for mobile environments where the characteristics of noise may not be known in advance.

잡음 환경에서의 전송률 감소를 위한 G.723.1 음성활동 검출기 성능 개선에 관한 연구 (Improvement of VAD Performance for the Reduction of the Bit Rate Under the Noise Environment in the G.723.1)

  • 김정진;장경아;배명진
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.42-47
    • /
    • 2001
  • 본 논문에서는 인터넷 폰 및 화상통신 등을 위해 개발된 G.723.1 부록 A 6.3kbps/5.3kbps 이중 전송율 음성 코덱의 음성활동 검출기의 성능을 개선한다. 본 논문에서는 에너지 레벨을 크게 3가지 범위로 구분하여 음성활동 유무 판정을 하도록 한다. 제안한 알고리즘에 대한 처리시간, 음질평가 및 전송율 감소량을 측정한 결과 처리시간의 경우 묵음구간에 대한 판정의 정확성에 기인하여 G.723.1에 비해 감소하고 주관적인 음질평가의 경우 G.723.1과 거의 차이가 없다. 전송율 측정을 위해 VAD=1로 판정한 프레임을 측정한 결과 묵음 구간이 많이 나타날수록 뚜렷한 전송율 감소효과를 얻을 수 있다.

  • PDF

일반화된 가우시안 분포를 이용한 신호 준공간 기반의 음성검출기법 (Signal Subspace-based Voice Activity Detection Using Generalized Gaussian Distribution)

  • 엄용섭;장준혁;김동국
    • 한국음향학회지
    • /
    • 제32권2호
    • /
    • pp.131-137
    • /
    • 2013
  • 본 논문에서는 신호준공간(signal subspace) 영역에서 통계적 모델을 이용한 향상된 음성검출기법을 제안한다. 이를 위해 EP(Embedded Prewhitening) 기법에 의해 비상관적인 (uncorrelated) 신호준공간을 생성하고, 이 영역에서 잡음음성과 잡음에 대한 통계적 특성을 파악하였다. 이러한 통계적 특성에 근거하여 GGD (Generalized Gaussian Distribution)을 사용하여 보다 효율적인 음성검출 알고리즘을 제안한다. 실험을 통해 제안된 기법이 0-15dB SNR의 시뮬레이션 환경에서 기존 Gaussian을 사용한 신호준공간 기법보다 향상된 음성검출 결과를 보여준다.

궤환구조를 가지는 변별적 가중치 학습에 기반한 음성검출기 (Voice Activity Detection Based on Discriminative Weight Training with Feedback)

  • 강상익;장준혁
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.443-449
    • /
    • 2008
  • 이동통신에서 배경잡음이 존재하는 실제 환경에서 음성신호처리의 가장 중요한 이슈중의 하나는 강인한 음성검출기를 설계하는 것이다. 상대적으로 간단하면서도 성능이 우수하여 대표적인 음성검출기로 사용되는 통계적모델기반 기법은 각 주파수 채널별 우도비를 이용하여 음성검출 검출식을 만들어내는 방식이다. 최근, 변별적 가중치 학습 (discriminative weight training)을 이용하여 주파수 체널별 가중치가 인가된 우도비를 이용한 음성검출 결정식을 갖는 음성검출기가 제안 되었으며 상대적으로 우수한 성능을 보였다. 본 연구에서는 기존의 변별적 가중치 학습의 입력벡터에 이전프레임의 결정식을 궤환구조형태를 바탕으로 추가하는 새로운 방식을 제안한다. 제안된 기법은 비정상 (non-staionary) 잡음 환경에서 객관적인 방법을 통해 상호비교 분석되었으며 결론적으로 우수한 성능을 보였다.

음향학적 반향 제거를 위한 Soft Decision 기반의 동시통화 검출 (Double-Talk Detection Based on Soft Decision for Acoustic Echo Suppression)

  • 박윤식;장준혁
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.285-289
    • /
    • 2009
  • 본 논문에서는 음향학적 반향 제거(AES, acoustic echo suppression)를 위해 주파수영역에서 soft decision 기법에 근거한 새로운 동시통화 검출 (DTD, double-talk detection) 알고리즘을 제안한다. 제시된 방법은 효과적인 DTD를 위해 상관계수 (cross-correlation coefficient)에 기반하여 hard decision을 사용하는 기존의 알고리즘 대신 주파수 영역에서 입력 및 원단신호의 VAD (voice activity detection) 결과와 음성 통계모델에 기반한 soft decision 방법을 도입하여 전역 근단화자존 재확률 (GNSPP, global near-end speech presence probability)을 DTD에 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 우수한 성능을 보였다.

실시간 변별적 가중치 학습에 기반한 음성 검출기 (Voice Activity Detection Based on Real-Time Discriminative Weight Training)

  • 강상익;조규행;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제45권4호
    • /
    • pp.100-106
    • /
    • 2008
  • 본 논문에서는 다양한 잡음 환경에서 음성의 통계적 모델에 기반한 음성 검출기의 성능향상을 위해 PSFM (Power Spectral Flatness Measure)을 이용하여 실시간으로 변별적 가중치 학습 (Discriminative Weight Training) 기반의 최적화된 우도비 테스트 (Likelihood Ratio Test, LRT)를 제안한다. 먼저, 기존의 통계모델기반의 음성 검출기를 분석하고, 이를 기반으로 MCE (Minimum Classification Error)방법을 도입하여 도출한 각 주파수 채널별 가중치를 PSFM 값에 기반하여 실시간 매 프레임마다 다른 가중치를 적용한 우도비 기반의 음성 검출 결정법을 제시한다. 제안된 알고리즘은 다양한 잡음 환경에서 기존에 제시된 음성 검출기와 비교하였으며, 우수한 성능을 보인다.

UMP 테스트에 근거한 새로운 통계적 음성검출기 (A New Statistical Voice Activity Detector Based on UMP Test)

  • 장근원;장준혁;김동국
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 2007
  • 음성검출기는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성검출방식은 통계적인 모델을 기반으로 하여 likelihood ratio test (LRT)를 하게 된다. 그리고 이 값을 임계값과 비교하여 음성인지 아닌지 판단하게 된다. 본 논문에서는 가우시안 (Gaussian) 분포를 기반으로 하고 uniformly most powerful (UMP) 테스트를 이용하여 새로운 음성검출기법을 제안한다. 새로운 음성검출기법의 결정규칙은 기존 LRT에 기반하여 UMP 테스트를 통해 식을 유도하였다. UMP 테스트를 이용하면, 입력음성에 대한 절대값의 확률 분포를 Rayleigh 분포 형태로 얻을 수 있으며, 이 분포에 따라 최종적으로 음성검출을 하게 된다. 이 새로운 방식의 음성검출기는 기존의 방식에서 필요한 a priori signal-to-noise ratio (SNR) 값을 구하지 않고도 음성 유무를 판단할 수 있다는 장점이 있다. 실제로 다양한 음성검출에 대한 성능 평가결과, 제안된 기법이 기존 방식에 비해 우수한 성능을 나타내었다.

차량 잡음 환경에서 엔트로피 기반의 음성 구간 검출 (Voice Activity Detection Based on Entropy in Noisy Car Environment)

  • 노용완;이규범;이우석;홍광석
    • 융합신호처리학회논문지
    • /
    • 제9권2호
    • /
    • pp.121-128
    • /
    • 2008
  • 정확한 음성 구간 검출은 음성 인식 및 음성 코딩 그리고 음성 통신 시스템 등과 같은 음성 어플리케이션의 성능에 큰 영향을 미친다. 본 논문에서는 실제 운전하고 있는 상태에서 다양한 차량 노이즈 환경의 음성 구간 검출 방법을 제안한다. 기존의 음성 구간 검출은 시간 에너지, 주파수 에너지, 영 교차율, spectral entropy 등 다양한 방법을 사용하였으며 잡음 환경에서 급격하게 성능이 저하되는 단점이 있었다. 본 논문에서는 기존의 spectral entropy를 기반으로 하여 MFB(Mel-frequency Filter Banks) spectral entropy, 기울기 FFT(Fast Fourier Transform) spectral entropy, 기울기 MFB spectral entropy를 이용한 음성 구간 검출 방법을 제안한다. MFB는 멜 스케일과 FFT를 곱한 것으로 멜 스케일은 인간이 소리를 인지할 때 주파수에 대해 비선형적인 스케일이며 음성의 특징을 잘 반영한다. 제안한 MFB spectral entropy 방법은 다양한 차량 잡음 환경에서 음성 및 비음성 분별 능력을 향상시킬 수 있으며 실험 결과 93.21%의 음성 구간 검출율을 나타내었다. 이는 기존의 spectral entropy 방법과 비교할 때 MFB를 이용한 음성 구간 검출 방법이 3.2%의 검출율이 향상되었다.

  • PDF

Adaptive Wavelet Based Speech Enhancement with Robust VAD in Non-stationary Noise Environment

  • Sungwook Chang;Sungil Jung;Younghun Kwon;Yang, Sung-il
    • The Journal of the Acoustical Society of Korea
    • /
    • 제22권4E호
    • /
    • pp.161-166
    • /
    • 2003
  • We present an adaptive wavelet packet based speech enhancement method with robust voice activity detection (VAD) in non-stationary noise environment. The proposed method can be divided into two main procedures. The first procedure is a VAD with adaptive wavelet packet transform. And the other is a speech enhancement procedure based on the proposed VAD method. The proposed VAD method shows remarkable performance even in low SNRs and non-stationary noise environment. And subjective evaluation shows that the performance of the proposed speech enhancement method with wavelet bases is better than that with Fourier basis.

주파수 영역에서 구간조건을 이용한 음향학적 반향 제거 (Frequency Domain Acoustic Echo Suppression Based on Boundary Condition)

  • 이규호;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제46권5호
    • /
    • pp.162-166
    • /
    • 2009
  • 본 논문은 적응 반향 제거기인 parametric wiener filter (PWF)의 반향신호 제거 파라미터를 구간 조건에 따라 차등적으로 적용시키는 새로운 음향학적 반향제거 (Acoustic Echo Suppression, AES) 알고리즘을 제안한다. PWF는 반향 신호 추정의 부정확성을 보상하고자 반향신호 제거 파라미터를 사용한다. 기존의 방법은 단일통화 구간과 동시통화 구간에 관계없이 동일한 반향신호 제거파라미터 값을 적용하여 동시통화 환경에서 근단 신호의 왜곡을 발생 시킨다. 본 논문에서는 상관계수 (Correlation Coefficient)를 이용한 동시통화(Double-Talk) 검출 알고리즘과 음성구간검출기 (Voice Activity Detector, VAD)의 결과로부터, 원단 화자만 있는 구간과 동시통화 구간을 구분하고 각각의 경우에 반향제거 파라미터를 달리 적용하여 동일한 반향신호 제거 파라미터를 사용함에 따른 동시통화 구간내의 근단 화자신호의 음질 저하 없이 반향신호를 보다 효과적으로 제거하는 방법을 제안한다. 제안된 방법의 결과는 객관적인 실험을 통해 비교 평가한 결과 우수한 성능을 보였다.