• 제목/요약/키워드: Voice activity detection (VAD)

검색결과 60건 처리시간 0.023초

Voice Activity Detection Based on SNR and Non-Intrusive Speech Intelligibility Estimation

  • An, Soo Jeong;Choi, Seung Ho
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.26-30
    • /
    • 2019
  • This paper proposes a new voice activity detection (VAD) method which is based on SNR and non-intrusive speech intelligibility estimation. In the conventional SNR-based VAD methods, voice activity probability is obtained by estimating frame-wise SNR at each spectral component. However these methods lack performance in various noisy environments. We devise a hybrid VAD method that uses non-intrusive speech intelligibility estimation as well as SNR estimation, where the speech intelligibility score is estimated based on deep neural network. In order to train model parameters of deep neural network, we use MFCC vector and the intrusive speech intelligibility score, STOI (Short-Time Objective Intelligent Measure), as input and output, respectively. We developed speech presence measure to classify each noisy frame as voice or non-voice by calculating the weighted average of the estimated STOI value and the conventional SNR-based VAD value at each frame. Experimental results show that the proposed method has better performance than the conventional VAD method in various noisy environments, especially when the SNR is very low.

낮은 신호 대 잡음비 환경에서의 퍼지 소속도 천이 C-means 클러스터링을 이용한 음성구간 검출 알고리즘 (Voice Activity Detection Algorithm using Fuzzy Membership Shifted C-means Clustering in Low SNR Environment)

  • 이기현;이윤정;조진호;김명남
    • 한국멀티미디어학회논문지
    • /
    • 제17권3호
    • /
    • pp.312-323
    • /
    • 2014
  • 음성구간 검출은 음성과 잡음이 섞인 신호에서 음성과 잡음이 섞인 신호에서 음성구간을 찾는 과정으로 잡음제거나 음성 향상을 위한 신호처리에서 매우 중요한 과정이다. 지금까지 음성구간 검출에 관한 많은 연구가 있었지만, 낮은 신호 대 잡음비 환경에서 문장형태의 음성신호에 대해서는 좋은 성능을 보이지 못하였다. 본 논문에서는 신호의 엔트로피를 이용한 초기 VAD과정을 거친 후, 퍼지 소속도 천이 c-means 클러스터링 방법을 이용해 주 VAD과정을 거치는 새로운 VAD알고리즘을 제안한다. 제안한 알고리즘의 성능을 비교 평가하기 위하여 백색잡음의 다양한 신호 대 잡음비 환경에서 실험을 수행하였으며 실험결과, 제안한 방법의 우수한 성능을 확인할 수 있었다.

비정체성 잡음을 위한 SPD-TE 기반 계수형 음성 활동 탐지 (A Parametric Voice Activity Detection Based on the SPD-TE for Nonstationary Noises)

  • 구본응
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.310-315
    • /
    • 2015
  • 본 논문에서는 비정체성(nonstationary) 잡음 환경을 위한 단일 채널 VAD(Voice Activity Detection) 알고리듬 제안하였다. VAD 판별을 위한 특징계수의 임계값은 과거 비음성 프레임들의 평균과 표준편차를 추산하여 적응적으로 갱신하였다. 특징계수로는 SPD-TE(Spectral Power Difference-Teager Energy)를 사용했는데, 이것은 WPD(Wavelet Packet Decomposition) 계수에 Teager 에너지를 적용한 것으로서 잡음에 강인한 것으로 보고된 바 있다. TIMIT 음성과 NOISEX-92 잡음을 사용하여 10 dB부터 -10 dB까지의 SNR에 대한 실험 결과, 제안된 알고리듬이 표준을 포함한 기존의 알고리듬과 비슷한 정확도를 보였다.

엔트로피 차와 신호의 에너지에 기반한 잡음환경에서의 음성검출 (Voice Activity Detection Based on Signal Energy and Entropy-difference in Noisy Environments)

  • 하동경;조석제;진강규;신옥근
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제32권5호
    • /
    • pp.768-774
    • /
    • 2008
  • In many areas of speech signal processing such as automatic speech recognition and packet based voice communication technique, VAD (voice activity detection) plays an important role in the performance of the overall system. In this paper, we present a new feature parameter for VAD which is the product of energy of the signal and the difference of two types of entropies. For this end, we first define a Mel filter-bank based entropy and calculate its difference from the conventional entropy in frequency domain. The difference is then multiplied by the spectral energy of the signal to yield the final feature parameter which we call PEED (product of energy and entropy difference). Through experiments. we could verify that the proposed VAD parameter is more efficient than the conventional spectral entropy based parameter in various SNRs and noisy environments.

잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법 (Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments)

  • 최갑근;김순협
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.447-453
    • /
    • 2009
  • 이 논문은 음성 에너지를 최대화 하여 낮은 SNR환경에서 음성 존재 여부를 판단하고 정확한 끝점을 검출하는 방법에 대한 것이다. 전통적인 VAD (Voice Activity Detection) 알고리듬은 잡음의 추정치를 이용해 음성과 비음성 구간을 선택하여 낮은 SNR환경이나 비안정 잡음환경에서는 정확하지 못한 문턱값으로 인해 부정확한 끝점검출을 하였다. 또한 잡음의 시간적 변화를 반영하기 위해 비교적 큰 분석 구간을 두어 계산량이 증가함에 따라 실제 응용에 적합하지 않은 단점이 있다. 이 논문은 잡음환경에서 정확한 음성 구간의 검출을 위해 심리음향 모델에 기반 한 바크 스케일 필터 뱅크를 이용하여 주어진 프레임에서 음성 에너지를 최대화 시키고 잡음을 억제하는 SEM-VAD (Speech Energy Maximization-Voice Activity Detection) 방법을 제안하였다. 다양한 잡음환경, SNR 15 dB, 10 dB 5 dB 0 dB 상황에서 실험한 결과 SNR의 변화에 안정적인 문턱값을 얻었고, 음성 검출을 위한 실험에서 자동차 잡음 환경에 대한 PHR (Pause Hit Rate)은 모든 잡음 환경에서 100%의 정확도를 보였고, FAR (False Alarm Rate)는 SNR 15 dB와 10 dB에서는 0%, SNR 5 dB에서 5.6% SNR 0 dB에서 9.5%의 성능을 보였다.

비음수 행렬 인수분해 기반의 음성검출 알고리즘 (Voice Activity Detection Based on Non-negative Matrix Factorization)

  • 강상익;장준혁
    • 한국통신학회논문지
    • /
    • 제35권8C호
    • /
    • pp.661-666
    • /
    • 2010
  • 본 논문에서는 비음수 행렬 인수분해 기법을 기반으로 한 새로운 음성 검출 (Voice Activity Detection, VAD) 알고리즘을 제안한다. 먼저, 기존의 통계모델기반의 음성검출기를 분석하고, 이를 기반으로 비음수 행렬 인수분해를 통해 도출한 입력 기초 벡터와 잡음 기초 벡터 차이로 음성의 유무를 판단한다. 이때 최적의 문턱값을 찾기 위해 통계모델 기반의 음성검출기에 의해 추정된 잡음 구간에서 NMF 결과의 분포에 따라 최적화된 문턱값을 비음수 행렬기반의 음성 검출 알고리즘에 적용하는 방법을 제안한다. 실험 결과 기존의 통계적 모델 기반의 음성검출기에 비해 6.75%의 성능향상을 가져왔다.

조건 사후 최대 확률과 음성 스펙트럼 변이 조건을 이용한 통계적 모델 기반의 음성 검출기 (A Statistical Model-Based Voice Activity Detection Employing the Conditional MAP Criterion with Spectral Deviation)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.324-329
    • /
    • 2011
  • 본 논문에서는 조건 사후 최대 확률 (conditional maximum a posteriori, CMAP)과 음성 스펙트럼 변이 조건을 기반으로 한 새로운 음성 검출기 (voice activity detection, VAD)를 제안한다. 제안된 음성 검출기는 통계적 모델을 기반으로 한 우도비 테스트 (likelihood ratio test, LRT)의 문턱값을 결정하는데 조건 사후 최대 확률과 스펙트럼 변이의 상태 값을 조건부 확률로 부과한다. 제안된 알고리즘을 다양한 잡음 환경에서 기존의 CMAP 기반의 음성 검출기와 비교한 결과 전체적으로 향상된 성능을 보였으며 특히 SNR이 낮은 조건에서 향상 폭이 컸다.

적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기 (Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold)

  • 김상균;장준혁
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.76-81
    • /
    • 2010
  • 본 논문에서는 음성의 통계적 모델에 기반한 음성 검출기 (voice activity detection, VAD)의 성능 향상을 위해 2차 조건 사후 최대 확률 (second-order conditional maximum a posteriori, second-order CMAP)기법을 적용한 우도비 테스트 (likelihood ratio test, LRT)를 제안한다. 제안된 알고리즘은, 기존의 통계적 모델에 기반한 음성 검출기와 CMAP 기반의 음성 검출기를 분석한 다음, 직전 2 프레임에서 음성의 존재와 부재에 대한 조건부 확률에 따라 실시간으로 적응형 문턱값을 구하여 기하 평균한 우도비와 비교하는 음성검출 결정법 (decision rule)을 제시한다. 제안된 알고리즘을 비정상 (non-stationary) 잡음환경에서 기존의 통계적 모델에 기반한 음성 검출기, CMAP 기반의 음성 검출기와 비교하였으며, 향상된 성능을 보였다.

우도비를 이용한 적응 밴드 분할 기반의 음성 검출기 (Voice Activity Detection based on Adaptive Band-Partitioning using the Likelihood Ratio)

  • 김상균;심현민;이상민
    • 한국멀티미디어학회논문지
    • /
    • 제17권9호
    • /
    • pp.1064-1069
    • /
    • 2014
  • In this paper, we propose a novel approach to improve the performance of a voice activity detection(VAD) which is based on the adaptive band-partitioning with the likelihood ratio(LR). The previous method based on the adaptive band-partitioning use the weights that are derived from the variance of the spectral. In our VAD algorithm, the weights are derived from LR, and then the weights are incorporated with the entropy. The proposed algorithm discriminates the voice activity by comparing the weighted entropy with the adaptive threshold. Experimental results show that the proposed algorithm yields better results compared to the conventional VAD algorithms. Especially, the proposed algorithm shows superior improvement in non-stationary noise environments.

Applying the Bi-level HMM for Robust Voice-activity Detection

  • Hwang, Yongwon;Jeong, Mun-Ho;Oh, Sang-Rok;Kim, Il-Hwan
    • Journal of Electrical Engineering and Technology
    • /
    • 제12권1호
    • /
    • pp.373-377
    • /
    • 2017
  • This paper presents a voice-activity detection (VAD) method for sound sequences with various SNRs. For real-time VAD applications, it is inadequate to employ a post-processing for the removal of burst clippings from the VAD output decision. To tackle this problem, building on the bi-level hidden Markov model, for which a state layer is inserted into a typical hidden Markov model (HMM), we formulated a robust method for VAD not requiring any additional post-processing. In the method, a forward-inference-ratio test was devised to detect the speech endpoints and Mel-frequency cepstral coefficients (MFCC) were used as the features. Our experiment results show that, regarding different SNRs, the performance of the proposed approach is more outstanding than those of the conventional methods.