• 제목/요약/키워드: SNR-based VAD

검색결과 20건 처리시간 0.03초

Voice Activity Detection Based on SNR and Non-Intrusive Speech Intelligibility Estimation

  • An, Soo Jeong;Choi, Seung Ho
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.26-30
    • /
    • 2019
  • This paper proposes a new voice activity detection (VAD) method which is based on SNR and non-intrusive speech intelligibility estimation. In the conventional SNR-based VAD methods, voice activity probability is obtained by estimating frame-wise SNR at each spectral component. However these methods lack performance in various noisy environments. We devise a hybrid VAD method that uses non-intrusive speech intelligibility estimation as well as SNR estimation, where the speech intelligibility score is estimated based on deep neural network. In order to train model parameters of deep neural network, we use MFCC vector and the intrusive speech intelligibility score, STOI (Short-Time Objective Intelligent Measure), as input and output, respectively. We developed speech presence measure to classify each noisy frame as voice or non-voice by calculating the weighted average of the estimated STOI value and the conventional SNR-based VAD value at each frame. Experimental results show that the proposed method has better performance than the conventional VAD method in various noisy environments, especially when the SNR is very low.

잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법 (Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments)

  • 최갑근;김순협
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.447-453
    • /
    • 2009
  • 이 논문은 음성 에너지를 최대화 하여 낮은 SNR환경에서 음성 존재 여부를 판단하고 정확한 끝점을 검출하는 방법에 대한 것이다. 전통적인 VAD (Voice Activity Detection) 알고리듬은 잡음의 추정치를 이용해 음성과 비음성 구간을 선택하여 낮은 SNR환경이나 비안정 잡음환경에서는 정확하지 못한 문턱값으로 인해 부정확한 끝점검출을 하였다. 또한 잡음의 시간적 변화를 반영하기 위해 비교적 큰 분석 구간을 두어 계산량이 증가함에 따라 실제 응용에 적합하지 않은 단점이 있다. 이 논문은 잡음환경에서 정확한 음성 구간의 검출을 위해 심리음향 모델에 기반 한 바크 스케일 필터 뱅크를 이용하여 주어진 프레임에서 음성 에너지를 최대화 시키고 잡음을 억제하는 SEM-VAD (Speech Energy Maximization-Voice Activity Detection) 방법을 제안하였다. 다양한 잡음환경, SNR 15 dB, 10 dB 5 dB 0 dB 상황에서 실험한 결과 SNR의 변화에 안정적인 문턱값을 얻었고, 음성 검출을 위한 실험에서 자동차 잡음 환경에 대한 PHR (Pause Hit Rate)은 모든 잡음 환경에서 100%의 정확도를 보였고, FAR (False Alarm Rate)는 SNR 15 dB와 10 dB에서는 0%, SNR 5 dB에서 5.6% SNR 0 dB에서 9.5%의 성능을 보였다.

비정체성 잡음을 위한 SPD-TE 기반 계수형 음성 활동 탐지 (A Parametric Voice Activity Detection Based on the SPD-TE for Nonstationary Noises)

  • 구본응
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.310-315
    • /
    • 2015
  • 본 논문에서는 비정체성(nonstationary) 잡음 환경을 위한 단일 채널 VAD(Voice Activity Detection) 알고리듬 제안하였다. VAD 판별을 위한 특징계수의 임계값은 과거 비음성 프레임들의 평균과 표준편차를 추산하여 적응적으로 갱신하였다. 특징계수로는 SPD-TE(Spectral Power Difference-Teager Energy)를 사용했는데, 이것은 WPD(Wavelet Packet Decomposition) 계수에 Teager 에너지를 적용한 것으로서 잡음에 강인한 것으로 보고된 바 있다. TIMIT 음성과 NOISEX-92 잡음을 사용하여 10 dB부터 -10 dB까지의 SNR에 대한 실험 결과, 제안된 알고리듬이 표준을 포함한 기존의 알고리듬과 비슷한 정확도를 보였다.

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국;이연우;이성로
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.141-148
    • /
    • 2010
  • In this paper, voice activity detection (VAD) for dual-channel noisy speech recognition is proposed in which spatial cues are employed. In the proposed method, a probability model for speech presence/absence is constructed using spatial cues obtained from dual-channel input signal, and a speech activity interval is detected through this probability model. In particular, spatial cues are composed of interaural time differences and interaural level differences of dual-channel speech signals, and the probability model for speech presence/absence is based on a Gaussian kernel density. In order to evaluate the performance of the proposed VAD method, speech recognition is performed for speech segments that only include speech intervals detected by the proposed VAD method. The performance of the proposed method is compared with those of several methods such as an SNR-based method, a direction of arrival (DOA) based method, and a phase vector based method. It is shown from the speech recognition experiments that the proposed method outperforms conventional methods by providing relative word error rates reductions of 11.68%, 41.92%, and 10.15% compared with SNR-based, DOA-based, and phase vector based method, respectively.

  • PDF

UMP 테스트에 근거한 새로운 통계적 음성검출기 (A New Statistical Voice Activity Detector Based on UMP Test)

  • 장근원;장준혁;김동국
    • 한국음향학회지
    • /
    • 제26권1호
    • /
    • pp.16-24
    • /
    • 2007
  • 음성검출기는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성검출방식은 통계적인 모델을 기반으로 하여 likelihood ratio test (LRT)를 하게 된다. 그리고 이 값을 임계값과 비교하여 음성인지 아닌지 판단하게 된다. 본 논문에서는 가우시안 (Gaussian) 분포를 기반으로 하고 uniformly most powerful (UMP) 테스트를 이용하여 새로운 음성검출기법을 제안한다. 새로운 음성검출기법의 결정규칙은 기존 LRT에 기반하여 UMP 테스트를 통해 식을 유도하였다. UMP 테스트를 이용하면, 입력음성에 대한 절대값의 확률 분포를 Rayleigh 분포 형태로 얻을 수 있으며, 이 분포에 따라 최종적으로 음성검출을 하게 된다. 이 새로운 방식의 음성검출기는 기존의 방식에서 필요한 a priori signal-to-noise ratio (SNR) 값을 구하지 않고도 음성 유무를 판단할 수 있다는 장점이 있다. 실제로 다양한 음성검출에 대한 성능 평가결과, 제안된 기법이 기존 방식에 비해 우수한 성능을 나타내었다.

Teager Energy 기반의 수정된 파워 스펙트럼 편차를 이용한 음성 검출 (Voice Activity Detection Using Modified Power Spectral Deviation Based on Teager Energy)

  • 송지현;송영록;심현민;이상민
    • 재활복지공학회논문지
    • /
    • 제8권1호
    • /
    • pp.41-46
    • /
    • 2014
  • 본 논문에서는 잡음 상황에서 강인한 음성 특성을 나타내는 TE (teager energy) 기반의 특징벡터를 이용한 음성 검출 알고리즘을 제안하였다. 입력 신호에 TEO (teager energy operator)를 적용하고, 이를 이용하여 음성 검출 알고리즘에서 우수한 성능을 보여주는 파워 스펙트럼 편차를 구하였다. 또한, 제안된 음성 검출 알고리즘의 성능 향상을 위하여 통계적 모델 기반의 우도비를 TE 기반의 파워 스펙트럼 편차의 가중치 요소로 적용하였다. 제안된 알고리즘의 성능 검증을 위해서 전체 오차율, ROC (receiver operating characteristics), PESQ (perceptual evaluation of speech quality)와 같은 객관적 실험을 수행하였다. 실험결과 5dB SNR 이하의 낮은 SNR을 갖는 비 정상 잡음 환경에서 제안한 음성 검출 알고리즘이 약 2.6%의 전체 오차율 감소와 약 0.053의 PESQ 점수 향상을 나타내었다.

  • PDF

웨이블렛 패킷 변환과 Teager 에너지를 이용한 잡음 환경에서의 단일 채널 음성 판별 (A Single Channel Voice Activity Detection for Noisy Environments Using Wavelet Packet Decomposition and Teager Energy)

  • 구본응
    • 한국음향학회지
    • /
    • 제33권2호
    • /
    • pp.139-145
    • /
    • 2014
  • 본 논문에서는 WPD (Wavelet Packet Decomposition) 계수에 Teager 에너지를 적용한 특징 계수를 임계값 알고리듬에 적용하여 잡음에 강인한 VAD 알고리듬을 제안하였다. 임계값은 비음성 구간의 평균과 표준편차를 추산하여 설정하였다. TIMIT 음성과 NOISEX 잡음 데이터베이스를 사용한 실험 결과, 제안된 알고리듬이 기존의 대표적인 비교 대상 알고리듬보다 우수함을 보였다. 정확도는 SNR 10 dB부터 -10 dB까지 ROC (Receiver Operating Characteristics) 곡선을 사용하여 비교하였다.

음성의 주기성과 QSNR을 이용한 잡음환경에서의 음성검출 알고리즘 (Voice Activity Detection Algorithm Using Speech Periodicity and QSNR in Noisy Environment)

  • 정주현;송화전;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.59-62
    • /
    • 2005
  • Voice activity detection (VAD) is important in many areas of speech processing technology. Speech/nonspeech discrimination in noisy environments is a difficult task because the feature parameters used for the VAD are sensitive to the surrounding environments. Thus the VAD performance is severely degraded at low signal-to-noise ratios (SNRs). In this paper, a new VAD algorithm is proposed based on the degree of voicing and Quantile SNR (QSNR). These two feature parameters are more robust than other features such as energy and spectral entropy in noisy environments. The effectiveness of proposed algorithm is evaluated under the diverse noisy environments in the Aurora2 DB. According to out experiment, the proposed VAD outperforms the ETSI Advanced Frontend VAD.

  • PDF

잡음환경에서 Teager Energy 기반의 전역 음성부재확률을 이용하는 음성검출 (Voice Activity Detection Using Global Speech Absence Probability Based on Teager Energy in Noisy Environments)

  • 박윤식;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.97-103
    • /
    • 2012
  • 본 논문에서는 잡음환경에서 효과적인 음성을 검출하기 위한 새로운 음성 검출 (VAD, voice activity detection) 알고리즘을 제안한다. 통계적 모델에 기반의 Likelihood ratio (LR)를 통하여 도출되는 전역 음성부재확률 (GSAP, global speech absence probability)은 음성검출을 위한 피쳐 (feature) 파라미터로 널리 적용되고 있다. 하지만 신호 대 잡음 비 (SNR, signal-to-noise ratio)가 낮은 잡음환경에서는 정확한 GSAP 추정이 어려운 문제점을 가지고 있다. 따라서 제안된 방법에서는 잡음환경에서 강인한 VAD 알고리즘을 위하여 Teager energy (TE) 기반의 GSAP를 피쳐 파라미터로 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

잔향제거를 이용한 음성통신 시스템 성능 향상 (Performance Enhancement of Speech Communication System using Reverberation Rejection)

  • 김세영;강석엽;김기만
    • 한국정보통신학회논문지
    • /
    • 제13권10호
    • /
    • pp.2211-2217
    • /
    • 2009
  • 본 논문에서는 잔향이 존재하는 환경에서 단일 마이크로폰을 사용한 음성 개선 방법을 제시한다. 스펙트럼 차감법(Spectral Subtraction)은 스펙트럼 상에서 잔향성분 및 잡음을 제거 할 수 있는 효과적인 방법이다. 스펙트럼 차감법은 음성과 비음성 구간의 정확한 구분을 필요로 하며 성능을 향상시키기 위해 본 논문에서는 엔트로피(Entropy) 기반의 음성 구간 검출법을 적용하였다. 제시된 방법을 기존의 에너지 검출 기반의 음성 검출법을 적용한 스펙트럼 차감법과 비교하여 성능 평가를 수행하였다. SNR 및 잔향시간에 따른 잔향 제거비율을 평가지표로 사용하였으며, 시뮬레이션 결과 기존의 스펙트럼 차감법과 비교하여 제시된 방법이 우수한 성능을 보였다.