• 제목/요약/키워드: voice activity detection (VAD)

검색결과 60건 처리시간 0.027초

잡음 환경에서의 음성 검출 알고리즘 비교 연구 (A Comparative Study of Voice Activity Detection Algorithms in Adverse Environments)

  • 양경철;육동석
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.45-48
    • /
    • 2006
  • As the speech recognition systems are used in many emerging applications, robust performance of speech recognition systems under extremely noisy conditions become more important. The voice activity detection (VAD) has been taken into account as one of the important factors for robust speech recognition. In this paper, we investigate conventional VAD algorithms and analyze the weak and the strong points of each algorithm.

  • PDF

Neural Network을 이용한 무선 통신시스템에서의 VAD (VAD By Neural Network Under Wireless Communication Systems)

  • 이호선;김수경;박승권
    • 한국통신학회논문지
    • /
    • 제30권12C호
    • /
    • pp.1262-1267
    • /
    • 2005
  • EBF(Elliptical basis function) 신경망은 비선형 처리를 가능하게 하며, 잡음에 강하고 빠른 수렴을 하는 장점이 있다. 또한 EBF는 설계가 간단하여 실시간 음성 구간 검출기(Voice Activity Detection, VAD)에 적용하기 용이하다. 따라서 전송 효율을 높이기 위해 사용되는 음성구간 검출기를 제안함에 있어 EBF 신경망을 이용하였다. EBF의 학습 알고리즘은 평균 클러스터링(K-means Clustering) 알고리즘과 선형 최소 제곱 방범(Least Mean Square error, LMS)을 사용하였다. G.729 Annex B 와 RBF(Radial Basis Function) 신경망을 이용한 음성구간 검출기와 성능 비교에 있에서, G.729 Annex B 음성 검출기보다 $70\%$ 이상의 높은 성능재선을 나타냈고, RBF 신경망을 이용한 음성구간 검출기 보다 비음성 구간에서 $50\%$정도의 높은 효율을 보였다.

웨이블렛 패킷 변환과 Teager 에너지를 이용한 잡음 환경에서의 단일 채널 음성 판별 (A Single Channel Voice Activity Detection for Noisy Environments Using Wavelet Packet Decomposition and Teager Energy)

  • 구본응
    • 한국음향학회지
    • /
    • 제33권2호
    • /
    • pp.139-145
    • /
    • 2014
  • 본 논문에서는 WPD (Wavelet Packet Decomposition) 계수에 Teager 에너지를 적용한 특징 계수를 임계값 알고리듬에 적용하여 잡음에 강인한 VAD 알고리듬을 제안하였다. 임계값은 비음성 구간의 평균과 표준편차를 추산하여 설정하였다. TIMIT 음성과 NOISEX 잡음 데이터베이스를 사용한 실험 결과, 제안된 알고리듬이 기존의 대표적인 비교 대상 알고리듬보다 우수함을 보였다. 정확도는 SNR 10 dB부터 -10 dB까지 ROC (Receiver Operating Characteristics) 곡선을 사용하여 비교하였다.

통계적 모델 기반의 음성 검출기를 위한 변별적 가중치 학습 (Discriminative Weight Training for a Statistical Model-Based Voice Activity Detection)

  • 강상익;조규행;박승섭;장준혁
    • 한국음향학회지
    • /
    • 제26권5호
    • /
    • pp.194-198
    • /
    • 2007
  • 본 논문에서는 음성의 통계적 모델에 기반한 음성검출기의 성능향상을 위해 변별적 가중치 학습(discriminative weight training) 기반의 최적화된 우도비 테스트(Likelihood Ratio Test, LRT)를 제안한다. 먼저, 기존의 통계모델기반의 음성검출기를 분석하고, 이를 기반으로 MCE(minimum classification error)방법을 도입하여, 각 주파수 채널별로 다른 가중치를 가지는 우도비 기반의 음성검출 결정법(decision rule)을 제시한다. 제안된 알고리즘은 비정상(non-stationary)잡음환경에서 기존의 동일 가중치를 가지는 기하 평균 기반의 음성검출기와 비교하였으며, 우수한 성능을 보인다.

Bi-Level HMM을 이용한 효율적인 음성구간 검출 방법 (An Efficient Voice Activity Detection Method using Bi-Level HMM)

  • 장광우;정문호
    • 한국전자통신학회논문지
    • /
    • 제10권8호
    • /
    • pp.901-906
    • /
    • 2015
  • 본 논문에서는 Bi-Level HMM을 이용한 음성구간 검출 방법을 제안하였다. 기존의 음성 구간 검출법은 짧은 상태변화 오류(Burst Clipping)를 제거하기 위하여 별도의 후처리 과정을 거치든가, 규칙 기반 지연 프레임을 설정해야만 한다. 이러한 문제에 대처하기 위하여 기존의 HMM 모델에 상태 계층을 추가한 Bi-Level HMM을 이용하여 음성구간 판정을 위해 음성상태의 사후 확률비를 이용하였다. 사람의 청각특성을 고려한 MFCC를 특징치로 하여, 다양한 SNR의 음성 데이터에 대한 평가지표를 활용한 실험을 수행하여 기존의 음성상태 분류법보다 우수한 결과를 얻을 수 있었다.

Teager Energy 기반의 수정된 파워 스펙트럼 편차를 이용한 음성 검출 (Voice Activity Detection Using Modified Power Spectral Deviation Based on Teager Energy)

  • 송지현;송영록;심현민;이상민
    • 재활복지공학회논문지
    • /
    • 제8권1호
    • /
    • pp.41-46
    • /
    • 2014
  • 본 논문에서는 잡음 상황에서 강인한 음성 특성을 나타내는 TE (teager energy) 기반의 특징벡터를 이용한 음성 검출 알고리즘을 제안하였다. 입력 신호에 TEO (teager energy operator)를 적용하고, 이를 이용하여 음성 검출 알고리즘에서 우수한 성능을 보여주는 파워 스펙트럼 편차를 구하였다. 또한, 제안된 음성 검출 알고리즘의 성능 향상을 위하여 통계적 모델 기반의 우도비를 TE 기반의 파워 스펙트럼 편차의 가중치 요소로 적용하였다. 제안된 알고리즘의 성능 검증을 위해서 전체 오차율, ROC (receiver operating characteristics), PESQ (perceptual evaluation of speech quality)와 같은 객관적 실험을 수행하였다. 실험결과 5dB SNR 이하의 낮은 SNR을 갖는 비 정상 잡음 환경에서 제안한 음성 검출 알고리즘이 약 2.6%의 전체 오차율 감소와 약 0.053의 PESQ 점수 향상을 나타내었다.

  • PDF

G.723.1 보코더에서 잡음환경에 강인한 음성활동구간 검출기에 관한 연구 (A Study on a Robust Voice Activity Detector Under the Noise Environment in the G,723.1 Vocoder)

  • 이희원;장경아;배명진
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.173-181
    • /
    • 2002
  • 일반적으로 음성활동 구간 검출기 (Voice Activity Detector)의 가장 큰 문제점은 어떠한 배경 잡음에 대해서도 음성 신호를 검출할 수 있어야 한다는 것이다. 이런 문제를 해결하기 위해서 G.723.1에서는 스펙트럼 특성과 입력 신호의 주기성을 이용하고 있지만 신호대 잡음비가 낮은 신호에 대해 정확한 판정을 한다는 것은 상당히 어렵다. 따라서 본 논문에서는 에너지, LSP (Line Spectrum Pair) 분산을 이용하는 새로운 방법을 제안한다. 제안한 알고리즘에 대한 처리시간 및 음질 평가를 측정한 결과 묵음구간이 정확하게 판정되므로 G.723.1에 비해 감소하였으며 주관적인 음질평가의 경우 기존의 G.723.1에 비해 차이가 거의 없었다. 마지막으로 전송률 측정을 위해 신호대 잡음비 5 dB에서 10 dB 사이의 음성 신호의 경우 최적의 전송률 감소 효과를 얻을 수 있었으며 처리시간의 비교 결과 평균 8% 정도의 처리시간 감소 효과를 얻을 수 있었다.

음성 검출 기반의 저연산 이득 제어 알고리즘 (A Gain Control Algorithm of Low Computational Complexity based on Voice Activity Detection)

  • 김상균;조우형;정민아;권장우;이상민
    • 한국통신학회논문지
    • /
    • 제40권5호
    • /
    • pp.924-930
    • /
    • 2015
  • 본 논문에서는 잡음 환경에서 적은 연산량으로 소형 음향기기의 음질 향상을 위한 새로운 저연산 이득 제어 알고리즘을 제안한다. 대표적인 소형 음향기기인 보청기의 이득 제어 알고리즘은 입력 신호를 잡음 제거 한 후 이 신호의 파워를 기준으로 광역동범위압축 (wide dynamic range compression, WDRC)을 하기 때문에 불필요한 신호까지 증폭된다. 제안된 이득 제어 알고리즘은 음성 검출기 (voice activity detection, VAD)의 결과를 이용하여 음성의 존재 유/무에 따라 적응적으로 이득을 제어한다. 성능 평가를 위해 제안된 알고리즘은 VAD를 적용하지 않은 알고리즘과 정상 및 비정상 잡음환경에서 다양한 조건을 부과하여 비교하였으며, 실험결과 제안된 알고리즘이 전체 성능 및 잡음 구간에서 향상된 결과를 보였다.

우도비 특징 벡터를 이용한 SVM 기반의 음성 검출기 (Voice Activity Detection Based on SVM Classifier Using Likelihood Ratio Feature Vector)

  • 조규행;강상기;장준혁
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.397-402
    • /
    • 2007
  • 본 논문에서는 기존의 통계적 모델 기반의 음성 검출기의 성능 향상을 위해 이진 분류에 우수한 support vector machine(SVM)을 도입한다. 기존의 통계적 모델 기반 음성 검출기의 경우 음성의 존재와 부재에 대한 가설로부터 각각의 통계적 모델을 세워 입력 데이타에 의해 결정된 각 주파수 채널별 우도비(likelihood ratio)를 단순히 기하 평균을 취하여 문턱값과 비교, 음성 검출 여부를 판단한다. 제안된 음성 검출기는 기존의 기하 평균을 이용한 결정식을 대신하여 분류 오류 확률이 최소화되도록 각 주파수 채널별 우도비를 SVM의 특징 벡터로 적용한다. 제안된 SVM 기반의 통계적 모델 음성 검출기는 기존의 LRT를 이용한 음성 검출기 및 SVM 기반의 음성 검출기들과 비교하여 다양한 잡음 환경에서 우수한 성능을 나타낸다.

신호 준공간 모델에 기반한 통계적 음성 검출기 (Statistical Voice Activity Defector Based on Signal Subspace Model)

  • 류광춘;김동국
    • 한국음향학회지
    • /
    • 제27권7호
    • /
    • pp.372-378
    • /
    • 2008
  • 음성 검출기 (VAD, Voice Activity Detector)는 이동 통신이나 음성신호처리 등에 매우 중요한 기법으로 사용된다. 일반적인 음성 검출방식은 이산 푸리에 변환 (DFT, Discrete Fourier Transform)영역에서 통계적인 모델을 기반으로 하여 우도비검정 (LRT, Likelihood Ratio Test)을 하게 된다. 그리고 이 값을 임계값과 비교하며 음성인지 아닌지 판단하게 된다. 본 논문에서는 신호 준공간 (Signal Subspace)에 기반한 새로운 통계적 음성 검출 기법을 제안하다. 확률적인 주성분 분석 (PPCA, Probabilistic Principal Component Analysis)은 신호 준공간 방법에서 잡음신호에 대한 확률적인 모델을 얻기 위해 사용된다. 제안된 기법은 신호 준공간 영역에서 우도비검정에 기반을 두는 결정규칙을 적용하였다. 음성 검출 실험 결과는 신호 준공간 모델에 근거한 음성 검출기 기법이 주파수 영역에 기반한 가우시안 (Gaussian) 음성 검출기 보다 향상된 검출 결과를 보여준다.