• 제목/요약/키워드: robust speech recognition

검색결과 225건 처리시간 0.026초

Spectral Subtraction Using Spectral Harmonics for Robust Speech Recognition in Car Environments

  • Beh, Jounghoon;Ko, Hanseok
    • The Journal of the Acoustical Society of Korea
    • /
    • 제22권2E호
    • /
    • pp.62-68
    • /
    • 2003
  • This paper addresses a novel noise-compensation scheme to solve the mismatch problem between training and testing condition for the automatic speech recognition (ASR) system, specifically in car environment. The conventional spectral subtraction schemes rely on the signal-to-noise ratio (SNR) such that attenuation is imposed on that part of the spectrum that appears to have low SNR, and accentuation is made on that part of high SNR. However, these schemes are based on the postulation that the power spectrum of noise is in general at the lower level in magnitude than that of speech. Therefore, while such postulation is adequate for high SNR environment, it is grossly inadequate for low SNR scenarios such as that of car environment. This paper proposes an efficient spectral subtraction scheme focused specifically to low SNR noisy environment by extracting harmonics distinctively in speech spectrum. Representative experiments confirm the superior performance of the proposed method over conventional methods. The experiments are conducted using car noise-corrupted utterances of Aurora2 corpus.

음성인식 로봇을 위한 동시통화검출 기반의 강인한 음성 끝점 검출 (Robust End Point Detection for Robot Speech Recognition Using Double Talk Detection)

  • 문성규;박진수;고한석
    • 한국음향학회지
    • /
    • 제31권3호
    • /
    • pp.161-169
    • /
    • 2012
  • 본 논문에서는 반향이 큰 로봇 환경에 강인한 음성 끝점 검출 방법을 제안한다. 양방향 대화 로봇과 같이 반향대 신호 비가 -5 dB 이하인 반향환경에서는, 반향제거기의 성능이 저하되어 사용자 음성 에너지와 비슷한 크기의 에너지를 갖는 잔여반향이 생긴다. 잡음에 강인한 기존의 음성 끝점검출 방법이라도, 사용자 음성과 비슷한 수준의 에너지를 갖는 잔여반향은 음성으로 오검출하기 때문에 정확한 음성 끝점검출이 어렵다. 반향 환경에 강인한 끝점검출을 위해, 본 논문에서는 음성/반향 구간 판별에 좋은 성능을 보이는 동시통화검출의 결과를 기존의 음성끝점검출 방법과 AND 연산하여 음성끝점검출기를 구성하였다. 제안하는 방법의 평가를 위해 반향이 큰 환경에서 고립단어 인식을 실험하였고, 다양한 실험환경에서 기존 음성 끝점검출 방법보다 평균 30 % 이상의 인식 성능 향상을 확인할 수 있었다.

잡음에 강인한 음성인식을 위한 스펙트럼 보상 방법 (A Spectral Compensation Method for Noise Robust Speech Recognition)

  • 조정호
    • 전자공학회논문지 IE
    • /
    • 제49권2호
    • /
    • pp.9-17
    • /
    • 2012
  • 음성 인식 시스템의 용용에서 실제 문제점의 하나는 음성신호의 왜곡에 의한 인식성능의 저하이다. 음성신호의 왜곡에 가장 중요한 원인은 부가적인 잡음이다. 이 논문은 잡음에 강인한 음성인식을 위하여, 스펙트럼 피크 향상 기법과 효과적인 잡음 차감 기법에 기초한 스펙트럼 보상 방법을 기술한다. 제안한 방법은 음성 스펙트럼의 포먼트 구조를 향상시키고 스펙트럼 기울기를 보상하면서도 광 대역폭 스펙트럼 요소는 그대로 유지한다. 백색 가우스 잡음, 자동차 잡음, 음성 잡음 또는 지하철 잡음에 의해 왜곡된 음성을 이용한 인식실험을 수행한 결과, 새로운 방법은 스펙트럼 보상을 하지 않은 경우에 비해, 높은 SNR(Signal to Noise Ratio) 환경에서는 평균 오인식율을 약간 줄였으며, 낮은 SNR(10 dB) 환경에서는 평균 오인식율을 1/2로 크게 줄였다.

향상된 JA 방식을 이용한 다 모델 기반의 잡음음성인식에 대한 연구 (A Study on the Noisy Speech Recognition Based on Multi-Model Structure Using an Improved Jacobian Adaptation)

  • 정용주
    • 음성과학
    • /
    • 제13권2호
    • /
    • pp.75-84
    • /
    • 2006
  • Various methods have been proposed to overcome the problem of speech recognition in the noisy conditions. Among them, the model compensation methods like the parallel model combination (PMC) and Jacobian adaptation (JA) have been found to perform efficiently. The JA is quite effective when we have hidden Markov models (HMMs) already trained in a similar condition as the target environment. In a previous work, we have proposed an improved method for the JA to make it more robust against the changing environments in recognition. In this paper, we further improved its performance by compensating the delta-mean vectors and covariance matrices of the HMM and investigated its feasibility in the multi-model structure for the noisy speech recognition. From the experimental results, we could find that the proposed improved the robustness of the JA and the multi-model approach could be a viable solution in the noisy speech recognition.

  • PDF

Improved Acoustic Modeling Based on Selective Data-driven PMC

  • Kim, Woo-Il;Kang, Sun-Mee;Ko, Han-Seok
    • 음성과학
    • /
    • 제9권1호
    • /
    • pp.39-47
    • /
    • 2002
  • This paper proposes an effective method to remedy the acoustic modeling problem inherent in the usual log-normal Parallel Model Composition intended for achieving robust speech recognition. In particular, the Gaussian kernels under the prescribed log-normal PMC cannot sufficiently express the corrupted speech distributions. The proposed scheme corrects this deficiency by judiciously selecting the 'fairly' corrupted component and by re-estimating it as a mixture of two distributions using data-driven PMC. As a result, some components become merged while equal number of components split. The determination for splitting or merging is achieved by means of measuring the similarity of the corrupted speech model to those of the clean model and the noise model. The experimental results indicate that the suggested algorithm is effective in representing the corrupted speech distributions and attains consistent improvement over various SNR and noise cases.

  • PDF

Wiener Filtering을 이용한 잡음환경에서의 음성인식 (Speech Recognition in Noisy Environments using Wiener Filtering)

  • 김진영;엄기완;최홍섭
    • 음성과학
    • /
    • 제1권
    • /
    • pp.277-283
    • /
    • 1997
  • In this paper, we present a robust recognition algorithm based on the Wiener filtering method as a research tool to develop the Korean Speech recognition system. We especially used Wiener filtering method in cepstrum-domain, because the method in frequency-domain is computationally expensive and complex. Evaluation of the effectiveness of this method has been conducted in speaker-independent isolated Korean digit recognition tasks using discrete HMM speech recognition systems. In these tasks, we used 12th order weighted cepstral as a feature vector and added computer simulated white gaussian noise of different levels to clean speech signals for recognition experiments under noisy conditions. Experimental results show that the presented algorithm can provide an improvement in recognition of as much as from $5\%\;to\;\20\%$ in comparison to spectral subtraction method.

  • PDF

음질향상 기법과 모델보상 방식을 결합한 강인한 음성인식 방식 (A Robust Speech Recognition Method Combining the Model Compensation Method with the Speech Enhancement Algorithm)

  • 김희근;정용주;배건성
    • 음성과학
    • /
    • 제14권2호
    • /
    • pp.115-126
    • /
    • 2007
  • There have been many research efforts to improve the performance of the speech recognizer in noisy conditions. Among them, the model compensation method and the speech enhancement approach have been used widely. In this paper, we propose to combine the two different approaches to further enhance the recognition rates in the noisy speech recognition. For the speech enhancement, the minimum mean square error-short time spectral amplitude (MMSE-STSA) has been adopted and the parallel model combination (PMC) and Jacobian adaptation (JA) have been used as the model compensation approaches. From the experimental results, we could find that the hybrid approach that applies the model compensation methods to the enhanced speech produce better results than just using only one of the two approaches.

  • PDF

음성인식 성능 개선을 위한 다중작업 오토인코더와 와설스타인식 생성적 적대 신경망의 결합 (Combining multi-task autoencoder with Wasserstein generative adversarial networks for improving speech recognition performance)

  • 고조원;고한석
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.670-677
    • /
    • 2019
  • 음성 또는 음향 이벤트 신호에서 발생하는 배경 잡음은 인식기의 성능을 저하시키는 원인이 되며, 잡음에 강인한 특징을 찾는데 많은 노력을 필요로 한다. 본 논문에서는 딥러닝을 기반으로 다중작업 오토인코더(Multi-Task AutoEncoder, MTAE) 와 와설스타인식 생성적 적대 신경망(Wasserstein GAN, WGAN)의 장점을 결합하여, 잡음이 섞인 음향신호에서 잡음과 음성신호를 추정하는 네트워크를 제안한다. 본 논문에서 제안하는 MTAE-WGAN는 구조는 구배 페널티(Gradient Penalty) 및 누설 Leaky Rectified Linear Unit (LReLU) 모수 Parametric ReLU (PReLU)를 활용한 변수 초기화 작업을 통해 음성과 잡음 성분을 추정한다. 직교 구배 페널티와 파라미터 초기화 방법이 적용된 MTAE-WGAN 구조를 통해 잡음에 강인한 음성특징 생성 및 기존 방법 대비 음소 오인식률(Phoneme Error Rate, PER)이 크게 감소하는 성능을 보여준다.

독립성분분석을 이용한 DSP 기반의 화자 독립 음성 인식 시스템의 구현 (Implementation of Speaker Independent Speech Recognition System Using Independent Component Analysis based on DSP)

  • 김창근;박진영;박정원;이광석;허강인
    • 한국정보통신학회논문지
    • /
    • 제8권2호
    • /
    • pp.359-364
    • /
    • 2004
  • 본 논문에서는 범용 디지털 신호처리기를 이용한 잡음환경에 강인한 실시간 화자 독립 음성인식 시스템을 구현하였다. 구현된 시스템은 TI사의 범용 부동소수점 디지털 신호처리기인 TMS320C32를 이용하였고, 실시간 음성 입력을 위한 음성 CODEC과 외부 인터페이스를 확장하여 인식결과를 출력하도록 구성하였다. 실시간 음성 인식기에 사용한 음성특징 파라메터는 일반적으로 사용되어 지는 MFCC(Mel Frequency Cepstral Coefficient)대신 독립성분분석을 통해 MFCC의 특징 공간을 변화시킨 파라메터를 사용하여 외부잡음 환경에 강인한 특성을 지니도록 하였다. 두 가지 특징 파라메터에 대해 잡음 환경에서의 인식실험 결과, 독립성분 분석에 의한 특징 파라메터의 인식 성능이 MFCC보다 우수함을 확인 할 수 있었다.

Adaptive Channel Normalization Based on Infomax Algorithm for Robust Speech Recognition

  • Jung, Ho-Young
    • ETRI Journal
    • /
    • 제29권3호
    • /
    • pp.300-304
    • /
    • 2007
  • This paper proposes a new data-driven method for high-pass approaches, which suppresses slow-varying noise components. Conventional high-pass approaches are based on the idea of decorrelating the feature vector sequence, and are trying for adaptability to various conditions. The proposed method is based on temporal local decorrelation using the information-maximization theory for each utterance. This is performed on an utterance-by-utterance basis, which provides an adaptive channel normalization filter for each condition. The performance of the proposed method is evaluated by isolated-word recognition experiments with channel distortion. Experimental results show that the proposed method yields outstanding improvement for channel-distorted speech recognition.

  • PDF