• 제목/요약/키워드: Aurora DB

검색결과 13건 처리시간 0.031초

Aurora DB를 이용한 잡음 음성 인식실험을 위한 Segmental K-means 훈련 방식의 기반인식기의 구현 (An Implementation of the Baseline Recognizer Using the Segmental K-means Algorithm for the Noisy Speech Recognition Using the Aurora DB)

  • 김희근;정용주
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.113-122
    • /
    • 2006
  • Recently, many studies have been done for speech recognition in noisy environments. Particularly, the Aurora DB has been built as the common database for comparing the various feature extraction schemes. However, in general, the recognition models as well as the features have to be modified for effective noisy speech recognition. As the structure of the HTK is very complex, it is not easy to modify, the recognition engine. In this paper, we implemented a baseline recognizer based on the segmental K-means algorithm whose performance is comparable to the HTK in spite of the simplicity in its implementation.

  • PDF

Eigen - Environment 잡음 보상 방법을 이용한 강인한 음성인식 (Robust Speech Recognition using Noise Compensation Method Based on Eigen - Environment)

  • 송화전;김형순
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.145-160
    • /
    • 2004
  • In this paper, a new noise compensation method based on the eigenvoice framework in feature space is proposed to reduce the mismatch between training and testing environments. The difference between clean and noisy environments is represented by the linear combination of K eigenvectors that represent the variation among environments. In the proposed method, the performance improvement of speech recognition systems is largely affected by how to construct the noisy models and the bias vector set. In this paper, two methods, the one based on MAP adaptation method and the other using stereo DB, are proposed to construct the noisy models. In experiments using Aurora 2 DB, we obtained 44.86% relative improvement with eigen-environment method in comparison with baseline system. Especially, in clean condition training mode, our proposed method yielded 66.74% relative improvement, which is better performance than several methods previously proposed in Aurora project.

  • PDF

심층신경망을 이용한 짧은 발화 음성인식에서 극점 필터링 기반의 특징 정규화 적용 (Applying feature normalization based on pole filtering to short-utterance speech recognition using deep neural network)

  • 한재민;김민식;김형순
    • 한국음향학회지
    • /
    • 제39권1호
    • /
    • pp.64-68
    • /
    • 2020
  • 가우스 혼합 모델-은닉 마코프 모델(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)을 이용하는 전통적인 음성인식 시스템에서는, 극점 필터링 기반의 켑스트럼 특징 정규화 방식이 잡음 환경에서 짧은 발화의 인식 성능을 향상시키는데 효과적이었다. 본 논문에서는 심층신경망(Deep Neural Network, DNN)을 이용하는 최신의 음성인식 시스템에서도 이 방식의 유용성이 있는지 검토한다. AURORA 2 DB에 대한 실험 결과, 특히 훈련 및 테스트 환경 사이의 불일치가 클 때에, 극점 필터링 기반의 켑스트럼 평균 분산 정규화 방식이 극점 필터링을 사용하지 않는 방식에 비해 매우 짧은 발화의 인식 성능을 개선시킴을 보여 준다.

IMM 기반 특징 보상 기법과 불확실성 디코딩의 결합 (Incorporation of IMM-based Feature Compensation and Uncertainty Decoding)

  • 강신재;한창우;권기수;김남수
    • 한국통신학회논문지
    • /
    • 제37권6C호
    • /
    • pp.492-496
    • /
    • 2012
  • 본 논문은 잡음이 많이 존재할 경우 특징 보상 기법들의 불완전한 추정 방법으로 인하여 발생할 수 있는 불확실성 정보를 음성 인식의 디코딩에 반영해 줌으로써 좀 더 인식 성능을 향상시킬 수 있는 방법에 대한 연구이다. 기존의 특징 보상 기법들은 현재 시간에서의 깨끗한 특징 파라미터를 추정하는 단일점 추정 기법들이 대부분이다. 하지만 낮은 SNR 환경에서의 잘못된 추정 파라미터들이 음성 인식 엔진의 입력으로 사용될 경우 성능이 저하되기 때문에 추정된 파라미터의 불확실성 정보를 이용하여 디코딩을 해주면 추정 오류를 보완해줄 수 있다. 본 논문에서는 대표적인 Aurora-2 DB를 활용하여 적용된 기법의 성능 향상을 확인한다.

켑스트럼 정규화와 켑스트럼 거리기반 묵음특징정규화 방법을 이용한 잡음음성 인식 (Cepstral Normalization Combined with CSFN for Noisy Speech Recognition)

  • 최숙남;신광호;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1221-1228
    • /
    • 2011
  • 일반적인 음성인식 시스템은 보통 실내 환경에서는 잘 동작하지만 잡음이 존재하는 실제 환경에서는 여러 가지 잡음의 영향으로 그 성능이 급격히 떨어진다. 본 논문에서는 잡음환경에 강인한 음성인식을 위하여 훈련 환경과 실제 환경의 불일치를 줄이기 위한 방법으로 켑스트럼 거리기반 묵음특징 정규화(CSFN: Cepstral distance based SFN) 방법에 켑스트럼 정규화 방법(CMVN:cepstral mean and variance normalization)을 결합한 CSFN-CMVN 방법을 제안하였다. 이 방법은 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언 거리를 결합하여 음성/묵음 분류에 사용하여 묵음특징을 정규화하는 CSFN 방법에 켑스트럼 정규화 방법을 결합하는 방법이다. Aurora 2.0 DB를 이용한 실험결과, 제안한 CSFN-CMVN은 기존의 대표적인 묵음특징 정규화 방법인 SFN-I 과 비교했을 때 모든 테스트 세트에 대한 평균 단어인식 정확도에서 약 7%의 인식률 향상을 가져옴을 확인하였다. 또한, 기존의 SFN-II, CSFN에 비해서도 약 6%, 5% 향상되었음을 확인 할 수 있어 제안한 방법의 유효성을 확인할 수 있었다.

ARMA 필터를 이용한 로그 에너지 특징의 정규화 방법 (A Log-Energy Feature Normalization Method Using ARMA Filter)

  • 신광호;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제11권10호
    • /
    • pp.1325-1337
    • /
    • 2008
  • 훈련과 인식의 환경적 차이가 음성 인식 성능 저하의 주요 요인이며, 이러한 환경적 불일치를 줄이기 위한 다양한 잡음 처리 방법들이 연구되고 있다. 이 가운데 로그 에너지 특징에 대한 ERN(log-Energy dynamic Range Normalization), SEN(Silence Energy Normalization) 등이 우수한 성능을 보이고 있다. 그러나 이들 방법은 상대적으로 큰 갈을 갖는 로그 에너지 특징에 대해서는 처리가 불가능한 문제점이 이으며, 특히 SNR값이 작은 환경에서는 이러한 문제로 인하여 환경적 불일치가 더욱 크게 나타나고 있다. 이를 해결하기 위해서 본 논문은 자동 회귀 방식으로 이동 평균을 계산하여 로그 에너지 특징을 스무딩(smoothing)하는 ARMA(Auto-Regression and Moving Average) 필터를 후처리로 적용하는 방법을 제안한다. Aurora 2.0 DB를 이용한 인식 실험 결과, 제안 방법이 기존의 방법들에 비해 향상된 인식 결과를 얻을 수 있었다.

  • PDF

필터 뱅크 에너지 차감을 이용한 묵음 특징 정규화 방법의 성능 향상 (Performance Improvements for Silence Feature Normalization Method by Using Filter Bank Energy Subtraction)

  • 신광호;최숙남;정현열
    • 한국통신학회논문지
    • /
    • 제35권7C호
    • /
    • pp.604-610
    • /
    • 2010
  • 본 논문에서는 기존의 CLSFN (Cepstral distance and Log-energy based Silence Feature Normalization) 방법의 인식성능을 향상시키기 위하여, 필터 뱅크 서브 밴드 영역에서 잡음을 차감하는 방법과 CLSFN을 결합하는 방법, 즉 FSFN (Filter bank sub-band energy subtraction based CLSFN)을 제안하였다. 이 방법은 음성으로부터 특징 파라미터를 추출할 때 필터 뱅크 서브 밴드 영역에서 잡음을 제거하여 켑스트럼 특징을 향상시키고, 이에 대한 켑스트럼 거리를 이용하여 음성/묵음 분류의 정확도를 개선함으로써 기존 CLSFN 방법에 비해 향상된 인식성능을 얻을 수 있다. Aurora 2.0 DB를 이용한 실험결과, 제안하는 FSFN 방법은 CLSFN 방법에 비해 평균 단어 정확도 (word accuracy)가 약 2% 향상되었으며, CMVN (Cepstral Mean and Variance Normalization)과의 결합에서도 기존 모든 방법에 비해 가장 우수한 인식성능을 나타내어 제안 방법의 유효성을 확인할 수 있었다.

강인한 음성인식을 위한 MMSE-STSA기반 후처리 가중필터뱅크분석을 통한 특징추출 (Feature Extraction through the post processing of WFBA based on MMSE-STSA for Robust Speech Recognition)

  • 정성윤;배건성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.39-42
    • /
    • 2004
  • 본 논문에서는, 잡음음성에 강인한 음성인식을 위한 특징추출 방법을 제시한다. 제시한 방법은 2 단계 잡음제거 과정으로 구성되어 있다. 첫번째 단계는 MMSE-STSA 음성개선기법을 통해 잡음음성신호를 개선시키는 과정이고, 두 번째 단계는, MMSE-STSA 의 개선된 음성에 후처리 가중필터뱅크분석을 통해 잔여잡음의 영향을 감소시키는 과정이다. 제안한 방법의 성능평가를 위해, AURORA2의 잡음음성 DB 중 테스트 집합 A 에 대해 인식실험을 수행하고, 결과를 기존 방법들과 비교, 검토한다.

  • PDF

MMSE-STSA 기반의 음성개선 기법에서 잡음 및 신호 전력 추정에 사용되는 파라미터 값의 변화에 따른 잡음음성의 인식성능 분석 (Performance Analysis of Noisy Speech Recognition Depending on Parameters for Noise and Signal Power Estimation in MMSE-STSA Based Speech Enhancement)

  • 박철호;배건성
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.153-164
    • /
    • 2006
  • The MMSE-STSA based speech enhancement algorithm is widely used as a preprocessing for noise robust speech recognition. It weighs the gain of each spectral bin of the noisy speech using the estimate of noise and signal power spectrum. In this paper, we investigate the influence of parameters used to estimate the speech signal and noise power in MMSE-STSA upon the recognition performance of noisy speech. For experiments, we use the Aurora2 DB which contains noisy speech with subway, babble, car, and exhibition noises. The HTK-based continuous HMM system is constructed for recognition experiments. Experimental results are presented and discussed with our findings.

  • PDF

실시간 고차통계 정규화와 Smoothing 필터를 이용한 강인한 음성인식 (Robust Speech Recognition Using Real-Time High Order Statistics Normalization and Smoothing Filter)

  • 정주현;송화전;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.91-94
    • /
    • 2005
  • The performance of speech recognition is degraded by the mismatch between training and test environments. Many methods have been presented to compensate for additive noise and channel effect in the cepstral domain, and Cepstral Mean Subtraction (CMS) is the representative method among them. Recently, high order cepstral moment normalization method has introduced to improve recognition accuracy. In this paper, we apply high order moment normalization method and smoothing filter for real-time processing. In experiments using Aurora2 DB, we obtained error rate reduction of 49.7% with the proposed algorithm in comparison with baseline system.

  • PDF