• 제목/요약/키워드: 강인한 음성 인식

검색결과 197건 처리시간 0.024초

독립성분분석법을 이용한 음성인식기의 성능향상 (Performance Improvement of Speech Recognition Based on Independent Component Analysis)

  • 김창근;한학용;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2001년도 하계 학술대회 논문집(KISPS SUMMER CONFERENCE 2001
    • /
    • pp.285-288
    • /
    • 2001
  • 본 논문에서는 신호간의 의존성과 관련성이 최소가 되도록 분리하는 독립성분분석 법을 이용하여 입력음성에서 변동량이 많은 방향으로 주축을 찾아 그 정보를 이용하여 데이터의 중복성을 제거한 후 음성특징벡터를 추출하는 방법을 제안한다. 학습 하고자하는 음성인식기의 음성에서 독립성분분석법을 이용하여 특징벡터를 추출하고 HMM 을 사용하여 기존의 음성특징벡터로 사용되는 mel-cepstrum과 비교하여 학습, 인식실험을 수행하였으며 제안한 방법에서 음성인식성능의 향상을 확인할 수 있었다. 또한, 인식시 주변여건에 따라 잡음에 의한 인식성능 저하에도 유연히 대처할 수 있음을 앞 수 있었다.

  • PDF

독립성분 분석을 이용한 강인한 화자식별 (Robust Speaker Identification using Independent Component Analysis)

  • 장길진;오영환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권5호
    • /
    • pp.583-592
    • /
    • 2000
  • 본 논문에서는 독립성분분석을 이용한 음성의 특징 벡터 변환방법을 제안한다. 제안한 방법은 여러 환경에서 수집된 음성신호의 켑스트럼 벡터를 다수의 특징 함수들의 선형결합으로 가정하고, 독립성분분석을 이용하여 분리된 켑스트럼 벡터를 학습과 인식에 사용한다. 변환된 벡터 영역에서는 반복적으로 나타나는 화자의 특징 정보는 강조되고 임의로 나타나는 채널 왜곡은 억제되는 효과를 볼 수 있다. 제안된 방법의 유효성을 검증하기 위해 실제 전화음성으로 문장독립형 화자식별 실험을 수행하였으며, 결과를 통해 독립성분분석을 이용한 특징벡터의 변환이 채널 환경 변화에 대해 보다 강인함을 보였다.

  • PDF

PCMM 기반 특징 보상 기법에서 변별력 향상을 위한 Minimum Classification Error 훈련의 적용 (Minimum Classification Error Training to Improve Discriminability of PCMM-Based Feature Compensation)

  • 김우일;고한석
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.58-68
    • /
    • 2005
  • 본 논문에서는 잡음 환경에서 강인한 음성 인식을 위하여 특징 보상 기법의 성능을 향상시킬 수 있는 방법을 제안한다. 기존의 음성 모델 기반의 특징 보상 기법에서 이용되는 오염 음성 모델 추정 방식은 입력 음성에 대한 변별력 있는 사후 확률 예측을 보장하지 못하며, 부정확하게 계산된 사후 확률은 복구된 음성에서 명료도 하락의 문제를 일으킨다. 제안하는 기법에서는 오염 음성 모델 추정 과정에 분별적 훈련 방식의 하나인 최소 분류 오류 (MCE) 훈련 기법을 도입한다. MCE 훈련 기법을 적용하기 위해 변별력 하락의 가능성을 가지는 '경쟁 요소' 를 결정하는 기법을 제안한다. 병렬결합된 혼합 모델 (PCMM) 기반의 특징 보상에 MCE 훈련 기법을 적용하는 과정을 제안하고 변별력 향상의 영향을 관찰한다. Aurora 2.0 데이터베이스와 실제 자동차 주행 환경에서 수집된 음성 데이터베이스에 대한 성능 평가를 실시한다. 실험 결과는 제안한 기법이 음성 인식 성능 향상에 도움이 되는 것을 입증한다.

잡음환경에서의 음성인식을 위한 변이특성을 고려한 파라메터 (Parameter Considering Variance Property for Speech Recognition in Noisy Environment)

  • 박진영;이광석;고시영;허강인
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.469-472
    • /
    • 2005
  • 본 논문에서는 음석인식 시스템을 구현함에 있어서 잡음의 영향에 강인한 특성을 가지는 효과적인 음성특징 파라미터에 대해 제안한다. ASR(Automatic Speech Recognition)에 사용되는 가장 기본적인 파라미터인 MFCC와 DCT를 이용한 DCTCs를 기본적인 파라미터로 설정하였다. 또한, 음성의 변이구간에 대한 정보를 가지도록 Cepstrum을 재구성한 delta-Cepstrum, delta-delta-Cepstrum 파라미터를 제안하고, HMM을 이용하여 인식성능을 비교하였다. 그리고 각각의 파라미터의 차원을 축소하기 위해 LDA 알고리즘을 적용하고 이에 대한 인식성능을 비교하였다. 실험결과 다양한 조건의 잡은 환경에서 기존의 파라미터보다 LDA를 이용하여 차원 축소된 delta-delta-Cepstrum 파라미터가 향상된 인식성능을 나타내었다.

  • PDF

Matrix Factorization을 이용한 음성 특징 파라미터 추출 및 인식 (Feature Parameter Extraction and Speech Recognition Using Matrix Factorization)

  • 이광석;허강인
    • 한국정보통신학회논문지
    • /
    • 제10권7호
    • /
    • pp.1307-1311
    • /
    • 2006
  • 본 연구에서는 행렬 분해 (Matrix Factorization)를 이용하여 음성 스펙트럼의 부분적 특정을 나타낼 수 있는 새로운 음성 파라마터를 제안한다. 제안된 파라미터는 행렬내의 모든 원소가 음수가 아니라는 조건에서 행렬분해 과정을 거치게 되고 고차원의 데이터가 효과적으로 축소되어 나타남을 알 수 있다. 차원 축소된 데이터는 입력 데이터의 부분적인 특성을 표현한다. 음성 특징 추출 과정에서 일반적으로 사용되는 멜 필터뱅크 (Mel-Filter Bank)의 출력 을 Non-Negative 행렬 분해(NMF:Non-Negative Matrix Factorization) 알고리즘의 입 력으로 사용하고, 알고리즘을 통해 차원 축소된 데이터를 음성인식기의 입력으로 사용하여 멜 주파수 캡스트럼 계수 (MFCC: Mel Frequency Cepstral Coefficient)의 인식결과와 비교해 보았다. 인식결과를 통하여 일반적으로 음성인식기의 성능평가를 위해 사용되는 MFCC에 비하여 제안된 특정 파라미터가 인식 성능이 뛰어남을 알 수 있었다.

가중 투영 우도 측정 및 병렬 모델 결합을 이용한 잡음 환경에서의 음성 인식 (Speech Recognition in the Noisy Environment using Weighted Projection-Based Likelihood Measure and Parallel Model Combination)

  • 신원호;양태영;김원구;윤대희;차일환
    • 한국음향학회지
    • /
    • 제17권1호
    • /
    • pp.49-54
    • /
    • 1998
  • 본 논문에서는 잡음이 존재하는 환경에 강인한 것으로 알려져 있는 투영 방법을 우 도 측정에 가중 함수와 결합하여 사용하는 방법을 제안하였다. 반연속 HMM을 이용한 고립 단어의 인식 실험 결과, 제안한 방법이 실험에 사용된 잡음의 환경들에서 모두 좋은 성능을 나타내었다. 아울러 병렬 모델 결합 방법을 반연속 HMM에 적용하였는데 이는 코드북의 변 환반으로 쉽게 잡음의 특성을 반영할 수 있다. 가중 투영 우도 측정 방법을 병렬 모델 결합 방법에 적용한 경우에도 우수한 성능을 거둘 수 있었다.

  • PDF

잡음 환경에 강인한 기동어 검출을 위한 삼중항 손실 기반 도메인 적대적 훈련 (Triplet loss based domain adversarial training for robust wake-up word detection in noisy environments)

  • 임형준;정명훈;김회린
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.468-475
    • /
    • 2020
  • 단어의 특성을 잘 표현하는 음성 단어 임베딩은 기동어 인식에서 중요한 역할을 한다. 하지만 기동어 인식이 수행되는 환경에서 필연적으로 발생하는 다양한 종류의 잡음으로 인해 음성 단어 임베딩의 표현 능력이 손상될 수 있으며, 인식 성능의 저하를 초래할 수 있다. 본 논문에서는 음성 단어 임베딩에 영향을 줄 수 있는 환경적인 요인을 완화시키는 삼중항 손실 기반의 도메인 적대적 훈련 방식을 제안한다. 잡음 환경에서의 기동어 검출 실험을 통해 제안하는 방식이 기존의 도메인 적대적 훈련 방식을 효과적으로 개선하는 모습을 확인할 수 있었고, 잡음 환경에서의 기동어 검출을 위해 기존에 제안된 다른 방법과의 결합을 통해 제안하는 방식의 확장성을 확인할 수 있었다.

음성 인식기를 위한 다양한 특징 파라메터의 SVM 인식 성능 비교 (Recognition Performance Comparison to Various Features for Speech Recognizer Using Support Vector Machine)

  • 김평환;박정원;김창근;이광석;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.78-81
    • /
    • 2003
  • 본 논문은 SVM(support vector machine)을 이용한 음성인식기에 대해 효과적인 특징 파라메터를 제안한다. SVM은 특징 공간에서 비선형 경계를 찾아 분류하는 방법으로 적은 학습 데이터에서도 좋은 분류 성능을 나타낸다고 알려져 있으며 최적의 특징 파라메터를 선택하기 위해 본 논문에서는 SVM을 이용한 음성인식기를 사용하여 PCA(principal component analysis), ICA(independent component analysis) 알고리즘을 적용하여 MFCC(met frequency cepstrum coefficient)의 특징 공간을 변화시키면서 각각의 인식 성능을 비교 검토하였다. 실험 결과 ICA에 의한 특징 파라메터가 가장 우수한 성능을 나타내었으며 특징 공간에서 각 클래스의 분포도 또한 ICA가 가장 높은 선형 분별성을 나타내었다.

  • PDF

SNR 매핑을 이용한 환경적응 기반 음성인식 (Speech Recognition based on Environment Adaptation using SNR Mapping)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제9권5호
    • /
    • pp.543-548
    • /
    • 2014
  • 다 모델 기반의 음성인식기는 음성인식에서 매우 성공적임이 알려져 있다. 그것은 다양한 신호-대-잡음비(SNR)와 잡음종류에 해당하는 다수의 HMM을 사용함으로서 선택된 음향모델이 인식잡음음성에 매우 근접한 일치성을 가질 수 있기 때문이다. 그러나 실제 사용시에 HMM의 개수가 제한됨에 따라서 음향모델의 불일치는 여전히 문제로 남아 있다. 본 논문에서는 인식잡음음성과 HMM 간의 SNR 불일치를 줄이고자 이들 간의 최적의 SNR 매핑 (mapping)을 실험적으로 결정하였다. 인식잡음음성으로 부터 추정된 SNR 값을 사용하는 대신 제안된 SNR 매핑을 사용함으로서 향상된 인식결과를 얻을 수 있었다. 다 모델 기반인식기에 제안된 방법을 적용하여 Aurora 2 데이터베이스에 대해서 인식 실험한 결과 기존의 MTR 이나 다 모델 기반 음성인식기에 비해서 6.3%와 9.4%의 상대적 단어 오인식율 감소를 이룰 수 있었다.

잡음음성 음향모델 적응에 기반한 잡음에 강인한 음성인식 (Noise Robust Speech Recognition Based on Noisy Speech Acoustic Model Adaptation)

  • 정용주
    • 말소리와 음성과학
    • /
    • 제6권2호
    • /
    • pp.29-34
    • /
    • 2014
  • In the Vector Taylor Series (VTS)-based noisy speech recognition methods, Hidden Markov Models (HMM) are usually trained with clean speech. However, better performance is expected by training the HMM with noisy speech. In a previous study, we could find that Minimum Mean Square Error (MMSE) estimation of the training noisy speech in the log-spectrum domain produce improved recognition results, but since the proposed algorithm was done in the log-spectrum domain, it could not be used for the HMM adaptation. In this paper, we modify the previous algorithm to derive a novel mathematical relation between test and training noisy speech in the cepstrum domain and the mean and covariance of the Multi-condition TRaining (MTR) trained noisy speech HMM are adapted. In the noisy speech recognition experiments on the Aurora 2 database, the proposed method produced 10.6% of relative improvement in Word Error Rates (WERs) over the MTR method while the previous MMSE estimation of the training noisy speech produced 4.3% of relative improvement, which shows the superiority of the proposed method.