• 제목/요약/키워드: robust speech recognition

검색결과 225건 처리시간 0.021초

2차원 마이크로폰 배열에 의한 능동 청각 시스템 (Active Audition System based on 2-Dimensional Microphone Array)

  • 이창훈;김용호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 학술회의 논문집 정보 및 제어부문 A
    • /
    • pp.175-178
    • /
    • 2003
  • This paper describes a active audition system for robot-human interface in real environment. We propose a strategy for a robust sound localization and for -talking speech recognition(60-300cm) based on 2-dimensional microphone array. We consider spatial features, the relation of position and interaural time differences, and realize speaker tracking system using fuzzy inference profess based on inference rules generated by its spatial features.

  • PDF

Vocal Effort Detection Based on Spectral Information Entropy Feature and Model Fusion

  • Chao, Hao;Lu, Bao-Yun;Liu, Yong-Li;Zhi, Hui-Lai
    • Journal of Information Processing Systems
    • /
    • 제14권1호
    • /
    • pp.218-227
    • /
    • 2018
  • Vocal effort detection is important for both robust speech recognition and speaker recognition. In this paper, the spectral information entropy feature which contains more salient information regarding the vocal effort level is firstly proposed. Then, the model fusion method based on complementary model is presented to recognize vocal effort level. Experiments are conducted on isolated words test set, and the results show the spectral information entropy has the best performance among the three kinds of features. Meanwhile, the recognition accuracy of all vocal effort levels reaches 81.6%. Thus, potential of the proposed method is demonstrated.

HMM(Hidden Markov Model) 기반의 견고한 실시간 립리딩을 위한 효율적인 VLSI 구조 설계 및 FPGA 구현을 이용한 검증 (Design of an Efficient VLSI Architecture and Verification using FPGA-implementation for HMM(Hidden Markov Model)-based Robust and Real-time Lip Reading)

  • 이지근;김명훈;이상설;정성태
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.159-167
    • /
    • 2006
  • 립리딩은 잡음이 있는 환경에서 음성 인식 시스템의 성능 향상을 위한 한 방법으로 제안되었다. 기존의 논문들이 소프트웨어 립리딩 방법을 제안하는 것에 반하여, 본 논문에서는 실시간 립리딩을 위한 하드웨어 설계를 제안한다. 실시간 처리와 구현의 용이성을 위하여 본 논문에서는 립리딩 시스템을 이미지 획득 모듈, 특징 벡터 추출 모듈, 인식 모듈의 세 모듈로 분할하였다. 이미지 획득 모듈에서는 CMOS 이미지 센서를 사용하여 입력 영상을 획득하게 하였고, 특징 벡터 추출 모듈에서는 병렬 블록매칭 알고리즘을 이용하여 입력영상으로부터 특징벡터를 추출하도록 하였고, 이를 FPGA로 코딩하여 시뮬레이션 하였다. 인식 모듈에서는 추출된 특징 벡터에 대하여 HMM 기반 인식 알고리즘을 적용하여 발성한 단어를 인식하도록 하였고, 이를 DSP에 코딩하여 시뮬레이션 하였다. 시뮬레이션 결과 실시간 립리딩 시스템이 하드웨어로 구현 가능함을 알 수 있었다.

  • PDF

히스토그램 기반의 과추정 방식을 이용한 잡음에 강인한 음성인식 (Noise-Robust Speech Recognition Using Histogram-Based Over-estimation Technique)

  • 권영욱;김형순
    • 한국음향학회지
    • /
    • 제19권6호
    • /
    • pp.53-61
    • /
    • 2000
  • 잡음환경에서의 음성인식 성능향상을 위해서는 서로 다른 잡음환경으로 인한 mismatch를 줄이는 것이 중요하다. 이를 위해 계산이 간단하고 잡음환경에서 비교적 우수한 성능을 내고 있는 스펙트럼 차감법이 널리 사용되고 있다. 본 논문에서는 스펙트럼 차감법을 적용하기 위한 잡음 스펙트럼 추정방법으로 히스토그램 처리방법을 도입한다. 히스토그램 처리방법은 음성이 아닌 구간의 검출이 필요없으며 시간에 따라 변화하는 시변잡음에도 적용 가능한 장점이 있다. 그러나 히스토그램 처리방법으로 신뢰도 높은 잡음 스펙트럼의 평균값을 추정하더라도 스펙트럼 차감법을 적용했을 때의 잔여 잡음의 문제가 발생한다. 이를 해결하기 위하여 잡음추정 과정에 사용되었던 히스토그램의 분포특성을 고려한 새로운 over-estimation 적용방식을 제안한다. 제안된 방식은 측정된 잡음의 분포에 따라 적응적으로 over-estimation의 정도를 결정함으로써 SNR 변화에 따른 영향이 적은 장점이 있다. 자동차 소음 환경에서의 화자독립 고립단어 인식실험 결과, 기존의 over-estimation factor를 적용한 경우보다 제안된 방식의 인식성능이 개선되었다.

  • PDF

천이 제한 HMM을 이용한 잡음 환경에서의 음성 인식 (Speech Recognition in Noisy environment using Transition Constrained HMM)

  • 김원구;신원호;윤대희
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.85-89
    • /
    • 1996
  • 본 논문에서는 상태간의 천이가 특정한 시간 구간에서만 발생하도록 하는 천이 제한(transition constrained) HMM를 제안하고 잡음 환경에서의 성능을 평가하였다. 천이 제한 HMM는 상태 지속을 제한하고 음성 신호의 시간적 변화를 단순하고 효과적으로 표현할 수 있다. 제안된 천이 제한 HMM은 기존 HMM 보다 성능이 우수할 뿐만아니라 계산량도 매우 감소한다. 제안된 방법의 성능을 평가하기 위하여 반연속(semi-continuous) HMM을 이용하여 잡음이 SNR 20, 10, 0 dB로 첨가된 음성에 화자독립 단독음 인식실험을 수행하였다. 실험 결과에서 제안된 방법은 잡음에 강인한 특성을 나타내었다. 두 가지 종류의 잡음을 SNR 10dB로 첨가하여 사용한 경우, 천이제한 HMM의 인식률은 기존 HMM의 단어 인식률 81.08%와 75.36%에 비하여 각각 7.31%와 10.35% 향상되었다.

  • PDF

강인한 음성인식을 위한 극점 필터링 및 스케일 정규화를 이용한 켑스트럼 특징 정규화 방식 (Cepstral Feature Normalization Methods Using Pole Filtering and Scale Normalization for Robust Speech Recognition)

  • 최보경;반성민;김형순
    • 한국음향학회지
    • /
    • 제34권4호
    • /
    • pp.316-320
    • /
    • 2015
  • 본 논문에서는 Cepstral Mean Normalization(CMN)과 Cepstral Mean and Variance Normalization(CMVN) 프레임워크에서 극점 필터링(pole filtering) 개념을 Mel-Frequency Cepstral Coefficient(MFCC) 특징 벡터에 적용한다. 또한 분산 정규화를 대신하여 스케일 정규화를 사용하는 Cepstral Mean and Scale Normalization(CMSN)의 성능을 잡음 환경 음성인식 실험을 통해 평가한다. CMN과 CMVN은 보통 발화 단위로 수행되기 때문에 짧은 발화의 경우 특징에 대한 평균과 분산의 추정 신뢰도가 보장되지 않는 문제점을 가지는데, 극점 필터링과 스케일 정규화 방식을 적용함으로 이러한 문제점을 보완할 수 있다. Aurora 2 데이터베이스를 이용한 실험 결과, 극점 필터링과 스케일 정규화를 결합한 특징 정규화 방식의 성능이 가장 높은 성능 향상을 보인다.

잡음 환경에 효과적인 음성 인식을 위한 Gaussian mixture model deep neural network 하이브리드 기반의 특징 보상 (A study on Gaussian mixture model deep neural network hybrid-based feature compensation for robust speech recognition in noisy environments)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.506-511
    • /
    • 2018
  • 본 논문에서는 잡음 환경에서 효과적인 음성인식을 위하여 GMM(Gaussian Mixture Model)-DNN(Deep Neural Network) 하이브리드 기반의 특징 보상 기법을 제안한다. 기존의 GMM 기반의 특징 보상에서 필요로 하는 사후 확률을 DNN을 통해 계산한다. Aurora 2.0 데이터를 이용한 음성 인식 성능 평가에서 본 논문에서 제안한 GMM-DNN 하이브리드 기법이 기존의 GMM 기반 기법에 비해 Known, Unknown 잡음 환경에서 모두 평균적으로 우수한 성능을 나타낸다. 특히 Unknown 잡음 환경에서 평균 오류율이 9.13 %의 상대 향상률을 나타내고, 낮은 SNR(Signal to Noise Ratio) 잡음 환경에서 상당히 우수한 성능을 보인다.

Missing-Feature 복구를 위한 대역 독립 방식의 베이시안 분류기 기반 마스크 예측 기법 (Mask Estimation Based on Band-Independent Bayesian Classifler for Missing-Feature Reconstruction)

  • 김우일;;고한석
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.78-87
    • /
    • 2006
  • 본 논문에서는 알려지지 않은 잡음 환경에서 강인한 음성 인식 성능을 위하여 missing-feature복구 기법을 다루며, 베이시안 분류기를 기반으로 하는 마스크 예측 기법의 성능을 향상시킬 수 있는 방법을 제안한다. 기존의 마스크 예측 기법에서는 배경 잡음 종류에 독립적인 성능을 위해 전 주파수 대역을 분할하여 발생시킨 유색 잡음을 마스크 예측기의 훈련에 이용하였으나, 제한된 양의 훈련 데이터베이스 조건에서는 성능의 한계가 불가피하다. 보다 다양한 잡음 스펙트럼을 반영하면서 마스크 예측의 성능을 향상시키기 위해, 서로 다른 주파수 대역에 독립적인 구조를 가지는 베이시안 분류기를 제안하며, 훈련에 사용하는 유색 잡음의 생성 방식을 이에 맞게 수정한다. 각각의 주파수 대역을 분할하여 유색 잡음을 생성함으로써 다양한 잡음 환경을 반영하는 동시에 훈련 데이터베이스 부족 문제를 줄일 수 있다. 제안하는 마스크 예측 기법을 클러스터 기반의 missing-feature 복구 기법과 결합하여 음성 인식기에 적용함으로써 성능을 평가한다. 실험 결과는 제안한 기법이 백색 잡음, 자동차잡음, 배경 음악환경에서 기존의 방법에 비해 향상된 성능을 가짐을 입증한다.

열악한 환경에 강인한 화자인증을 위한 위상 기반 특징 추출 기법 (A Phase-related Feature Extraction Method for Robust Speaker Verification)

  • 권철홍
    • 한국정보통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.613-620
    • /
    • 2010
  • 화자인증 시스템은 훈련 환경과 인식 환경이 다른 경우 인식 성능이 크게 저하된다. 이러한 훈련과 인식 환경의 불일치는 다양한 잡음과 상이한 채널 환경 때문이다. 본 논문은 화자인증 시스템의 강인성 개선을 위하여 음성신호의 위상에 기반한 특정 추출 기법을 제안한다. 이 방법은 음성신호의 위상으로부터 순시 주파수를 계산하여 대역별로 순시 주파수를 모두 모아 구한 히스토그램으로부터 특징 계수를 추출한다. 이 특징 파라미터를 적용한 결과 조 용한 환경뿐만 아니라 잡음환경 그리고 채널 왜곡 환경에서도 화자인증 시스템의 성능이 개선됨을 알 수 있다.

청각 구조를 이용한 잡음 음성의 인식 성능 향상 (Performance Improvement of Speech Recognizer in Noisy Environments Based on Auditory Modeling)

  • 정호영;김도영;은종관;이수영
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.51-57
    • /
    • 1995
  • 본 논문에서는 청각 모델을 기초로 잡음에 강한 음성 특징 추출을 연구하였다. 청각모델은 basilar membrane 모델, 섬모세포(hair cell) 모델과 스펙트럼 출력단으로 구성하였다. Basilar membrane 모델은 음파의 진동에 따른 전달 특성을 묘사한 것으로 대역 통과 필터의 열로 나타난다. 섬모 세포 모델은 basilar membrane의 진동에 의한 신경 물질로의 변환을 나타낸다. 이것은 입력의 상대적인 값에 크게 반응하는 adaptation 기능을 이용하게 되며, 잡음 제거에 중요한 역할을 하게 된다. 스펙트럼 출력 단은 각 채널의 평균 firing rate를 이용하여 mean rate spectrum을 형성한다. 그리고 mean rate spectrum을 이용하여 특징 벡터를 추출하였다. 실험 결과는 청각 구조에 기초한 특징 추출이 다른 특징 추출 방법에 비해 잡음에서 더 향상된 성능을 가짐을 보였다.

  • PDF