• 제목/요약/키워드: noisy speech recognition

검색결과 227건 처리시간 0.024초

잡음환경및 채널왜곡에 강인한 ARS용 전화음성인식 방식 연구 (The Development of a Speech Recognition Method Robust to Channel Distortions and Noisy Environments for an Audio Response System(ARS))

  • 안정모;임계종;계영철;구명완
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.41-48
    • /
    • 1997
  • 본고는 음성인식 기능이 추가된 음성응답장치(ARS)의 음성 인식률을 향상시키는 방법을 제안한다. ARS에 입력되는 전화음성은 안내방송, 전화잡음, 그리고 채널왜곡에 의하여 영향을 받기 때문에, 양질의 음성을 대상으로 하여 개발된 인식 알고리듬을 그대로 적용하면 상당한 인식률의 저하를 가져오게 된다. 이러한 문제점을 극복하기 위하여 본고에서는 세 가지 방법을 제안한다: 1)음성이 시작되는 순간 안내 방송을 즉시 끊기 위한 음성 입력순간의 정확한 검출, 2)Teager 에너지를 이용한 잡음 섞인 전화음성의 효과적인 끝점검출, 3)SDCN 알고리듬을 이용한 채널왜곡의 보상. 위의 세 가지 방법을 모두 결합하여 화자독립인 전화음성을 대상으로 실험한 결과, 기존의 방법이 약 23%의 인식률을 보인 반면, 제안된 방식은 약 77%의 인식률로서 상당한 성능향상을 보여주었다.

  • PDF

이중채널 잡음음성인식을 위한 공간정보를 이용한 통계모델 기반 음성구간 검출 (Statistical Model-Based Voice Activity Detection Using Spatial Cues for Dual-Channel Noisy Speech Recognition)

  • 신민화;박지훈;김홍국;이연우;이성로
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.141-148
    • /
    • 2010
  • In this paper, voice activity detection (VAD) for dual-channel noisy speech recognition is proposed in which spatial cues are employed. In the proposed method, a probability model for speech presence/absence is constructed using spatial cues obtained from dual-channel input signal, and a speech activity interval is detected through this probability model. In particular, spatial cues are composed of interaural time differences and interaural level differences of dual-channel speech signals, and the probability model for speech presence/absence is based on a Gaussian kernel density. In order to evaluate the performance of the proposed VAD method, speech recognition is performed for speech segments that only include speech intervals detected by the proposed VAD method. The performance of the proposed method is compared with those of several methods such as an SNR-based method, a direction of arrival (DOA) based method, and a phase vector based method. It is shown from the speech recognition experiments that the proposed method outperforms conventional methods by providing relative word error rates reductions of 11.68%, 41.92%, and 10.15% compared with SNR-based, DOA-based, and phase vector based method, respectively.

  • PDF

잡음음성인식을 위한 데이터 기반의 Jacobian 적응방식 (A Data-Driven Jacobian Adaptation Method for the Noisy Speech Recognition)

  • 정용주
    • 한국음향학회지
    • /
    • 제25권4호
    • /
    • pp.159-163
    • /
    • 2006
  • 본 논문에서는 잡음음성인식을 위한 데이터 기반의 향상된 Jacobian 적응 방식을 제안하였다. Jacobian 적응에서 필요로 하는 기준 HMM을 구성하기 위해서 기존에 주로 사용되던 모델결합 방식을 사용하는 대신에 잡음음성을 이용하여 직접 훈련하는 방식을 제안하였다. 이렇게 함으로서 기존의 방법에 비해서 잡음에 의한 음향모델의 변이를 보다 잘 처리할 수 있을 것으로 생각된다 제안된 방법에서는 Jacobian 행렬의 추정을 위해서 훈련과정에서 Baum-Welch 알고리듬을 사용하였다. 잡음음성에 대한 인식실험을 통해서 제안된 방식이 기존의 Jacobian 적응 방식 뿐 만 아니라 다른 형태의 모델적응 방식들에 비해서도 우수한 성능을 보임을 알 수 있었다.

멀티밴드 스펙트럼 차감법과 엔트로피 하모닉을 이용한 잡음환경에 강인한 분산음성인식 (Robust Distributed Speech Recognition under noise environment using MESS and EH-VAD)

  • 최갑근;김순협
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.101-107
    • /
    • 2011
  • 음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널에 의한 왜곡이다. 일반적으로 잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 많이 받고 있다. DSR(Distributed Speech Recognition) 기반의 음성인식 역시 이 같은 문제로 성능 향상에 어려움을 겪고 있다. 이 논문은 잡음환경에서 DSR기반의 음성인식률 향상을 위해 정확한 음성구간을 검출하고, 잡음을 제거하여 잡음에 강인한 특징추출을 하도록 설계하였다. 제안된 방법은 엔트로피와 음성의 하모닉을 이용해 음성구간을 검출하며 멀티밴드 스펙트럼 차감법을 이용하여 잡음을 제거한다. 음성의 스펙트럼 에너지에 대한 엔트로피를 사용하여 음성검출을 하게 되면 비교적 높은 SNR 환경 (SNR 15dB) 에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱 값이 변화하여 낮은 SNR환경(SNR 0dB)에시는 정확한 음성 검출이 어렵다. 이 논문은 낮은 SNR 환경(0dB)에서도 정확한 음성을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 이용하였으며 정확한 음성 구간 검출에 따라 잡음을 제거하여 잡음에 강인한 특정을 추출하도록 하였다. 실험결과 잡음환경에 따른 인식조건에서 개선된 인식성능을 보였다.

소음 환경에서의 명료한 청취를 위한 음절형태 기반 음소 가중 기술 (Syllable-Type-Based Phoneme Weighting Techniques for Listening Intelligibility in Noisy Environments)

  • 이영호;주종한;최승호
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.165-169
    • /
    • 2014
  • Intelligibility of speech transmitted to listeners can significantly be degraded in noisy environments such as in auditorium and in train station due to ambient noises. Noise-masked speech signal is hard to be recognized by listeners. Among the conventional methods to improve speech intelligibility, consonant-vowel intensity ratio (CVR) approach reinforces the powers of overall consonants. However, excessively reinforced consonant is not helpful in recognition. Furthermore, only some of consonants are improved by the CVR approach. In this paper, we propose the corrective weighting (CW) approach that reinforces the powers of consonants according to syllable-type such as consonant-vowel-consonant (CVC), consonant-vowel (CV) and vowel-consonant (VC) in Korean differently, considering the level of listeners' recognition. The proposed CW approach was evaluated by the subjective test, Comparison Category Rating (CCR) test of ITU-T P.800, showed better performance, that is, 0.18 and 0.24 higher than the unprocessed CVR approach, respectively.

잡음음성에서의 음성 활성화 구간 검출 방법 (Speech Active Interval Detection Method in Noisy Speech)

  • 이광석;추연규;김현덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.779-782
    • /
    • 2008
  • 음성통신 및 음성인식에 있어서 잡음이 섞인 음성으로부터 음성의 활성화 구간의 검출은 대단히 중요한 과정으로 알려져 있다. 따라서 본 연구에서는 잡음음성으로부터 음성의 활성화 구간을 검출하기 위하여 스펙트럴 엔트로피와 복합으로 구성하는 특징 파라미터를 제안하고 에너지를 기반으로 음성 활성화 구간을 검출하는 방식과 성능 비교 실험을 행하였다. 실험결과, 노이즈 환경에서 다른 파라미터에 비하여 제안한 파라미터에 의한 음성 활성화 구간 검출의 성능이 우수함을 확인할 수 있었다.

  • PDF

독립 성분 분석과 스펙트럼 향상에 의한 잡음 환경에서의 음성인식 (Speech Recognition in Noise Environment by Independent Component Analysis and Spectral Enhancement)

  • 최승호
    • 대한음성학회지:말소리
    • /
    • 제48호
    • /
    • pp.81-91
    • /
    • 2003
  • In this paper, we propose a speech recognition method based on independent component analysis (ICA) and spectral enhancement techniques. While ICA tris to separate speech signal from noisy speech using multiple channels, some noise remains by its algorithmic limitations. Spectral enhancement techniques can compensate for lack of ICA's signal separation ability. From the speech recognition experiments with instantaneous and convolved mixing environments, we show that the proposed approach gives much improved recognition accuracies than conventional methods.

  • PDF

잡음 환경에서의 음성 감정 인식을 위한 특징 벡터 처리 (Feature Vector Processing for Speech Emotion Recognition in Noisy Environments)

  • 박정식;오영환
    • 말소리와 음성과학
    • /
    • 제2권1호
    • /
    • pp.77-85
    • /
    • 2010
  • This paper proposes an efficient feature vector processing technique to guard the Speech Emotion Recognition (SER) system against a variety of noises. In the proposed approach, emotional feature vectors are extracted from speech processed by comb filtering. Then, these extracts are used in a robust model construction based on feature vector classification. We modify conventional comb filtering by using speech presence probability to minimize drawbacks due to incorrect pitch estimation under background noise conditions. The modified comb filtering can correctly enhance the harmonics, which is an important factor used in SER. Feature vector classification technique categorizes feature vectors into either discriminative vectors or non-discriminative vectors based on a log-likelihood criterion. This method can successfully select the discriminative vectors while preserving correct emotional characteristics. Thus, robust emotion models can be constructed by only using such discriminative vectors. On SER experiment using an emotional speech corpus contaminated by various noises, our approach exhibited superior performance to the baseline system.

  • PDF

KORAN DIGIT RECOGNITION IN NOISE ENVIRONMENT USING SPECTRAL MAPPING TRAINING

  • Ki Young Lee
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1015-1020
    • /
    • 1994
  • This paper presents the Korean digit recognition method under noise environment using the spectral mapping training based on static supervised adaptation algorithm. In the presented recognition method, as a result of spectral mapping from one space of noisy speech spectrum to another space of speech spectrum without noise, spectral distortion of noisy speech is improved, and the recognition rate is higher than that of the conventional method using VQ and DTW without noise processing, and even when SNR level is 0 dB, the recognition rate is 10 times of that using the conventional method. It has been confirmed that the spectral mapping training has an ability to improve the recognition performance for speech in noise environment.

  • PDF

확률적 스펙트럼 차감법을 이용한 잡은 환경에서의 음성인식 (Noisy Speech Recognition using Probabilistic Spectral Subtraction)

  • 지상문;오영환
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.94-99
    • /
    • 1997
  • 본 논문에서는 잡음환경에서의 음성인식을 위하여 잡음의 확률적 특성과 음성모델을 이용하는 확률적 스펙트럼 차감법을 제안한다. 기존의 스펙트럼 차감법은 음성이 존재하지 않는 구간에서 추정한 잡음을 잡음음성에서 차감하여 잡음을 제거함로, 추정한 잡음의 형태가 음성인식기에 입력되는 잡음음성에 포함된 잡음과 상이한 특성을 나타낼 경우에는 효과적인 잡음의 제거가 불가능하다. 이러한 단점을 보완하기 위해서 여러 가지 형태를 가지는 잡음의 원형을 사용하여, 잡음음성에서 잡음을 제거하는 방법을 사용하였다. 잡음의 확률적인 특성을 여러 개의 잡음원형으로 나타내므로, 스펙트럼 차감법은 입력음성에 대해서 확률적으로 수행되어 잡음이 제거된 다중의 스펙트럼을 출력하게 되고, 인식시에는 조용한 환경의 음성으로 학습된 음성모델에 따른 최적의 스펙트럼을 이용하여 인식을 수행한다. 또한 정적인 파라미터와 동적인 특징파라미터를 동시에 고려하여 잡음을 영향을 최소화하므로 보다 효과적인 잡음처리가 가능하다. 제안한 방법의 타당성을 실험적으로 검증하기 위해서, 잡음환경의 음성인식에 적용하였다. SNR 10 dB인 50개의 고립단어에 대한 실험결과, 잡음처리를 하지 않았을 경우 72.75%, 스펙트럼 차감법은 80.25%, 제안한 방법을 사용하였을 경우는 86.25%의 인식률을 얻음으로써, 효과적인 잡음처리 방법임을 확인할 수 있었다.

  • PDF