• 제목/요약/키워드: Noisy Speech Recognition

검색결과 228건 처리시간 0.024초

잡음 환경에서 음성 인식을 위한 신호처리 (Signal Processing for Speech Recognition in Noisy Environment)

  • 김원구;임용훈;차일환;윤대희
    • 한국음향학회지
    • /
    • 제11권2호
    • /
    • pp.73-84
    • /
    • 1992
  • 본 논문에서는 잡음 환경에서 음성 인식 시스템의 성능을 개선할 수 있는 잡음제거 방식과 거리 측정 방법을 연구하고 백색 및 유색 잡음 환경에서 거리 측정 방법에 따른 음성 인식 시스템의 성능을 평가하였다. 잡음 제거 방법으로는 음성 인식 시스템의 전처리 과정으로서 사용될 수 있는 스펙트럼 차감법, 자기 상관 차감법, 적응 잡음 제거, 적응 빔 형성기가 있으며 거리 측정 방법으로는 Log Likelihood Ration($d_{LLR}$), 켑스트럼에 의한 거리 측정 ($d_{CEP}$), 가중 켑스트럼 거리 측정 ($d_{WCEP}$), 스펙트럼 기울기에 의한 거리 측정 ($d_{RPS}$), 켑스트럼 투영 거리 측정방법 ($d_{CP},\;d_{BCP},\;d_{WCP},\;d_{BWCP}$)들이 있다. 백색 및 자동차 잡음 환경에서의 화자 종속 단독음 인식 실험 결과, 켑스트럼 계수의 높은 차수에 큰 가중을 두는 거리 측정 방법인 $d_{RPS},\;d_{WCEP}$가 잡음에 강한 특성을 나타내었으며, 잡음이 존재할 때는 pre-emphasis를 하지 않은 경우가 높은 인식율을 얻을 수 있었다.

  • PDF

잡음 환경에 효과적인 음성 인식을 위한 Gaussian mixture model deep neural network 하이브리드 기반의 특징 보상 (A study on Gaussian mixture model deep neural network hybrid-based feature compensation for robust speech recognition in noisy environments)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.506-511
    • /
    • 2018
  • 본 논문에서는 잡음 환경에서 효과적인 음성인식을 위하여 GMM(Gaussian Mixture Model)-DNN(Deep Neural Network) 하이브리드 기반의 특징 보상 기법을 제안한다. 기존의 GMM 기반의 특징 보상에서 필요로 하는 사후 확률을 DNN을 통해 계산한다. Aurora 2.0 데이터를 이용한 음성 인식 성능 평가에서 본 논문에서 제안한 GMM-DNN 하이브리드 기법이 기존의 GMM 기반 기법에 비해 Known, Unknown 잡음 환경에서 모두 평균적으로 우수한 성능을 나타낸다. 특히 Unknown 잡음 환경에서 평균 오류율이 9.13 %의 상대 향상률을 나타내고, 낮은 SNR(Signal to Noise Ratio) 잡음 환경에서 상당히 우수한 성능을 보인다.

CHMM을 이용한 발매기 명령어의 음성인식에 관한 연구 (A Study on the Speech Recognition for Commands of Ticketing Machine using CHMM)

  • 김범승;김순협
    • 한국철도학회논문집
    • /
    • 제12권2호
    • /
    • pp.285-290
    • /
    • 2009
  • 논문에서는 연속HMM(Continuos Hidden Markov Model)을 이용하여 실시간으로 발매기 명령어(314개 역명)를 인식 할 수 있도록 음성인식 시스템을 구현하였다. 특징 벡터로 39 MFCC를 사용하였으며, 인식률 향상을 위하여 895개의 tied-state 트라이폰 음소 모델을 구성하였다. 시스템 성능 평가 결과 다중 화자 종속 인식률은 99.24%, 다중화자 독립 인식률은 98.02%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 다중 화자 독립 실험의 경우 93.91%의 인식률을 나타내었다.

음성 신호의 의사 켑스트럼 표현 및 음성 인식에의 응용 (Pseudo-Cepstral Representation of Speech Signal and Its Application to Speech Recognition)

  • 김홍국;이황수
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.71-81
    • /
    • 1994
  • 본 논문에서는 line spectrum pair (LSP)의 의사 켑스트럼 표현을 제안하고 이 의사 켑스트럼에 켑스트럼 lifter를 적용하여 얻은 특징 벡타를 이용하는 음성 인식 시스템의 성능을 평가한다. 의사 켑스트럼 표현은 LSP와 LPC 켑스터럼 사이의 관계로부터 근사적으로 유도된다. 이때 음성 인식 시스템의 성능을 더욱 향상 시키기 위하여 root-power-sums lifter, general exponential lifter (GEL), 그리고 bandpass lifter 등과 같은 켑스터럼 liter가 의사 켑스터럼에 적용된다. 또한 mel 주파수로의 변환도 행해진다. 인식 결험 결과, GEL로 liftering된 mel 주파수 의사 켑스터럼이 가장 좋은 성능을 나타내며, LSP에 비해 5~6dB정도의 신도대잡음비의 개선을 얻을 수 있다.

  • PDF

음성인식에서 입술 파라미터 열화에 따른 견인성 연구 (Robustness of Bimodal Speech Recognition on Degradation of Lip Parameter Estimation Performance)

  • 김진영;신도성;최승호
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.205-208
    • /
    • 2002
  • Bimodal speech recognition based on lip reading has been studied as a representative method of speech recognition under noisy environments. There are three integration methods of speech and lip modalities as like direct identification, separate identification and dominant recording. In this paper we evaluate the robustness of lip reading methods under the assumption that lip parameters are estimated with errors. We show that the dominant recording approach is more robust than other methods with lip reading experiments. Also, a measure of lip parameter degradation is proposed. This measure can be used in the determination of weighting values of video information.

  • PDF

Spectral Subtraction Using Spectral Harmonics for Robust Speech Recognition in Car Environments

  • Beh, Jounghoon;Ko, Hanseok
    • The Journal of the Acoustical Society of Korea
    • /
    • 제22권2E호
    • /
    • pp.62-68
    • /
    • 2003
  • This paper addresses a novel noise-compensation scheme to solve the mismatch problem between training and testing condition for the automatic speech recognition (ASR) system, specifically in car environment. The conventional spectral subtraction schemes rely on the signal-to-noise ratio (SNR) such that attenuation is imposed on that part of the spectrum that appears to have low SNR, and accentuation is made on that part of high SNR. However, these schemes are based on the postulation that the power spectrum of noise is in general at the lower level in magnitude than that of speech. Therefore, while such postulation is adequate for high SNR environment, it is grossly inadequate for low SNR scenarios such as that of car environment. This paper proposes an efficient spectral subtraction scheme focused specifically to low SNR noisy environment by extracting harmonics distinctively in speech spectrum. Representative experiments confirm the superior performance of the proposed method over conventional methods. The experiments are conducted using car noise-corrupted utterances of Aurora2 corpus.

음성 통계 모형에 따른 음성 왜곡량 감소를 위한 비선형 음성강조법 (Nonlinear Speech Enhancement Method for Reducing the Amount of Speech Distortion According to Speech Statistics Model)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.465-470
    • /
    • 2021
  • 잡음이 존재하는 실제 환경에서 음성인식을 실시하는 경우에 음성인식의 성능 열화 및 음성의 품질이 저화되지 않는 강건한 음성인식 기술이 필요하다. 이러한 음성인식 기술을 개발함으로써 사람의 음성 스펙트럼과 유사한 잡음 환경에서도 안정되고 높은 음성인식률이 실현되는 어플리케이션이 요구된다. 따라서 본 논문에서는 최소 평균 제곱의 오차를 기반으로 한 단시간 스펙트럼 진폭 방법인 MMSA-STSA 추정 알고리즘에 기초한 잡음억압을 처리하는 음성강조 알고리즘을 제안한다. 이 알고리즘은 단일 채널 입력에 기초한 효과적인 비선형 음성강조 알고리즘이며, 높은 잡음억제 성능을 가지고 있으며 음성의 통계적인 모델에 기초하여 음성의 왜곡량을 줄이는 기법이다. 본 실험에서는 MMSA-STSA 추정 알고리즘의 유효성을 확인하기 위하여 입력 음성파형과 출력 음성파형을 비교하여 제안한 알고리즘의 효과를 확인한다.

청각장애 유소아의 신호대소음비에 따른 문장인지 능력 (The Effect of Signal-to-Noise Ratio on Sentence Recognition Performance in Pre-school Age Children with Hearing Impairment)

  • 이미숙
    • 말소리와 음성과학
    • /
    • 제3권1호
    • /
    • pp.117-123
    • /
    • 2011
  • Most individuals with hearing impairment have difficulty in understanding speech in noisy situations. This study was conducted to investigate sentence recognition ability using the Korean Standard-Sentence Lists for Preschoolers (KS-SL-P2) in pre-school age children with cochlear implants and hearing aids. The subjects of this study were 10 pre-school age children with hearing aids, 12 pre-school age children with cochlear implants, and 10 pre-school age children with normal hearing. Three kinds of signal-to-noise (SNR) conditions (+10 dB, +5 dB, 0 dB) were applied. The results for all pre-school age children with cochlear implants and hearing aids presented a significant increase in the score for sentence recognition as SNR increased. The sentence recognition score in speech noise were obtained with the SNR +10 dB. Significant differences existed between groups in terms of their sentence recognition ability, with the cochlear implant group performing better than the hearing aid group. These findings suggest the presence of a sentence recognition test using speech noise is useful for evaluating pre-school age children's listening skill.

  • PDF

롬바드 음성을 이용한 음성인식기의 성능 평가 (Performance Assessment of Speech Recogniger using Lombard Speech)

  • 정성윤;정현열;김경태
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.59-68
    • /
    • 1994
  • 한국어 음성인식기의 성능평가를 위한 기초 연구로서 인식기의 성능에 영향을 끼치는 여러 요인 중 잡음환경 하에서의 롬바드 영향을 입은 음성을 인식하는 경우 인식기의 성능평가와 분석에 관해 논하였다. 성능평가에 있어서는 표준 음성데이타를 잡음환경에서 발성한 것에 가깝게 조작해서 롬바드 영향을 고려한 경우와 그렇지 않은 경우에 대해 평가항목 (잡음의 종류, 신호대 잡음비) 에 따라 인식실험을 행한 결과, 잡음의 종류는 인식성능에 영향을 미치지 않음을 알 수 있었고, 인식률 90%를 한계치로 했을 경우 롬바드 영향을 고려하지 않았을 때는 신호대 잡음비가 10dB 정도에서, 롬바드 영향을 고려한 경우에는 30dB정도에서 동일한 인식률을 나타내어 롬바드 영향을 고려한 경우가 20dB 정도의 인식률 저하를 가져와 실제 평가시 롬바드 영향을 고려해야 함을 알 수 있었다. 분산분석의 결과로부터는 여러 종류의 인식기를 다양한 평가항목에 대해 평가할 때, 각 평가 항목이 인식성능에 미치는 영향을 정량화할 수 있음을 알 수 있었다.

  • PDF

잡음에 강인한 음성인식을 위한 스펙트럼 보상 방법 (A Spectral Compensation Method for Noise Robust Speech Recognition)

  • 조정호
    • 전자공학회논문지 IE
    • /
    • 제49권2호
    • /
    • pp.9-17
    • /
    • 2012
  • 음성 인식 시스템의 용용에서 실제 문제점의 하나는 음성신호의 왜곡에 의한 인식성능의 저하이다. 음성신호의 왜곡에 가장 중요한 원인은 부가적인 잡음이다. 이 논문은 잡음에 강인한 음성인식을 위하여, 스펙트럼 피크 향상 기법과 효과적인 잡음 차감 기법에 기초한 스펙트럼 보상 방법을 기술한다. 제안한 방법은 음성 스펙트럼의 포먼트 구조를 향상시키고 스펙트럼 기울기를 보상하면서도 광 대역폭 스펙트럼 요소는 그대로 유지한다. 백색 가우스 잡음, 자동차 잡음, 음성 잡음 또는 지하철 잡음에 의해 왜곡된 음성을 이용한 인식실험을 수행한 결과, 새로운 방법은 스펙트럼 보상을 하지 않은 경우에 비해, 높은 SNR(Signal to Noise Ratio) 환경에서는 평균 오인식율을 약간 줄였으며, 낮은 SNR(10 dB) 환경에서는 평균 오인식율을 1/2로 크게 줄였다.