• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.025초

양이형 음성 음질개선 시스템을 위한 온라인 잡음 상관도 추정 알고리즘 (On-line noise coherence estimation algorithm for binaural speech enhancement system)

  • 지유나;백용현;박영철
    • 한국음향학회지
    • /
    • 제35권3호
    • /
    • pp.234-242
    • /
    • 2016
  • 본 논문에서는 양이형 음성 음질개선 시스템에 적용 가능한 잡음 상관도 온라인 추정 알고리즘을 제안한다. 양이형 시스템에서 공간 상관도(spatial coherence) 정보를 이용해 잡음의 파워 스펙트럼을 추정하거나 음질 개선 이득을 형성하는 기술들이 다수 연구되어 왔다. 이때 잡음 상관도는 통상적으로 수학적으로 모델링된 실수의 고정 값을 사용하여왔다. 하지만 실생활에서 접하게 되는 잡음의 상관도는 음향 환경에 따라 변화하는 특성을 가지게 되며 이때 발생하는 오차는 음질 개선 알고리즘의 정확도를 떨어뜨리는 원인이 된다. 따라서 본 논문에서는 변화하는 잡음의 상관도를 온라인으로 업데이트하여 정확한 잡음 상관도를 추정함으로써 양이형 음질 개선 알고리즘의 성능을 향상 시키고자 하였다. 잡음의 상관도는 음성 부재 구간에서 업데이트 될 수 있으며 실험 결과 제안 알고리즘이 기존의 수학적 모델에 비해 음질 개선 알고리즘의 성능을 향상시킴을 볼 수 있다.

방향성 마이크로폰과 음성 필터링을 이용한 통신 시스템의 음성 인지도 향상 (Performance Enhancement of Speech Intelligibility in Communication System Using Combined Beamforming (directional microphone) and Speech Filtering Method)

  • 신민철;왕세명
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2005년도 춘계학술대회논문집
    • /
    • pp.334-337
    • /
    • 2005
  • The speech intelligibility is one of the most important factors in communication system. The speech intelligibility is related with speech to noise ratio. To enhance the speech to noise ratio, background noise reduction techniques are being developed. As a part of solution to noise reduction, this paper introduces directional microphone using beamforming method and speech filtering method. The directional microphone narrows the spatial range of processing signal into the direction of the target speech signal. The noise signal located in the same direction with speech still remains in the processing signal. To sort this mixed signal into speech and noise, as a following step, a speech-filtering method is applied to pick up only the speech signal from the processed signal. The speech filtering method is based on the characteristics of speech signal itself. The combined directional microphone and speech filtering method gives enhanced performance to speech intelligibility in communication system.

  • PDF

디지털 보청기에서의 포먼트 강조에 의한 마스킹 효과 연구 (A Study of Acoustic Masking Effect from Formant Enhancement in Digital Hearing Aid)

  • 전유용;길세기;윤광섭;이상민
    • 전자공학회논문지SC
    • /
    • 제45권5호
    • /
    • pp.13-20
    • /
    • 2008
  • 청력 손실을 보상하고 난청인이 다른 사람들과 대화할 수 있도록 디지털 보청기 알고리즘은 개발 되어 왔음에도 불구하고, 디지털 보청기 사용자들은 음성을 듣는데 어려움이 있다고 불만을 토로한다. 그 이유는 피드백이나 잔여 노이즈 등에 의해 디지털 보청기를 통한 음성의 질이 이해하기에 불충분하기 때문이다. 또 다른 이유로 포먼트들 사이에서 일어나는 마스킹 현상이 될 수 있다. 이 연구에서 정상 청각 피험자와 노인성 난청을 갖고 있는 난청인 피험자의 마스킹 특성을 측정하여 음성에서의 마스킹에 의한 음성 인지 저하를 확인하기 위한 실험을 하였다. 실험은 순음검사, 어음 청취 역치 검사, 낱말 분별력 검사, 수음 마스킹 검사, 어음 마스킹 검사의 5개 테스트로 이루어졌다. 어음 마스킹 검사에서 각각 어음 세트에 25개의 어음이 사용되었다. 각 어음의 왜곡을 객관적으로 평가하기 위해서 log likelihood ratio (LLR)를 도입하였다. 결과적으로 포먼트 향상의 양을 늘리면 늘릴수록 어음 인지는 낮아졌고, 각 어음 세트에서 각각의 향상된 어음은 통계적으로 비슷한 LLR을 갖지만 어음인지는 그렇지 않게 나타났다. 이것은 왜곡이 아닌 음향 마스킹이 어음 인지에 영향을 준다는 것을 의미한다. 실제로 피험자들 대부분이 맞추지 못한 음성을 주파수 분석한 결과 첫 번째와 두 번째 포먼트 사이의 레벨 차이가 약 35dB이며 이는 순음 마스킹 실험 결과(정상 청각 피험자:36.36dB, 난청인 피험자:32.86dB)와 비슷한 양상을 보였다. 실험 결과에서 볼 수 있듯이 음향 마스킹의 특성은 정상 청각인과 난청인 사이에서 다르게 나타난다. 그렇기 때문에 보청기 착용 전 마스킹 특성을 검사하고, 피팅 시에 적용해야 한다.

배경잡음하에서의 감음신경성난청과 정상청력자의 어음인지향상 연구 (Effects on the Speech Enhancement Algorithms for Sensorineural Hearing Impairment and Normal Listeners)

  • 김동욱;김인영;윤길원
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1998년도 추계학술대회
    • /
    • pp.171-172
    • /
    • 1998
  • Recent development of digital technology has offered new possibilities for noticeable advances of hearing aids. Using the digital technology, it is possible to equip hearing aids with powerful features such as multi-channel nonlinear compression amplification and the feedback cancellation, these are often difficult to implement with analog circuits. Still, speech in noise is one of the major complaints of not only hearing impaired persons but also normal listeners. This paper describes speech intelligibility in background noise for both normal and hearing impaired listeners. Speech enhancement algorithms were implemented and compared for normal and sensorineural hearing impairment listeners.

  • PDF

결정적/확률적 요소로의 음성 분해와 심리음향 모델 기반 잡음 제거 기법 (Speech Enhancement with Decomposition into Deterministic and Stochastic components and Psychoacoustic Model)

  • 조석환;유창동
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.301-302
    • /
    • 2007
  • A speech enhancement algorithm based on both a decomposition of speech into deterministic and stochastic components and a psychoacoustic model is proposed. Noisy speech is decomposed into deterministic and stochastic components, and then each component is enhanced preserving its individual characteristics. A psychoacoustic model is taken into account when enhancing the stochastic component. Simulation results show that the proposed algorithm performs better than some of the more popular algorithms.

  • PDF

Speech Enhancement Based on Psychoacoustic Model

  • Lee, Jingeol;Kim, Soowon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제19권3E호
    • /
    • pp.12-18
    • /
    • 2000
  • Psychoacoustic model based methods have recently been introduced in order to enhance speech signals corrupted by ambient noise. In particular, the perceptual filter is analytically derived where the frequency content of the input noisy signal is made the same as that of the estimated clean signal in auditory domain. However, the analytical derivation should rely on the deconvolution associated with the spreading function in the psychoacoustic model, which results in an ill-conditioned problem. In order to cope with the problem associated with the deconvolution, we propose a novel psychoacoustic model based speech enhancement filter whose principle is the same as the perceptual filter, however the filter is derived by a constrained optimization which provides solutions to the ill-conditioned problem. It is demonstrated with artificially generated signals that the proposed filter operates according to the principle. It is shown that superior performance results from the proposed filter over the perceptual filter provided that a clean speech signal is separable from noise.

  • PDF

Rao-Blackwellized particle filter를 이용한 순차적 음성 강조 (Rao-Blackwellized Particle Filtering for Sequential Speech Enhancement)

  • 박선호;최승진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.151-153
    • /
    • 2006
  • we present a method of sequential speech enhancement, where we infer clean speech signal using a Rao-Blackwellized particle filter (RBPF), given a noise-contaminated observed signal. In contrast to Kalman filtering-based methods, we consider a non-Gaussian speech generative model that is based on the generalized auto-regressive (GAR) model. Model parameters are learned by a sequential Newton-Raphson expectation maximization (SNEM), incorporating the RBPF. Empirical comparison to Kalman filter, confirms the high performance of the proposed method.

  • PDF

프레임 기반의 포먼트 강조에 의한 음향 마스킹 현상 발생에 대한 연구 (A Study on Acoustic Masking Effect by Frame-Based Formant Enhancement)

  • 전유용;김규성;이상민
    • 대한의용생체공학회:의공학회지
    • /
    • 제30권6호
    • /
    • pp.529-534
    • /
    • 2009
  • One of the characteristics of the hearing impaired is that their frequency selectivity is poorer than that of the normal hearing. To compensate this, formant enhancement algorithms and spectral contrast enhancement algorithms have been developed. However in some cases, these algorithms fail to improve the frequency selectivity of the hearing impaired. One of the reasons is the acoustic masking among enhanced formants. In this study, we tried to enhance the formants based on the individual masking characteristic of each subject. The masking characteristic used in this study was minimum level difference (MLD) between the first formant to the second formant while acoustic masking was occurred. If the level difference between the two formants in each frame is larger than the MLD, the gain of the first formant was decreased to reduce the acoustic masking that occurred among formants. As a result of the speech discrimination test, using formant enhanced speeches, speech discrimination score (SDS) of the speeches having differently enhanced formants was significantly superior to SDS of the speeches having equally enhanced formants. It means that suppression of the acoustic masking among formants improve frequency selectivity of the hearing impaired.

Intelligibility Improvement Benefit of Clear Speech and Korean Stops

  • Kang, Kyoung-Ho
    • 말소리와 음성과학
    • /
    • 제2권1호
    • /
    • pp.3-11
    • /
    • 2010
  • The present study confirmed the intelligibility improvement benefit of clear speech by investigating the intelligibility of Korean stops produced in different speaking styles: conversational, citation-form, and clear speech. This finding supports the Hypo- & Hyper-speech theory that speakers adjust vocal effort to accommodate hearers' speech perception difficulty. A progressive intelligibility improvement was found for the three speaking styles investigated: clear speech was more intelligible than citation-form speech citation-form speech was more intelligible than conversational speech and clear speech was also more intelligible than conversational speech. These findings suggest that the manipulations to elicit three distinct speaking styles in a laboratory setting were successful. Korean lenis stops showed the least intelligibility improvement among the three Korean stop types, and this result suggests that lenis stops should be more resistant to intelligibility enhancement efforts in clear speech than aspirated and fortis stops.

  • PDF

음성 개선 기반의 모델 보상 기법을 이용한 강인한 잡음 음성 인식 (A Noise Robust Speech Recognition Method Using Model Compensation Based on Speech Enhancement)

  • 신광호;정호열;정현열
    • 한국음향학회지
    • /
    • 제27권4호
    • /
    • pp.191-199
    • /
    • 2008
  • 본 논문에서는 잡음 환경하의 음성 인식을 위해 전처리 단계에서 Mel-warped Wiener Filtering (MWF) 기법을 이용하여 입력 음성을 개선하고 후처리 단계에서 PMC (Parallel Model Combination) 기법을 이용하여 인식 모델을 보상하는 MWF-PMC잡음 처리 기법을 제안한다. PMC 기법은 전처리 단계에서 개선된 음성의 묵음 구간으로부터 잔류 잡음을 취하여 깨끗한 음성을 이용하여 작성한 인식 모델을 보상함으로써 잡음 환경하의 음성 인식 성능을 향상시킬 수 있다. 인식 실험을 위한 음성 데이터는 국어공학연구소 (KLE)에서 작성한 PBW (Phoneme Balanced Words) 452 단어 음성 데이터를 8 kHz로 다운 샘플링한 후 Subway, Car 및 Exhibition 잡음을 5단계의 신호 대 잡음비 (SNR)를 0, 5, 10, 15, 2003로 부가하여 구성하였다. 인식 실험 결과, 본 논문에서 제안한 MWF-PMC 기법이 기존의 결합된 기법보다 전반적으로 향상된 인식 성능을 얻어 그 유효성을 확인할 수 있었다.