• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.026초

심리 음향 기준을 이용한 새로운 음질 개선 방법 (New Speech Enhancement Method using Psychoacoustic Criteria)

  • 김대경;박장식;손경식
    • 한국멀티미디어학회논문지
    • /
    • 제4권1호
    • /
    • pp.56-66
    • /
    • 2001
  • 최근에 심리 음향 기준을 이용한 스펙트럼 차감법이 제안되었다. Virag의 알고리즘에서는 기존의 방법보다 청취자가 더 편안한 음성을 들을 수 있지만 잡음에 강인한 음성활동 검출기가 필요하다. 음성활동 검출기를 필요로 하지 않는 확장 스펙트럼 차감법에서는 신호 대 잡음비가 감소함에 따라 잔여 잡음이 더욱 잘 들리게 된다. 본 논문에서는 심리 음향 기준을 이용한 스펙트럼 차감법에 Wiener 필터를 결합한 새로운 음질 개선 방법을 제안한다. 제안한 방법에서는 Wiener 필터를 사용하여 음성 구간에 서도 잡음의 추정치가 계속 갱신되므로 음성 검출기가 필요 없고 마스킹 임계값에 따라 차감 파라미터를 조정하기 때문에 잔여 잡음이 거의 들리지 않게 된다. 제안된 방법에 대하여 시뮬레이션을 통하여 기존의 스펙트럼 차감법과 성능을 비교한 결과, 제안한 방법을 사용하여 개선된 음성이 기존의 방법에 비하여 청취하기에 더 편한 음질을 제공하였다.

  • PDF

한국어 음성데이터를 이용한 일본어 음향모델 성능 개선 (An Enhancement of Japanese Acoustic Model using Korean Speech Database)

  • 이민규;김상훈
    • 한국음향학회지
    • /
    • 제32권5호
    • /
    • pp.438-445
    • /
    • 2013
  • 본 논문은 일본어 음성인식기 신규 개발을 위해 초기에 부족한 일본어 음성데이터를 보완하는 방법이다. 일본어 발음과 한국어 발음이 유사한 특성을 근거로 한국어 음성 데이터를 이용한 일본어 음향모델 성능개선 방법에 대하여 기술하였다. 이종언어 간 음성 데이터를 섞어서 훈련하는 방법인 Cross-Language Transfer, Cross-Language Adaptation, Data Pooling Approach등 방법을 설명하고, 각 방법들의 시뮬레이션을 통해 현재 보유하고 있는 일본어 음성데이터 양에 적절한 방법을 선정하였다. 기존의 방법들은 훈련용 음성데이터가 크게 부족한 환경에서의 효과는 검증되었으나, 목적 언어의 데이터가 어느 정도 확보된 상태에서는 성능 개선 효과가 미비하였다. 그러나 Data Pooling Approach의 훈련과정 중 Tyied-List를 목적 언어로만으로 구성 하였을 때, ERR(Error Reduction Rate)이 12.8 %로 성능이 향상됨을 확인하였다.

칼만필터를 이용한 음성신호에 중첩된 유색잡음의 감쇠 (An Application of the Kalman Filter for Attenuation of Colored Noise Superimposed on Speech Signal)

  • 구본응
    • 한국음향학회지
    • /
    • 제13권2호
    • /
    • pp.76-85
    • /
    • 1994
  • 정체형 칼만필터와 간단한 음성-비음성 판별알고리즘을 사용하여 비정체형 유색잡음을 감쇠시키는 방법을 제안하였다. 종래의 잡음감쇠알고리즘들이 대부분 백색 또는 정체형 잡음을 다룬데 비하여 본 연구는 대부분의 실제 잡음환경, 즉, 비백색 비정체성 잡음을 다루었다는 점이 다르다. 잡음감쇠기로서는 AR모델에 의거한 백터형 칼만필터를 사용하였고, 음성/비음성 판별에는 단구간에너지의 임계값논리를 사용하였다. 칼만필터에 필요한 잡음의 계수는 비음성구간에서 추산하였고, 음성의 계수는 EM반복법을 적용하여 추산하였다. 실험결과는 신호대 잡음비와 청취테스트로 제시하였다. 차량잡음을 사용한 실험결과, 비음성구간의 배경잡음은 거의 완전히 제거할 수 있었고, SNR이 0dB내지 -5dB로 낮아짐에 따라 왜곡이 심화 되는 경향을 보였으나, 음성의 명료도를 저하시키지는 않았다.

  • PDF

재귀적 지연추정기를 갖는 적응잡음제거 기법을 이용한 음성개선 (Speech Enhancement Using the Adaptive Noise Canceling Technique with a Recursive Time Delay Estimator)

  • 강해동;배근성
    • 전자공학회논문지B
    • /
    • 제31B권7호
    • /
    • pp.33-41
    • /
    • 1994
  • A single channel adaptive noise canceling (ANC) technique with a recursive time delay estimator (RTDE) is presented for removing effects of additive noise on the speech signal. While the conventional method makes a reference signal for the adaptive filter using the pitch estimated on a frame basis from the input speech, the proposed method makes the reference signal using the delay estimated recursively on a sample-by-sample basis. As the RTDEs, the recursion formulae of autocorrelation function (ACF) and average magnitude difference function (AMDF) are derived. The normalized least mean square (NLMS) and recursive least square (RLS) algorithms are applied for adaptation of filter coefficients. Experimental results with noisy speech demonstrate that the proposed method improves the perceived speech quality as well as the signal-to-noise ratio and cepstral distance when compared with the conventional method.

  • PDF

RASTA 필터를 이용한 립리딩 성능향상에 관한 연구 (A Study on Lip-reading enhancement using RATSTA fileter)

  • 신도성;김진영;최승호;김상훈
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.191-194
    • /
    • 2002
  • Lip-reading technology that is studied them is used to compensate speech recognition degradation in noise environment in bi-modal's form. The most important thing is that search for correct lips area in this lip-reading. But, it is hard to forecast stable performance in dynamic environment. Used RASTA filter that show good performance to remove noise in the speech to compensate. This filter shows that improve performance of using time domain of digital filter. To this experiment observes performance of speech recognition only using image information, service chooses possible 22 words and did recognition experiment in car. We used hidden Markov model by speech recognition algorithm to compare this words' recognition performance.

  • PDF

음성/영상 연동성능 향상을 위한 입술움직임 영상 추적 테스트 환경 구축 (A Lip Movement Image Tracing Test Environment Build-up for the Speech/Image Interworking Performance Enhancement)

  • 이수종;박준;김응규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.328-329
    • /
    • 2007
  • 본 논문은 로봇과 같이 외부 음향잡음에 노출되어 있는 상황 하에서, 대면하고 있는 사람이 입술을 움직여 발성하는 경우에만 음성인식 기능이 수행되도록 하기 위한 방안의 일환으로, 입술움직임 영상을 보다 정확히 추적하기 위한 테스트 환경 구현에 관한 것이다. 음성구간 검출과정에서 입술움직임 영상 추적결과의 활용여부는 입술움직임을 얼마나 정확하게 추적할 수 있느냐에 달려있다. 이를 위해 영상 프레임율 동적 제어, 칼라/이진영상 변환, 순간 캡쳐, 녹화 및 재생기능을 구현함으로써, 다각적인 방향에서 입술움직임 영상 추적기능을 확인해 볼 수 있도록 하였다. 음성/영상기능을 연동시킨 결과 약 99.3%의 연동성공율을 보였다.

  • PDF

Improved Leakage Signal Blocking Methods for Two Channel Generalized Sidelobe Canceller

  • Kim, Ki-Hyeon;Ko, Han-Seok
    • 음성과학
    • /
    • 제13권1호
    • /
    • pp.117-128
    • /
    • 2006
  • The two-channel Generalized Sidelobe Canceller (GSC) scheme suffers from the presence of leakage signal in the reference channel. The leakage signal is caused by the dissimilar impulse responses between microphones, and different paths from speech source to microphones. Such leakage is detrimental to speech enhancement of the GSC since the desired reference signal becomes corrupted. In order to suppress the signal leakage, two matrix injection methods are proposed. In the first method, a simple gain compensation matrix is used. In the second, a projection matrix for reducing the error between the actual and the ideal primary and reference signals, is used. This paper describes the performance degradation resulting from leakage, and proposes effective methods to resolve the problem. Representative experiments were conducted to demonstrate the effectiveness of the proposed methods on recorded speech and noise in an actual automobile environment.

  • PDF

A SPECTRAL SUBTRACTION USING PHONEMIC AND AUDITORY PROPERTIES

  • Kang, Sun-Mee;Kim, Woo-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제4권2호
    • /
    • pp.5-15
    • /
    • 1998
  • This paper proposes a speech state-dependent spectral subtraction method to regulate the blind spectral subtraction for improved enhancement. In the proposed method, a modified subtraction rule is applied over the speech selectively contingent to the speech state being voiced or unvoiced, in an effort to incorporate the acoustic characteristics of phonemes. In particular, the objective of the proposed method is to remedy the subtraction induced signal distortion attained by two state-dependent procedures, spectrum sharpening and minimum spectral bound. In order to remove the residual noise, the proposed method employs a procedure utilizing the masking effect. Proposed spectral subtraction including state-dependent subtraction and residual noise reduction using the masking threshold shows effectiveness in compensation of spectral distortion in the unvoiced region and residual noise reduction.

  • PDF

CASA 기반의 마이크간 전달함수 비 추정 알고리즘 (CASA Based Approach to Estimate Acoustic Transfer Function Ratios)

  • 신민규;고한석
    • 한국음향학회지
    • /
    • 제33권1호
    • /
    • pp.54-59
    • /
    • 2014
  • 본 논문은 비정상 (nonstationary)특성을 가지는 잡음환경에서 마이크간 전달함수 비 (RTF, Relative Transfer Function) 추정 알고리즘을 제안한다. 음성을 이용한 다양한 기기에 다중 마이크를 이용한 잡음제거 기술은 널리 사용되며, 이때 각 마이크간의 입력 신호 사이의 관계는 필수적으로 추정되어야 한다. 본 논문에서는 기존의 OM-LSA(Optimally-Modified Log-Spectral Amplitude)기반의 추정 방식에 CASA (Computational Auditory Scene Analysis)를 접목시킨 방식을 제안한다. 제안한 방법의 성능 검증을 위하여 비정상 백색 잡음 (nonstationary white Gaussian noise) 환경에서 10명 화자 발음을 이용한 마이크간 전달함수 비 추정 성능 평가 실험을 수행하였다. 잡음 신호가 초당 8dB 증감하는 환경에서 SBF (Signal Blocking Factor)가 평균 2.65dB 개선됨을 확인하였다.

환경인식 기반의 향상된 Minimum Statistics 잡음전력 추정기법 (Improved Minimum Statistics Based on Environment-Awareness for Noise Power Estimation)

  • 손영호;최재훈;장준혁
    • 한국음향학회지
    • /
    • 제30권3호
    • /
    • pp.123-128
    • /
    • 2011
  • 본 논문에서는 다양한 잡음 환경에서 음성향상을 위한 Minimum Statistics (MS) 잡음전력 추정 기법을 제시한다. 기존의 방법에서는 최소값 추적을 위해서 유한한 서치 (search)윈도우를 사용하여 최적으로 신호의 파워 스펙트럼을 수무딩하고 최소 확률을 적용하는 것을 기본으로 한다. 본 논문에서 제안된 알고리즘은 기존의 최소값 서치 윈도우가 다양한 잡음 환경에 상관없이 고정된 사이즈를 사용하는 것에 환경인식 정보를 적용하여 서치 윈도우 사이즈가 Gaussian mixture model(GMM)기반의 잡음 분류 알고리즘을 이용한 결과 값의 비교로 잡음 환경에 따라 변화 하도록 한다. 제안된 음성 향상 기법은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)를 이용하여 평가하였고 기존의 MS방법보다 향상된 결과를 보였다.