• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.031초

시간 변화에 따른 사전 정보와 이득 함수를 적용한 NMF 기반 음성 향상 기법 (A NMF-Based Speech Enhancement Method Using a Prior Time Varying Information and Gain Function)

  • 권기수;진유광;배수현;김남수
    • 한국통신학회논문지
    • /
    • 제38C권6호
    • /
    • pp.503-511
    • /
    • 2013
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 이 때 훈련으로부터, 시간 흐름에 따른 기저 사용량의 변화량을 각기 독립적인 가우시안 모델들로 만들고, 이를 이용하여 매 시간 프레임에서 주어진 모델들에 일정 가중치만큼 가까워지는 방향으로 최적화를 수행하였다. 또한 매 시간 얻은 NMF의 부호화 행렬의 결과를 이전 시간 프레임의 부호화 행렬 값과 평활화(smoothing) 과정을 수행하였다. 향상 과정에서는 Log-spectral Amplitude를 이용하여 이득(gain) 함수를 구하였다. 실험 결과에서는 PESQ 값을 지표로 사용하였고, 기존의 NMF를 이용한 음성 향상 보다 이 두 과정을 적용한 방법이 뛰어남을 확인 했다.

복소 스펙트럼 기반 음성 향상의 성능 향상을 위한 time-frequency self-attention 기반 skip-connection 기법 연구 (A study on skip-connection with time-frequency self-attention for improving speech enhancement based on complex-valued spectrum)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제42권2호
    • /
    • pp.94-101
    • /
    • 2023
  • 음성 향상에서 많이 사용되는 U-Net과 같이 인코더와 디코더로 구성된 심층 신경망 모델은 skip-connection을 통해 인코더의 특징을 디코더에 연결하는 구조로 구성되어 있다. Skip-connection은 디코더에서 향상된 스펙트럼을 재구성하는데 도움을 주며 인코더를 통해 손실된 정보를 보완해줄 수 있다. 이때 skip-connection을 통해 연결되는 인코더의 특징과 디코더의 특징의 의미는 서로 다르다. 본 논문에서는 복소 스펙트럼 기반 음성 향상의 성능 향상을 위해 디코더에 연결되는 인코더의 특징을 디코더 특징의 의미에 가깝게 변환해주도록 skip-connection에 Self-Attention(SA)을 적용하는 방안을 연구하였다. SA는 시퀀스-시퀀스 문제에서 출력 시퀀스를 생성할 때, 입력 시퀀스의 가중 산술 평균을 이용하여 결정적인 부분을 집중해서 볼 수 있도록 하는 기법으로, 음성 향상 분야에서도 이를 적용함으로써 성능 향상에 효과적임을 입증하는 연구가 진행되었다. SA를 skip-connection에 적용하기 위해 인코더 특징과 디코더 특징을 이용하는 총 3가지의 방법에 대해 연구하였다. TIMIT 데이터베이스를 이용한 음성 향상 실험 결과, 제안하는 방법이 기존 skip-connection으로만 연결된 Deep Complex U-Net(DCUNET)과 비교하여 모든 성능 평가 지표에서 향상된 결과를 보였다.

비정상 잡음환경에서 음질향상을 위한 적응 임계 치 알고리즘 (Adaptive Threshold for Speech Enhancement in Nonstationary Noisy Environments)

  • 이수정;김순협
    • 한국음향학회지
    • /
    • 제27권7호
    • /
    • pp.386-393
    • /
    • 2008
  • 본 논문에서는 비정상 잡음환경에서 음질향상을 위한 새로운 방법을 제안한다. 정상 잡음환경에서 음질향상을 위한 잡음제거 방법으로 주파수 차감법이 잘 알려져 있다. 그러나 실제 잡음환경은 대 부분 비정상적인 특성을 나타낸다. 제안한 방법은 다양한 잡음 과 비정상 환경에서 잘 동작 할 수 있도록 적응 임계 치를 위한 자동제어 파라미터를 사용한다. 특히, 자동제어 파라미터는 a posteriori SNR을 이용한 선형함수를 적용하여 잡음레벨의 증감에 따라 적응 임계 치를 제어한다. 제안한 알고리즘은 음질향상을 위해 Hangover (HO)을 이용한 주파수 차감법과 결합한다. 알고리즘의 성능은 다양한 잡음환경에서 ITU-T P.835 signal distortion (SIG)와 segment signal to-noise ratio (SNR)로 평가하여 (HO)을 이용한 음성검출과 minimum statistics (MS) 방법에 비해 우수한 결과를 나타냈다

차량환경에서 음성명령어기 사용을 위한 음성개선방법 (Speech Enhancement for Voice commander in Car environment)

  • 백승권;한민수;남승현;이봉호;함영권
    • 방송공학회논문지
    • /
    • 제9권1호
    • /
    • pp.9-16
    • /
    • 2004
  • 본 논문에서는 차량용 음성명령어기의 사용을 위한 전처리 과정으로 음성개선 방법을 다룬다 특히 보다 주위 소음에 자유롭고 단말 조작에 있어 안정성을 보장하기 위하여 일반적 단일 마이크로폰으로 처리되는 잡음뿐만 아니라 음성명령어를 제외한 오디오 신호 등 비정적 통계적 특성을 갖는 소음들도 제거 될 수 있도록 음성개선 방법을 제안한다. 우리는 2개의 마이크로폰을 가지고 BSS 알고리즘을 적용하여 비정적 신호들을 분리하고, 분리된 신호에 대하여 Kalman 필터를 이용하여 시간상 단구간 정적 잡음을 제거한다. 인식 실험 결과를 통하여 공간적, 시간적 음성개선 방법이 순차적으로 적용될 때, 실제 차량 환경에서 음성 개선 알고리즘으로 적용될 수 있음을 보였다.

시간 연속성을 갖는 비음수 행렬 분해를 이용한 음질 개선 (Speech Enhancement Using Nonnegative Matrix Factorization with Temporal Continuity)

  • 남승현
    • 한국음향학회지
    • /
    • 제34권3호
    • /
    • pp.240-246
    • /
    • 2015
  • 본 논문은 시간 연속성을 갖는 비음수 행렬 분해(Nonnegative Matrix Factorization, NMF)를 이용하여 잡음에 열화된 음성 신호의 음질을 개선하는 문제를 다룬다. 음성과 잡음 신호는 포아송 분포로 모델되며, NMF의 기본 벡터와 이득 벡터는 감마 분포로 모델된다. 이득 벡터의 시간 연속성은 음질 개선에 중요한 영향을 미치는 것으로 알려져 있다. 본 논문에서 시간의 연속성은 이득 벡터를 감마-마르코프 연쇄(Gamma-Markov chain, GMC) 사전 분포로 모델함으로써 이루어진다. 실험 결과는 제안된 알고리즘이 잡음 신호의 시간 연속성을 효과적으로 모델하는 것을 보여준다.

상호억제와 시간지연 신경회로망을 사용한 적응적인 음성강조시스템 (An Adaptive Speech Enhancement System Using Lateral Inhibition and Time-Delay Neural Network)

  • 최재승
    • 대한전자공학회논문지SP
    • /
    • 제45권2호
    • /
    • pp.95-102
    • /
    • 2008
  • 본 논문에서는 다양한 배경잡음에 의해 열화된 음성을 강조하기 위하여 청각시스템을 기초로 한 적응적인 음성강조시스템을 제안한다. 제안한 시스템은 먼저 유성음과 무성음의 구간을 검출한 후, 각 입력 프레임에서 검출된 결과에 따라서 상호억제 계수와 진폭성분조정계수를 적응적으로 조정한다. 마지막으로 시간지연신경회로망을 사용하여 잡음신호를 제거한다. 실험결과 본 시스템은 신호대잡음비의 평가방법을 통하여 다양한 잡음에 의해서 열화된 음성신호를 백색잡음 및 유색잡음에 대해서 효과적인 것을 보여준다.

좌-우향 은닉 마코프 모델에서 상태결정을 이용한 음질향상 (Efficient Speech Enhancement based on left-right HMM with State Sequence Decision Using LRT)

  • 이기용
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.47-53
    • /
    • 2004
  • 본 논문에서는 좌-우향은닉 마코프 모델 (Left-Right Hidden Markov Model)에서 상태결정을 갖는 음성향상방법을 제안하였다. 은닉 마코프 모델에 기초를 둔 음질향상 방법은 성능은 우수하나, 모든 상태에 대해서 음질향상 알고리즘을 계산하므로, 계산량이 많고, 메모리가 많이 필요하여 실시간 처리에 부적절하다. 좌-우향 은닉 마코프 모델은 마코프 모델을 좌측에서 우측으로의 전이만 허용하는 모델로 단순화시켜 현재 상태에서 현재 상태나 다음 상태로 전이될 수 있는 특성을 가지고 있다. 본 논문에서는, 좌-우향 은닉 마코프 모델에서 유사도비 테스트 (Log-Likelihood Ratio Test)를 이용하여 현재 음성의 상태를 결정하는 알고리즘을 제안하였다. 현재 음성의 상태를 알고 있다면, 현재 상태에 대해서만 음질향상 알고리즘을 계산하므로, 계산량이 줄어든다. 제안된 방법의 성능 평가를 위하여 음질 향상 시간과 신호 대 잡음비를 비교하였다. 제안된 방법은 기존의 방법에 비해 음질향상의 결과는 약 0.2∼0.4 dB 정도 떨어졌지만, 계산량을 많이 줄일 수 있었다.

주파수 영역 심층 신경망 기반 음성 향상을 위한 실수 네트워크와 복소 네트워크 성능 비교 평가 (Performance comparison evaluation of real and complex networks for deep neural network-based speech enhancement in the frequency domain)

  • 황서림;박성욱;박영철
    • 한국음향학회지
    • /
    • 제41권1호
    • /
    • pp.30-37
    • /
    • 2022
  • 본 논문은 주파수 영역에서 심층 신경망 기반 음성 향상 모델 학습을 위하여 학습 대상과 네트워크 구조에 따라 두 가지 관점에서 성능을 비교 평가한다. 이때, 학습 대상으로는 스펙트럼 매핑과 Time-Frequency(T-F) 마스킹 기법을 사용하였고 네트워크 구조는 실수 네트워크와 복소 네트워크를 사용하였다. 음성 향상 모델의 성능은 데이터 셋 규모에 따라 Perceptual Evaluation of Speech Quality(PESQ)와 Short-Time Objective Intelligibility(STOI) 두 가지 객관적 평가지표를 통해 평가하였다. 실험 결과, 네트워크의 종류와 데이터 셋 종류에 따라 적정한 훈련 데이터의 크기가 다르다는 것을 확인하였다. 또한, 데이터의 크기와 학습 대상에 따라 복소 네트워크보다 실수 네트워크가 비교적 높은 성능을 보이기 때문에 총 파라미터의 수를 고려한다면 경우에 따라 실수 네트워크를 사용하는 것이 보다 현실적인 해결책일 수 있다는 것을 확인하였다.

Noise Suppression Using Normalized Time-Frequency Bin Average and Modified Gain Function for Speech Enhancement in Nonstationary Noisy Environments

  • Lee, Soo-Jeong;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • 제27권1E호
    • /
    • pp.1-10
    • /
    • 2008
  • A noise suppression algorithm is proposed for nonstationary noisy environments. The proposed algorithm is different from the conventional approaches such as the spectral subtraction algorithm and the minimum statistics noise estimation algorithm in that it classifies speech and noise signals in time-frequency bins. It calculates the ratio of the variance of the noisy power spectrum in time-frequency bins to its normalized time-frequency average. If the ratio is greater than an adaptive threshold, speech is considered to be present. Our adaptive algorithm tracks the threshold and controls the trade-off between residual noise and distortion. The estimated clean speech power spectrum is obtained by a modified gain function and the updated noisy power spectrum of the time-frequency bin. This new algorithm has the advantages of simplicity and light computational load for estimating the noise. This algorithm reduces the residual noise significantly, and is superior to the conventional methods.

웨이브렛 변환을 이용한 음성신호의 잡음제거 (Denoising of Speech Signal Using Wavelet Transform)

  • 한미경;배건성
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.27-34
    • /
    • 2000
  • This paper deals with speech enhancement methods using the wavelet transform. A cycle-spinning scheme and undecimated wavelet transform are used for denoising of speech signals, and then their results are compared with that of the conventional wavelet transform. We apply soft-thresholding technique for removing additive background noise from noisy speech. The symlets 8-tap wavelet and pyramid algorithm are used for the wavelet transform. Performance assessments based on average SNR, cepstral distance and informal subjective listening test are carried out. Experimental results demonstrate that both cycle-spinning denoising(CSD) method and undecimated wavelet denoising(CWD) method outperform conventional wavelet denoising(UWD) method in objective performance measure as welt as subjective listening test. The two methods also show less "clicks" that usually appears in the neighborhood of signal discontinuities.

  • PDF