• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.025초

잡음환경에서 Teager 에너지와 음성부재확률 기반의 음성향상 알고리즘 (Speech Enhancement Algorithm Based on Teager Energy and Speech Absence Probability in Noisy Environments)

  • 박윤식;안홍섭;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.81-88
    • /
    • 2012
  • 본 논문에서는 다양한 잡음환경에서 효과적인 잡음 제거 (NS, noise suppression)를 위한 새로운 음성향상 (speech enhancement) 알고리즘을 제안한다. 제안된 방법에서는 음성향상 알고리즘에서 잡음전력 갱신을 위한 음성검출 (VAD, voice activity detection)의 피쳐 (feature) 파라미터로서 오염된 음성신호를 기반으로 주파수 밴드 별로 도출되는 기존의 지역 음성부재확률 (LSAP, local speech absecne probability) 대신 오염된 음성신호의 Teager energy (TE)를 적용한 LSAP를 적용한다. 또한 적용된 TE operator의 성능을 개선하기 위하여 프레임 단위로 도출되는 전역 음성부재확률 (GSAP, global SAP)을 TE의 가중치 파라미터로서 적용한다. 제안된 알고리즘은 기존의 방법과 객관적인 실험을 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

청각기강의 모델을 이용한 음성강조 시스템 (Speech Enhancement System Using a Model of Auditory Mechanism)

  • 최재승
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.295-302
    • /
    • 2004
  • 음성 신호처리의 분야에서 잡음처리의 문제는 지금도 중요한 연구 과제이다. 특히 배경잡음이 음성의 인식율을 현저히 저하시키는 것은 오래 전부터 주목 받고 있다. 배경잡음으로는 실제 환경에 존재하는 비정상적인 다양한 잡음, 예를 들면 도로에서의 자동차의 주행잡음, 프린터의 구동잡음 등이 있다. 이런 종류에 대한 잡음 대책은 단순하지 않고, 종래의 위너 필터(Wiener filter) 등에 의한 선형적인 잡음제거 법보다도, 보다 고도한 잡음억제 기술이 필요하다. 본 논문에서는, 이러한 방법의 한 가지 시도로써 백색잡음 및 위에 기술한 비정상적인 배경잡음에 의해 열화된 음성을 상호억제로 불리는 인간의 청각기관에서의 잡음억제 기능 모델을 사용하여 음성강화 법의 알고리즘을 소개한다. 제안된 알고리즘은 스펙트럴 왜곡(SD)의 평가방법을 통하여 백색잡음 및 유색잡음에 대해서 효과적인 것을 보여준다.

임베디드 연산을 위한 잡음에서 음성추출 U-Net 설계 (Design of Speech Enhancement U-Net for Embedded Computing)

  • 김현돈
    • 대한임베디드공학회논문지
    • /
    • 제15권5호
    • /
    • pp.227-234
    • /
    • 2020
  • In this paper, we propose wav-U-Net to improve speech enhancement in heavy noisy environments, and it has implemented three principal techniques. First, as input data, we use 128 modified Mel-scale filter banks which can reduce computational burden instead of 512 frequency bins. Mel-scale aims to mimic the non-linear human ear perception of sound by being more discriminative at lower frequencies and less discriminative at higher frequencies. Therefore, Mel-scale is the suitable feature considering both performance and computing power because our proposed network focuses on speech signals. Second, we add a simple ResNet as pre-processing that helps our proposed network make estimated speech signals clear and suppress high-frequency noises. Finally, the proposed U-Net model shows significant performance regardless of the kinds of noise. Especially, despite using a single channel, we confirmed that it can well deal with non-stationary noises whose frequency properties are dynamically changed, and it is possible to estimate speech signals from noisy speech signals even in extremely noisy environments where noises are much lauder than speech (less than SNR 0dB). The performance on our proposed wav-U-Net was improved by about 200% on SDR and 460% on NSDR compared to the conventional Jansson's wav-U-Net. Also, it was confirmed that the processing time of out wav-U-Net with 128 modified Mel-scale filter banks was about 2.7 times faster than the common wav-U-Net with 512 frequency bins as input values.

유성음/무성음 분리를 이용한 잡음처리 (Speech Enhancement Based on Voice/Unvoice Classification)

  • 유창동
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.374-379
    • /
    • 2002
  • 본 논문에서는 유성음/무성음 분리를 이용하여 잡음처리를 한다. 유성음과 무성음은 음성의 하나의 중요한 특징으로 유성음과 무성음 부분에 각각 같은 잡음처리기법을 삼는 것이 아니라 각각의 성질을 고려하여 잡음처리를 하였다. 유성음/무성음의 분리는 영 교차율과 에너지를 이용하여 구해 졌으며, 유성음/무성음 분리정보를 토대로 하여 변형된 음성/잡음우세결정방법을 제안하였다. 제안된 방법은 백색 잡음과 비행기 잡음에 오염된 음성문장에 대해 성능평가가 이루어졌다. 그리고 다양한 입력 신호대잡음비 (SNR)로 오염된 문장에 대해 세그멘탈 신호대잡음비를 구하고, 듣기 평가를 통해 기존의 방법보다 향상된 성능을 가짐을 알 수 있다.

보청기를 위한 배경 잡음 제거 기법의 성능 평가 (Performance Evaluation of Environmental Noise Reduction Techniques or Hearing Aids)

  • 박선준;도원;신승우;윤대희;김동욱;박영철
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1997년도 추계학술대회
    • /
    • pp.83-86
    • /
    • 1997
  • To provide ameliorated aided environment to hearing impaired listeners, background noise reduction techniques are investigated as a front-end of conventional hearing aids, and their effects are tested in a subjective manner. Several speech enhancement schemes were implemented and preference tests or normal listeners are performed to select the best possible scheme or hearing impaired listeners. Results indicated that SDT scores without the speech enhancement scheme drop more sharply as SNR decreases than those with the speech enhancement techniques. SDT scores obtained or hearing impaired listeners with hearing aids showed large variability. However, all impaired listeners preferred noise suppressed sounds to unsuppressed ones.

  • PDF

강인한 화자 확인을 위한 히스토그램 개선 기법 (Histogram Enhancement for Robust Speaker Verification)

  • 최재길;권철홍
    • 대한음성학회지:말소리
    • /
    • 제63호
    • /
    • pp.153-170
    • /
    • 2007
  • It is well known that when there is an acoustic mismatch between the speech obtained during training and testing, the accuracy of speaker verification systems drastically deteriorates. This paper presents the use of MFCCs' histogram enhancement technique in order to improve the robustness of a speaker verification system. The technique transforms the features extracted from speech within an utterance such that their statistics conform to reference distributions. The reference distributions proposed in this paper are uniform distribution and beta distribution. The transformation modifies the contrast of MFCCs' histogram so that the performance of a speaker verification system is improved both in the clean training and testing environment and in the clean training and noisy testing environment.

  • PDF

A Study on the Design of Integrated Speech Enhancement System for Hands-Free Mobile Radiotelephony in a Car

  • Park, Kyu-Sik;Oh, Sang-Hun
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권2E호
    • /
    • pp.45-52
    • /
    • 1999
  • This paper presents the integrated speech enhancement system for hands-free mobile communication. The proposed integrated system incorporates both acoustic echo cancellation and engine noise reduction device to provide signal enhancement of desired speech signal from the echoed plus noisy environments. To implement the system, a delayless subband adaptive structure is used for acoustic echo cancellation operation. The NLMS based adaptive noise canceller then applied to the residual echo removed noisy signal to achieve the selective engine noise attenuation in dominant frequency component. Two sets of computer simulations are conducted to demonstrate the effectiveness of the system; one for the fixed acoustical environment condition, the other for the robustness of the system in which, more realistic situation, the acoustic transmission environment change. Simulation results confirm the system performance of 20-25dB ERLE in acoustic echo cancellation and 9-19 dB engine noise attenuation in dominant frequency component for both cases.

  • PDF

특징 강화 방법의 앙상블을 이용한 화자 식별 (Speaker Identification Using an Ensemble of Feature Enhancement Methods)

  • 양일호;김민석;소병민;김명재;유하진
    • 말소리와 음성과학
    • /
    • 제3권2호
    • /
    • pp.71-78
    • /
    • 2011
  • In this paper, we propose an approach which constructs classifier ensembles of various channel compensation and feature enhancement methods. CMN and CMVN are used as channel compensation methods. PCA, kernel PCA, greedy kernel PCA, and kernel multimodal discriminant analysis are used as feature enhancement methods. The proposed ensemble system is constructed with the combination of 15 classifiers which include three channel compensation methods (including 'without compensation') and five feature enhancement methods (including 'without enhancement'). Experimental results show that the proposed ensemble system gives highest average speaker identification rate in various environments (channels, noises, and sessions).

  • PDF

시간-주파수 영역에서 음성/잡음 우세 결정에 의한 새로운 잡음처리 (A Novel Speech Enhancement Based on Speech/Noise-dominant Decision in Time-frequency Domain)

  • 윤석현;유창동
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.48-55
    • /
    • 2001
  • 가산적이고 비정상적인 잡음을 줄이는 새로운 방법이 제안되었다. 본 방법은 잡음에 대한 정보나 묵음구간에서의 잡음추정을 필요로 하지 않는다. 잡음처리는 각 시간 프레임에서 주파수대역을 기본으로 하여 수행된다. 어떤 프레임에서 특정한 주파수대역이 음성이 우세한지 혹은 잡음이 우세한지에 대한 결정과 인간청각기의 매스킹 성질을 기반으로 하여, 적절한 양의 잡음을 주파수 차감법을 이용하여 제거한다. 제안된 방법은 다양한 환경에서 (자동차 잡음, Fl6 잡음, 백색 잡음, 핑크 잡음, 탱크 잡음, 혼선잡음) 성능평가가 이루어졌다. 그리고 일반적인 주파수차감법과 비교하여 세그멘탈 신호대 잡음비 (SNR)를 구하고, 시각적 측정 척도인 스펙트로그램과 듣기평가를 통해, 음성왜곡은 줄이면서 효과적으로 잡음을 줄일 수 있음을 알 수 있다.

  • PDF

잡음 데이터를 활용한 음성 기저 행렬과 NMF 기반 음성 향상 기법 (Speech Basis Matrix Using Noise Data and NMF-Based Speech Enhancement Scheme)

  • 권기수;김형용;김남수
    • 한국통신학회논문지
    • /
    • 제40권4호
    • /
    • pp.619-627
    • /
    • 2015
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 그 중에서도 음성향상의 성능은 사용하게 되는 기저 행렬에 따라 크게 달라짐을 보인다. 기존의 독립적으로 구한 음성 기저 행렬에 비해서, 잡음 데이터를 복원하는데 부적합한 방향으로 최적화시킨 음성 기저 행렬을 사용하였을 때 더 높은 음성향상 성능을 보임을 실험으로 확인하였다. 이 때 잡음 데이터의 복원 오차 자체를 크게 해주는 방향과 해당 인코딩 행렬(encoding matrix) 원소의 값을 작게 해주는 두 가지 방법을 적용하여 비교하였다. 좀 더 음성 복원에만 특화된 기저 행렬을 구함으로서 음성 기저 행렬이 잡음 데이터 복원에 사용되는 것을 최소화 하였다. 실험 결과에서는 perceptual evaluation speech quality값과 signal to distortion ratio를 지표로 사용하였고, 기존 기법에서 사용하는 기저 행렬 보다 더 높은 성능을 보임을 확인 하였다.