• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.024초

Noise Estimation based on Standard Deviation and Sigmoid Function Using a Posteriori Signal to Noise Ratio in Nonstationary Noisy Environments

  • Lee, Soo-Jeong;Kim, Soon-Hyob
    • International Journal of Control, Automation, and Systems
    • /
    • 제6권6호
    • /
    • pp.818-827
    • /
    • 2008
  • In this paper, we propose a new noise estimation and reduction algorithm for stationary and nonstationary noisy environments. This approach uses an algorithm that classifies the speech and noise signal contributions in time-frequency bins. It relies on the ratio of the normalized standard deviation of the noisy power spectrum in time-frequency bins to its average. If the ratio is greater than an adaptive estimator, speech is considered to be present. The propose method uses an auto control parameter for an adaptive estimator to work well in highly nonstationary noisy environments. The auto control parameter is controlled by a linear function using a posteriori signal to noise ratio(SNR) according to the increase or the decrease of the noise level. The estimated clean speech power spectrum is obtained by a modified gain function and the updated noisy power spectrum of the time-frequency bin. This new algorithm has the advantages of much more simplicity and light computational load for estimating the stationary and nonstationary noise environments. The proposed algorithm is superior to conventional methods. To evaluate the algorithm's performance, we test it using the NOIZEUS database, and use the segment signal-to-noise ratio(SNR) and ITU-T P.835 as evaluation criteria.

Improved Melody Recognition Performance of a Cochlear Implant Speech Processing Strategy Using Instantaneous Frequency Encoding Based on Teager Energy Operator

  • Choi, Sung-Jin;Ryu, Sang-Baek;Kim, Kyung-Hwan
    • 대한의용생체공학회:의공학회지
    • /
    • 제31권6호
    • /
    • pp.417-426
    • /
    • 2010
  • We present a speech processing strategy incorporating instantaneous frequency (IF) encoding for the enhancement of melody recognition performance of cochlear implants. For the IF extraction from incoming sound, we propose the use of a Teager energy operator (TEO), which is advantageous for its lower computational load. From time-frequency analysis, we verified that the TEO-based method provides proper IF encoding of input sound, which is crucial for melody recognition. Similar benefit could be obtained also from the use of a Hilbert transform (HT), but much higher computational cost was required. The melody recognition performance of the proposed speech processing strategy was compared with those of a conventional strategy using envelope extraction, and the HT-based IF encoding. Hearing tests on normal subjects were performed using acoustic simulation and a musical contour identification task. Insignificant difference in melody recognition performance was observed between the TEO-based and HT-based IF encodings, and both were superior to the conventional strategy. However, the TEO-based strategy was advantageous considering that it was approximately 35% faster than the HT-based strategy.

낮은 신호 대 잡음비 환경에서의 퍼지 소속도 천이 C-means 클러스터링을 이용한 음성구간 검출 알고리즘 (Voice Activity Detection Algorithm using Fuzzy Membership Shifted C-means Clustering in Low SNR Environment)

  • 이기현;이윤정;조진호;김명남
    • 한국멀티미디어학회논문지
    • /
    • 제17권3호
    • /
    • pp.312-323
    • /
    • 2014
  • 음성구간 검출은 음성과 잡음이 섞인 신호에서 음성과 잡음이 섞인 신호에서 음성구간을 찾는 과정으로 잡음제거나 음성 향상을 위한 신호처리에서 매우 중요한 과정이다. 지금까지 음성구간 검출에 관한 많은 연구가 있었지만, 낮은 신호 대 잡음비 환경에서 문장형태의 음성신호에 대해서는 좋은 성능을 보이지 못하였다. 본 논문에서는 신호의 엔트로피를 이용한 초기 VAD과정을 거친 후, 퍼지 소속도 천이 c-means 클러스터링 방법을 이용해 주 VAD과정을 거치는 새로운 VAD알고리즘을 제안한다. 제안한 알고리즘의 성능을 비교 평가하기 위하여 백색잡음의 다양한 신호 대 잡음비 환경에서 실험을 수행하였으며 실험결과, 제안한 방법의 우수한 성능을 확인할 수 있었다.

음성활동영역검색을 사용하는 유색잡음에 오염된 음성의 향상을 위한 일반화 부공간 접근 (A Generalized Subspace Approach for Enhancing Speech Corrupted by Colored Noise Using Voice Activity Detector(VAD))

  • 손경식;김현태
    • 한국정보통신학회논문지
    • /
    • 제17권8호
    • /
    • pp.1769-1776
    • /
    • 2013
  • 본 논문에서는 유색잡음에 의해 오염된 음성신호의 음성향상 알고리즘인 YL 접근법에 VAD(voice activity detector)를 구현하는 수정된 알고리즘을 제안한다. 제안한 알고리즘을 YL 접근법 및 LS 접근법과 컴퓨터 시뮬레이션으로 성능을 비교하였다. 사용한 유색잡음은 자동차 잡음과 다중화자 배블 잡음으로 AURORA 데이터베이스로 부터 각각 발췌하였고, 음성신호는 TIMIT 데이터 베이스로부터 발췌하였다. 제안한 알고리즘을 실험했을 때 제안하는 방법이 신호대잡음비 및 스펙트럼 왜곡 측면에서 기존의 두 알고리즘 보다 개선됨을 확인하였다.

빔포밍 및 DOA 기반의 마스킹을 이용한 2채널 잡음제거 (Two-Channel Noise Reduction Using Beamforming and DOA-Based Masking)

  • 김영일;정상배
    • 한국정보통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.32-40
    • /
    • 2013
  • 본 논문에서는 빔포밍과 입사각분석 기반 마스킹을 이용한 다채널 음성개선 알고리즘이 제안된다. 제안된 알고리즘에서는 LCMV 빔포밍을 수행한 후에 입사각 분석을 이용한 멜-주파수 위너필터가 적용되어 잔존하는 잡음을 제거한다. 성능 향상을 위해서 빔포밍의 적응 필터 학습률과 목표 음성 스펙트럼 검출을 위한 입사각 임계치가 최적화된다. 성능 지수로서 PESQ와 출력 SNR이 측정되었으며 실험 결과 제안한 알고리즘이 종전의 최소분산 빔포밍 기법보다 PESQ 관점에서 0.09, 출력 SNR 관점에서 5.75 dB의 성능 향상시킴을 알 수 있었다.

Enhancement of Processing Capabilities of Hippocampus Lobe: A P300 Based Event Related Potential Study

  • Benet, Neelesh;Krishna, Rajalakshmi;Kumar, Vijay
    • 대한청각학회지
    • /
    • 제25권3호
    • /
    • pp.119-123
    • /
    • 2021
  • Background and Objectives: The influence of music training on different areas of the brain has been extensively researched, but the underlying neurobehavioral mechanisms remain unknown. In the present study, the effects of training for more than three years in Carnatic music (an Indian form of music) on the discrimination ability of different areas of the brain were tested using P300 analysis at three electrode placement sites. Subjects and Methods: A total of 27 individuals, including 13 singers aged 16-30 years (mean±standard deviation, 23±3.2 years) and 14 non-singers aged 16-30 years (mean age, 24±2.9 years), participated in this study. The singers had 3-5 years of formal training experience in Carnatic music. Cortical activities in areas corresponding to attention, discrimination, and memory were tested using P300 analysis, and the tests were performed using the Intelligent Hearing System. Results: The mean P300 amplitude of the singers at the Fz electrode placement site (5.64±1.81) was significantly higher than that of the non-singers (3.85±1.60; t(25)=3.3, p<0.05). The amplitude at the Cz electrode placement site in singers (5.90±2.18) was significantly higher than that in non-singers (3.46±1.40; t(25)=3.3, p<0.05). The amplitude at the Pz electrode placement site in singers (4.94±1.89) was significantly higher than that in non-singers (3.57±1.50; t(25)=3.3, p<0.05). Among singers, the mean P300 amplitude was significantly higher in the Cz site than the other placement sites, and among non-singers, the mean P300 amplitude was significantly higher in the Fz site than the other placement sites, i.e., music training facilitated enhancement of the P300 amplitude at the Cz site. Conclusions: The findings of this study suggest that more than three years of training in Carnatic singing can enhance neural coding to discriminate subtle differences, leading to enhanced discrimination abilities of the brain, mainly in the generation site corresponding to Cz electrode placement.

Enhancement of Processing Capabilities of Hippocampus Lobe: A P300 Based Event Related Potential Study

  • Benet, Neelesh;Krishna, Rajalakshmi;Kumar, Vijay
    • Journal of Audiology & Otology
    • /
    • 제25권3호
    • /
    • pp.119-123
    • /
    • 2021
  • Background and Objectives: The influence of music training on different areas of the brain has been extensively researched, but the underlying neurobehavioral mechanisms remain unknown. In the present study, the effects of training for more than three years in Carnatic music (an Indian form of music) on the discrimination ability of different areas of the brain were tested using P300 analysis at three electrode placement sites. Subjects and Methods: A total of 27 individuals, including 13 singers aged 16-30 years (mean±standard deviation, 23±3.2 years) and 14 non-singers aged 16-30 years (mean age, 24±2.9 years), participated in this study. The singers had 3-5 years of formal training experience in Carnatic music. Cortical activities in areas corresponding to attention, discrimination, and memory were tested using P300 analysis, and the tests were performed using the Intelligent Hearing System. Results: The mean P300 amplitude of the singers at the Fz electrode placement site (5.64±1.81) was significantly higher than that of the non-singers (3.85±1.60; t(25)=3.3, p<0.05). The amplitude at the Cz electrode placement site in singers (5.90±2.18) was significantly higher than that in non-singers (3.46±1.40; t(25)=3.3, p<0.05). The amplitude at the Pz electrode placement site in singers (4.94±1.89) was significantly higher than that in non-singers (3.57±1.50; t(25)=3.3, p<0.05). Among singers, the mean P300 amplitude was significantly higher in the Cz site than the other placement sites, and among non-singers, the mean P300 amplitude was significantly higher in the Fz site than the other placement sites, i.e., music training facilitated enhancement of the P300 amplitude at the Cz site. Conclusions: The findings of this study suggest that more than three years of training in Carnatic singing can enhance neural coding to discriminate subtle differences, leading to enhanced discrimination abilities of the brain, mainly in the generation site corresponding to Cz electrode placement.

AMR 기반 저 전력 인공 대역 확장 기술 개발 (Developing a Low Power BWE Technique Based on the AMR Coder)

  • 구본강;박희완;주연재;강상원
    • 한국음향학회지
    • /
    • 제30권4호
    • /
    • pp.190-196
    • /
    • 2011
  • 대역폭 확장 (Bandwidth Extension)은 300-3400 Hz 대역의 협대역 음성 신호를 50-7000 Hz 대역의 광대역 음성신호로 확장하여 협대역 음성신호의 음질과 명료도를 높이는 기술이다. 본 논문에서는 협대역 음성 정보만을 이용해서 광대역 음성신호를 추정하는 인공 대역폭 확장 기술을 설계하여, ITU-T 협대역 표준 음성 코덱인 AMR (adaptive multi-rate) 복호화기에 내장시킴 (embedded)으로써, 대역폭 확장 모듈에서의 LPC 분석 및 LSP 해석과 관련된 계산량을 감소시켰고, 알고리즘 지연도 줄였다. 그리고 SDS (single distance search) 고속 탐색 방식을 대역폭 확장 시스템의 코드북 매핑에 적용하여, 최종적으로 저 전력 대역 확장 AMR 복호화기를 설계하였다. 제안된 대역폭 확장 방법은 AMR 복호화기 후단에 독립적으로 설치되는 기존 DTE (decode then extend)방식에 비해 28 % 정도의 계산량을 줄이고 알고리즘 지연도 20 msec 줄였다. 또한 제안방식은 피치정보를 이용한 classified 코드북 매핑 방식을 사용하여 스펙트럼 포락선을 확장하였고, 코드 벡터 탐색 시 가중치를 적용하여 광대역 합성 음성의 성능을 향상시켰다.

차량에서의 음성인식율 향상을 위한 전처리 기법 (Preprocessing Technique for Improvement of Speech Recognition in a Car)

  • 김현태;박장식
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.139-146
    • /
    • 2009
  • 본 논문에서는 차량에서의 자동 음성인식 시스템과 같이 신호대잡음비가 낮은 잡음 환경에서의 음성인식에 적합한 변형된 스펙트럼 차감법을 제안한다. 기존의 스펙트럼 차감법은 스펙트럼에서 낮은 신호대 잡음비(SNR)를 갖는 부분은 감쇄되고, 신호대잡음비가 높은 부분은 강조되는 신호대잡음비에 의존한다. 그러나 이러한 구성은 높은 신호대잡음비를 갖는 환경에서는 적절하나 차량 환경과 같이 낮은 신호대잡음비를 나타내는 환경에서는 매우 부적절하다. 제안하는 방법은 낮은 신호대잡음비를 갖는 잡음 환경을 위해 음성우세영역을 강조하여 불필요하게 음성영역이 과차감되지 않도록 방지한다. 차량용 음성명령어 어휘를 대상으로 한 실험 결과에서 제안하는 방법이 기존의 방법에 비해 우수한 것을 확인하였다.

전역 음성 부재 확률 기반의 향상된 최소값 제어 재귀평균기법을 이용한 음성 향상 기법 (Speech Enhancement Based on Improved Minima Controlled Recursive Averaging Incorporating GSAP)

  • 송지현;방동혁;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.104-111
    • /
    • 2012
  • 본 논문에서는 향상된 최소값 제어 재귀 평균 기법 (improved minima controlled recursive averaging, IMCRA) 알고리즘의 잡음 전력 추정성능을 향상 시키기 위한 알고리즘을 제안한다. 기존의 IMCRA은 주파수 특성이 빠르게 변화하는 비정상적인 환경과 낮은 SNR을 갖는 상황에서 잡음 전력 추정에 직접적으로 영향을 미치는 음성 검출기의 성능이 강인하지 못한 단점이 있다. 본 연구에서는 강인한 음성 검출 성능을 위해서 기존 IMCRA의 음성 검출기에 전역 음성 부재 확률을 적용한 음성 향상 기법을 제안한다. 제안된 알고리즘의 성능 평가는 음성의 perceptual evaluation of speech quality (PESQ)와 composite measure를 통한 음질을 평가하였다. 실험 결과 다양한 잡음 환경 (car, white, babble)에서 전역 음성 부재 확률을 적용한 IMCRA의 음성 향상 기법이 향상된 결과를 보여주었다. 특히, 비정상잡음 환경인 babble 5dB에서 PESQ 0.026, composite measure 0.029의 향상된 음질을 나타내었다.