• Title/Summary/Keyword: Voice activity detector

Search Result 24, Processing Time 0.023 seconds

Efficient Noise Estimation for Speech Enhancement in Wavelet Packet Transform

  • Jung, Sung-Il;Yang, Sung-Il
    • The Journal of the Acoustical Society of Korea
    • /
    • v.25 no.4E
    • /
    • pp.154-158
    • /
    • 2006
  • In this paper, we suggest a noise estimation method for speech enhancement in nonstationary noisy environments. The proposed method consists of the following two main processes. First, in order to receive fewer affect of variable signals, a best fitting regression line is used, which is obtained by applying a least squares method to coefficient magnitudes in a node with a uniform wavelet packet transform. Next, in order to update the noise estimation efficiently, a differential forgetting factor and a correlation coefficient per subband are used, where subband is employed for applying the weighted value according to the change of signals. In particular, this method has the ability to update the noise estimation by using the estimated noise at the previous frame only, without utilizing the statistical information of long past frames and explicit nonspeech frames by voice activity detector. In objective assessments, it was observed that the performance of the proposed method was better than that of the compared (minima controlled recursive averaging, weighted average) methods. Furthermore, the method showed a reliable result even at low SNR.

New Speech Enhancement Method using Psychoacoustic Criteria (심리 음향 기준을 이용한 새로운 음질 개선 방법)

  • 김대경;박장식;손경식
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.1
    • /
    • pp.56-66
    • /
    • 2001
  • The spectral subtraction algorithm using a criterion based on the human perception has been recently developed. The speech processed with Virag's algorithm sounds more pleasant to a human listener than those obtained by the classical methods. However, Virag's algorithm requires a robust voice activity detector (VAD). In the ESS (extended spectral subtraction) algorithm without VAD, the residual noise becomes more noticeable as the SNR decrease. In this paper we propose a new speech enhancement method, the combination of Wiener filter and spectral subtraction based on noise masking characteristics in the human auditory system. There is no need of VAD because the noise can be successively updated even during speech activity using Wiener filter. The adjustment of the subtraction parameter based on the masking threshold makes the residual noise inaudible. The proposed method has been compared with conventional spectral subtraction algorithms. Objective and subjective evaluation of the proposed system is performed with several noise types having different time-frequency distributions. The application of objective measures, the study of the speech spectrograms, as well as subjective listening tests, confirm that the enhanced speech with proposed algorithm is more pleasant to a human listener.

  • PDF

Noise Cancellation using Microphone Array in Digital Hearing Aids (디지털 보청기에서 마이크로폰 어레이를 이용한 잡음제거)

  • Bang, Dong-Hyeouck;Kil, Se-Kee;Kang, Hyun-Deok;Yoon, Gwang-Sub;Lee, Sang-Min
    • The Transactions of The Korean Institute of Electrical Engineers
    • /
    • v.58 no.4
    • /
    • pp.857-866
    • /
    • 2009
  • In this paper, a noise cancellation-method using microphone array for digital hearing aids is proposed. The microphone array is located around the ear of a dummy. Speech sound is generated from the forward speaker positioned in the front of the dummy and noise sound is generated from the backward speaker. The speech and noise are mixed in the air space and entered into the microphones. VAD(voice activity detector) and ANC(adaptive noise cancellation) methods were used to eliminate noise in the sound of the microphones. 10 two-syllable words and 4 sentences were used for speech signals. Babble and car interior noise were used for noise signals. The performance of the proposed algorithm was evaluated by SNR(signal-to-noise ratio) and PESQ-MOS(perceptual evaluation of speech quality-mean opinion score). In babble noise condition, SNR was improved as much as $7.963{\pm}1.3620dB\;and\;3.968{\pm}0.6659dB$ for words and sentences respectively. In the case of car interior noise, SNR was improved as $10.512{\pm}2.0665dB\;and\;6.000{\pm}1.7642dB$ for words and sentences respectively. PESQ-MOS of the babble noise was improved as much as $0.1722{\pm}0.0861$ score for words and $0.083{\pm}0.0417$ score for sentences. And PESQ-MOS of the car interior noise was improved as $0.2661{\pm}0.0335$ score and $0.040{\pm}0.0201$ score for words and sentences respectively. It is verified that the proposed algorithm has a good performance in noise cancellation of microphone array for digital hearing aids.

Joint CDMA/PRMA의 성능향상 기법에 관한 연구

  • 국광호;이강원;박정우;강석열
    • Proceedings of the Korea Society for Simulation Conference
    • /
    • 2001.05a
    • /
    • pp.134-134
    • /
    • 2001
  • 이동통신 망을 통한 멀티미디어 통신의 수요 급증으로, 차세대 이동통신 시스템에서는 패킷 교환에 기초한 망 구조가 사용될 것으로 예측된다. VOD(Voice Activity Detector)를 갖는 음성 단말은 데이터를 발생시키는 talk spurt(평균이 t$_1$인 지수분포를 따름)와 데이터를 발생시키지 않는 silence period(평균이 t$_2$인 지수분포를 따름)의 두가지 상태를 갖는 마코프 체인으로 모델링된다. Goodman at. al.은 음성 단말들이 talk spurt동안만 데이터를 전송하게 함으로써 더 많은 가입자들을 수용할 수 있는 PRMA(Packet Reservation Multiple Access) 기법을 제안되었다. PRMA 방식에서는 시간 축이 슬롯들로 구성되며 여러개의 슬롯들로 프레임이 형성된다. Silence period 상태에 있던 음성 단말은 talk spurt 상태가 되면 talk spurt의 첫 번째 데이터를 하나의 슬롯을 통해 전송하게 된다. 이때 단말들은 각 슬롯에서 데이터를 전송할 수 있는 확률을 나타내는 채널 접근 확률(channel access probability)에 의해 데이터를 전송하게 되며 전송에 성공하면 슬롯을 예약함으로서 다음 프레임부터는 동일한 위치의 슬롯을 통해 데이터들을 전송하게 된다. DS/CDMA(Direct Sequence/code Division Multiple Access)는 이동통신 단말의 수용 용량상의 이점, 소프트 핸드오버 능력, 보다 용이하게 셀 계획을 세울 수 있는 점 등에 의해 차세대 이동통신 망에서 채택될 예정이다. CDMA 시스템은 간섭(interference)에 의해 용량이 제한을 받게 되며, MAI(Multiple Access Interference)가 시스템의 성능에 많은 영향을 미치게 된다. Brand, et. al.은 간섭의 분산을 줄이기 위해 PRMA 개념을 DS/CDMA 환경으로 확장한 Joint CDMA/PRMA 프로토콜을 제안하였다. 이때 각 슬롯에서의 데이터 전송확률을 그 슬롯에서 예약상태에 있는 음성 단말의 수에 의존하게 하는 방식을 사용하였으며 데이터 전송확률을 나타내는 채널 접근 확률들을 시뮬레이션을 통해 유도하였다. 한편 음성 단말에게는 실시간 서비스를 제공해 주어야 하는 대신 데이터 단말에게는 실시간 서비스를 제공해 주지 않아도 되므로, 트래픽이 많을 때에는 음성 단말의 데이터 전송에 우선권을 주는 것이 바람직하다. 이를 위해서 Brand, et. al.은 채널 접근 확률을 각 슬롯의 트래픽 상태에 따라 적응적으로 산출하는 기법을 제안하였다. 본 연구에서는 Joint CDMA/PRMA의 성능이 채널 접근 함수의 효율성에 많이 의존하게 되므로 보다 효율적인 채널 접근 확률을 구하는 방법을 제안한다. 즉 채널 액세스 확률을 각 슬롯에서 예약상태에 있는 음성 단말의 수뿐만 아니라 각 슬롯에서 예약을 하려고 하는 단말의 수에 기초하여 산출하는 방법을 제안하고 이의 성능을 분석하였다. 시뮬레이션에 의해 새로 제안된 채널 허용 확률을 산출하는 방식의 성능을 비교한 결과 기존에 제안된 방법들보다 상당한 성능의 향상을 볼 수 있었다.

  • PDF