• Title/Summary/Keyword: 음성향상

Search Result 1,460, Processing Time 0.03 seconds

A Probabilistic Combination Method of Minimum Statistics and Soft Decision for Robust Noise Power Estimation in Speech Enhancement (강인한 음성향상을 위한 Minimum Statistics와 Soft Decision의 확률적 결합의 새로운 잡음전력 추정기법)

  • Park, Yun-Sik;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.26 no.4
    • /
    • pp.153-158
    • /
    • 2007
  • This paper presents a new approach to noise estimation to improve speech enhancement in non-stationary noisy environments. The proposed method combines the two separate noise power estimates provided by the minimum statistics (MS) for speech presence and soft decision (SD) for speech absence in accordance with SAP (Speech Absence Probability) on a separate frequency bin. The performance of the proposed algorithm is evaluated by the subjective test under various noise environments and yields better results compared with the conventional MS or SD-based schemes.

Compensation Method for Improvement of Speech Recognition in Wireless Communication Network (무선 통신망에서 음성인식률 개선을 위한 보상기법 연구)

  • Seo Jin-Ho;Park Ho-Chong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.65-68
    • /
    • 2004
  • 이동통신 기술의 발전으로 이동통신 사용이 폭발적으로 증가하였고 그에 따라 이동통신망을 이용한 많은 서비스가 제공되고 있다. 이동통신망에서의 음성 인식 서비스에서 음성 인식기에 입력되는 음성신호는 통신망을 통해 음성 압축기를 거치게 되고 이에 음성신호가 왜곡되어 인식기의 인식성능이 저하된다. 본 논문에서는 무선통신 환경에서 음성인식기의 성능을 개선하기 위한 보상 방법을 제안한다. 기존의 제안된 방법은 음성 데이터에 의존하는 방법을 사용하나 본 논문에서는 음성 데이터와는 독립적 방법인 음성 압축기에 의해 손상된 입력 신호의 스펙트럼 보상방법과 Cepstrum 보정방법을 통해 인식률을 향상시키는 방법을 제안한다. 즉, 음성 압축기에 의하여 왜곡된 스펙트럼을 단계적 방법으로 보상하고 그를 토대로 왜곡된 신호에서 만들어진 Cepstrum을 보정하여 음성 인식기의 성능을 향상시키는 방법을 연구하였으며, 그 견과 손상된 음성신호의 인식률 $64.88\%$에 대하여, 본 논문에서 제안하는 보상 방법을 적용한 음성신호의 인식률은 $79.73\%$로서 $14.85\%$가 향상된 결과를 얻을 수 있었다.

  • PDF

Robust Speech Enhancement By Multi $H_\infty$ Filter (다중 $H_\infty$ 필터에 의한 강인한 음성향상)

  • Kim Jun Il;Lee Ki Yong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.85-88
    • /
    • 2004
  • 칼만/위너 필터 같은 기존의 음성향상 알고리즘은 잡음의 선험적 지식을 요구하고, 음성신호와 추정신호의 오차분산을 최소화하는데 중점을 두었다. 따라서, 잡음에 대한 통계적 추정에 오류가 있을 경우 결과에 악영향을 미칠 수 있다. 그러나 $H_\infty$ 필터는 잡음에 대한 어떠한 가정이나 선험적 지식을 요구하지 않는다. $H_\infty$ 필터는 최소상계(Upper Bound Least)를 적용하여 추정된 모든 신호들로부터 최소 에러 신호를 갖는 최상의 추정신호를 찾아내므로 칼만/위너 필터보다 잡음의 변화에 강인하다. 본 논문에서는 학습 신호로부터 은닉 마코프 모델의 파리미터를 추정한 후, 오염된 신호를 고정된 개수의 $H_\infty$ 필터를 통과시켜 각 출력에 가중된 합으로 향상된 음성 신호를 구한다. 음성의 통계적 특성을 이용하여 모델 파라미터를 추정하는 은닉 마코프 모델과 잡음의 변화에 강인한 $H_\infty$ 알고리즘을 사용해서, 다중 $H_\infty$필터에 의한 강인한 음성향상 방법을 제안하였다.

  • PDF

Voice Recognition Performance Improvement using the Convergence of Voice signal Feature and Silence Feature Normalization in Cepstrum Feature Distribution (음성 신호 특징과 셉스트럽 특징 분포에서 묵음 특징 정규화를 융합한 음성 인식 성능 향상)

  • Hwang, Jae-Cheon
    • Journal of the Korea Convergence Society
    • /
    • v.8 no.5
    • /
    • pp.13-17
    • /
    • 2017
  • Existing Speech feature extracting method in speech Signal, there are incorrect recognition rates due to incorrect speech which is not clear threshold value. In this article, the modeling method for improving speech recognition performance that combines the feature extraction for speech and silence characteristics normalized to the non-speech. The proposed method is minimized the noise affect, and speech recognition model are convergence of speech signal feature extraction to each speech frame and the silence feature normalization. Also, this method create the original speech signal with energy spectrum similar to entropy, therefore speech noise effects are to receive less of the noise. the performance values are improved in signal to noise ration by the silence feature normalization. We fixed speech and non speech classification standard value in cepstrum For th Performance analysis of the method presented in this paper is showed by comparing the results with CHMM HMM, the recognition rate was improved 2.7%p in the speech dependent and advanced 0.7%p in the speech independent.

Performance Improvement of CELP Speech Coder (CELP 음성 부호화기의 성능 향상 방법)

  • 박호종
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.289-292
    • /
    • 1998
  • 본 논문에서는 CELP 음성 부호화기의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 최적 코드북 검색 과정에서 추가적인 알고리듬의 지연 없이 미래 정보를 이용하고 두 인접한 코드북 부프레임 사이의 동시 최적화를 통하여 음성 부호화기의 성능을 향상시킨다. 또한, 제안된 코드북 검색 과정의 계산량을 조절하기 위한 방법도 제공된다. 제안된 방법의 성능을 검증하기 위하여 IS-96A QCELP 음성 부호화기를 이용하여 합성음의 스펙트럼과 Segmental SNR로 성능을 측정하는 모의실험을 실시하였으며, 제안된 방법을 적용한 QCELP 음성 부호화기가 기존의 QCELP에 비하여 향상된 성능을 보여주었다.

  • PDF

Service Mechanism for Enhanced Voice Traffic (음성 트래픽 향상을 위한 서비스 메커니즘)

  • 김성태;강현국
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.757-759
    • /
    • 2001
  • 인터넷의 확산 및 고속화로 인하여 사용자들이 급격하게 증가하고 있으며, 이에 따라 인터넷을 이용한 다양한 멀티미디어 서비스들이 전개되고 있다. 또한, 기존 PSTN 위주의 음성 통신이 인터넷을 이용한 음성통신으로 급속히 바뀌고 있으며, 이를 효율적으로 연동하고 제어하기 위한 다양한 표준들이 나타나고 있다. 본 논문에서는 급속하게 발전되고 있는 인터넷 텔레포니 기술 중 세션제어를 위한 기녈 프로토콜 표준인 SIP를 살펴보고, 서비스 품질 향상을 위한 RSVP를 이용하여 보다 향상된 음성통신을 위한 기존의 시그널링 메커니즘을 살펴보고, 음성 트래픽 서비스 품질 향상을 위한 가장 효율적인 새로운 메커니즘을 제시 하고자 한다.

  • PDF

An Improved VAD Algorithm Employing Speech Enhancement Preprocessing and Threshold Updating (음성 향상 전처리와 문턱값 갱신을 적용한 향상된 음성검출 방법)

  • 이윤창;안상식
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.28 no.11C
    • /
    • pp.1161-1168
    • /
    • 2003
  • In this paper, we propose an improved statistical model-based voice activity detection algorithm and threshold update method. We first improve signal-to-noise ratio by using speech enhancement preprocessing algorithm combined power subtraction method and matched filter, then apply it to LLR test optimum decision rule for improving the performance even in low SNR conditions. And we propose an adaptive threshold update method that was not concerned in any papers. We also perform extensive computer simulations to demonstrate the performance improvement of the proposed VAD algorithm employing the proposed speech enhancement preprocessing algorithm and adaptive threshold update method under various background noise environments. Finally we verify our results by comparing ITU-T G.729 Annex B.

가산 잡음 또는 반향 환경에 강인한 음성인식을 위한 은닉 마르코프 모델 기반 특징 향상 방법

  • Jo, Ji-Won;Park, Hyeong-Min
    • Information and Communications Magazine
    • /
    • v.33 no.9
    • /
    • pp.17-23
    • /
    • 2016
  • 실세계 환경의 원거리에서 녹음된 음성은 가산 잡음이나 반향 성분으로 왜곡되기 때문에 음성인식 성능이 현저히 떨어진다. 따라서 음성 전처리 과정은 실세계 환경에서 강인한 음성인식을 위한 필수과정이다. 모델 기반 특징 향상 방법은 전처리 방법 중 하나로 특징 영역 데이터의 적절한 동적 범위(dynamic range)와 차원 수로 인하여 실시간 처리가 가능하고 깨끗한 음성의 선험적 정보를 모델링하기에 용이하다. 또, 인식을 위한 최종 특징 입력에 가까운 단계에서 데이터를 처리하므로 인식에 밀접한 영향을 준다는 장점이 있다. 그러나 대략적인 왜곡 요인 관련 파라미터 추정 때문에 음성인식 성능이 하락되는 단점이 있다. 최근에 기존 모델 기반 특징 향상의 단점을 개선하여 가산 잡음이나 반향 환경에 적합한 방법이 제안되었다. 이글에서는 특징 향상 방법을 소개하고 개선된 방법의 음성인식 강인성을 알아보고자 한다.

Speech Enhancement Based on Improved Minima Controlled Recursive Averaging Incorporating GSAP (전역 음성 부재 확률 기반의 향상된 최소값 제어 재귀평균기법을 이용한 음성 향상 기법)

  • Song, Ji-Hyun;Bang, Dong-Hyeouck;Lee, Sang-Min
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.49 no.1
    • /
    • pp.104-111
    • /
    • 2012
  • In this paper, we propose a novel method to improve the performance of the improved minima controlled recursive averaging (IMCRA). From an examination for various noise environment, it is shown that the IMCRA has a fundamental drawback for the noise power estimate at the offset region of continuity speech signals. Espectially, it is difficult to obtain the robust estimates of the noise power in non-stationary noisy environments that is rapidly changed the spectral characteristics such as babble noise. To overcome the drawback, we apply the global speech absence probability (GSAP) conditioned on both a priori SNR and a posteriori SNR to the speech detection algorithm of IMCRA. With the performance criteria of the ITU-T P.862 perceptual evaluation of speech quality (PESQ) and a composite measure test, we show that the proposed algorithm yields better results compared to the conventional IMCRA-based scheme under various noise environments. In particular, in the case of babble 5 dB, the proposed method produced a remarkable improvement compared to the IMCRA ( PESQ = 0.026, composite measure = 0.029 ).

Speech Enhancement Algorithm Based on Teager Energy and Speech Absence Probability in Noisy Environments (잡음환경에서 Teager 에너지와 음성부재확률 기반의 음성향상 알고리즘)

  • Park, Yun-Sik;An, Hong-Sub;Lee, Sang-Min
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.49 no.3
    • /
    • pp.81-88
    • /
    • 2012
  • In this paper, we propose a novel speech enhancement algorithm for effective noise suppression in various noisy environments. In the proposed method, to result in improved decision performance for speech and noise segments, local speech absence probability (LSAP, local SAP) based on Teager energy of noisy speech is used as the feature parameter for voice activity detection (VAD) in each frequency subband instead of conventional LSAP. In addition, The presented method utilizes global SAP (GSAP) derived in each frame as the weighting parameter for the modification of the adopted TE operator to improve the performance of TE operator. Performances of the proposed algorithm are evaluated by objective test under various environments and better results compared with the conventional methods are obtained.