• 제목/요약/키워드: Speech signal processing

검색결과 331건 처리시간 0.034초

Binary Mask Criteria Based on Distortion Constraints Induced by a Gain Function for Speech Enhancement

  • Kim, Gibak
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제2권4호
    • /
    • pp.197-202
    • /
    • 2013
  • Large gains in speech intelligibility can be obtained using the SNR-based binary mask approach. This approach retains the time-frequency (T-F) units of the mixture signal, where the target signal is stronger than the interference noise (masker) (e.g., SNR > 0 dB), and removes the T-F units, where the interfering noise is dominant. This paper introduces two alternative binary masks based on the distortion constraints to improve the speech intelligibility. The distortion constraints are induced by a gain function for estimating the short-time spectral amplitude. One binary mask is designed to retain the speech underestimated (T-F) units while removing the speech overestimated (T-F)units. The other binary mask is designed to retain the noise overestimated (T-F) units while removing noise underestimated (T-F) units. Listening tests with oracle binary masks were conducted to assess the potential of the two binary masks in improving the intelligibility. The results suggested that the two binary masks based on distortion constraints can provide large gains in intelligibility when applied to noise-corrupted speech.

  • PDF

주파수가중 스펙트럼성형필터와 위너필터를 결합한 음성 스펙트럼 강조 (Speech Spectrum Enhancement Combined with Frequency-weighted Spectrum Shaping Filter and Wiener Filter)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제20권10호
    • /
    • pp.1867-1872
    • /
    • 2016
  • 디지털신호처리 분야에서 다양한 환경에서 존재하는 배경잡음을 제거하여 음성신호의 품질을 개선시키는 것은 반드시 필요한 문제이다. 음향학적으로 배경잡음을 제거할 때 고려해야 할 중요한 점은 인간의 청각기전이 주로 음성의 진폭 스펙트럼의 정보에 의존하여 문제 해결을 하고 있다는 사실이다. 본 논문에서는 음성의 진폭 스펙트럼의 추출을 주요 목적으로 하는 주파수가중 스펙트럼성형필터의 특성을 도입한다. 따라서 본 논문에서는 배경잡음으로 중첩된 음성신호 성분 중에 이 진폭 스펙트럼 정보를 추출하여, 위너 필터법과 음향학적인 모델에 의한 주파수가중 스펙트럼성형필터를 사용한 알고리즘을 제안한다. 본 실험에서는 스펙트럼 왜곡률(SD)에 의하여 제안한 알고리즘의 출력 SD가 기존의 다른 방법과 비교하여 약 5.28 dB 이상 개선되었다.

에코제거기와 MAP 추정에 기초한 핸즈프리 음성 인식 (Hands-free Speech Recognition based on Echo Canceller and MAP Estimation)

  • Sung-ill Kim;Wee-jae Shin
    • 융합신호처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.15-20
    • /
    • 2003
  • 핸즈프리 마이크를 이용한 원격회의나 원격 통신 시스템과 같은 몇 가지의 응용분야에서, 음성 신호는 주위 잡음뿐만 아니라 마이크와 스피커사이의 결합에 의해 발생하는 에코에 의해서 왜곡되기 쉽다. 게다가 채널 왜곡이나 부가적인 잡음을 포함한 환경 잡음들은 원래의 입력 음성신호에 영향을 미치리라 고려된다. 본 논문에서는, 이러한 핸즈프리 음성에 있어서의 음성 인식률을 향상시키기 위해 에코 제거기와 최대 사후 추정(MAP)을 이용한 새로운 접근방식을 소개한다. 이 접근방식에서, 제안된 시스템이 에코를 포함한 주위 잡음 환경에서의 핸즈프리 음성인식에 효과적이라는 것을 보여준다 또한, 실험 결과는 에코 제거기와 MAP 환경적응 기술의 결합 시스템이 에코와 잡음 환경에 잘 적응하는 것을 보여준다.

  • PDF

A Robust Non-Speech Rejection Algorithm

  • Ahn, Young-Mok
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권1E호
    • /
    • pp.10-13
    • /
    • 1998
  • We propose a robust non-speech rejection algorithm using the three types of pitch-related parameters. The robust non-speech rejection algorithm utilizes three kinds of pitch parameters : (1) pitch range, (2) difference of the successive pitch range, and (3) the number of successive pitches satisfying constraints related with the previous two parameters. The acceptance rate of the speech commands was 95% for -2.8dB signal-to-noise ratio (SNR) speech database that consisted of 2440 utterances. The rejection rate of the non-speech sounds was 100% while the acceptance rate of the speech commands was 97% in an office environment.

  • PDF

선형 위상 특성을 갖는 적응 마이크로폰 어레이 (An Adaptive Microphone Array with Linear Phase Response)

  • 강홍구;윤대희;차일환
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.53-60
    • /
    • 1992
  • 원거리 회의나 대강당 등의 회의에서 주변의 간섭 잡음을 제거하고 정해진 발언자의 음성 신호를 얻기 위하여 적응 빔 형성 기법을 이용한 방법이 연구되어 왔다. 음성 신호에 이용되는 적응 빔 기법은 레이더, 소나, 지진파 신호의 경우와는 달리 어느 정도 왜곡이 있더라도 출력 신호가 인간의 청각 특성에 적합해야 한다. Sondhi는 인간의 귀가 음성 신호의 위상에는 민감하지 않다는 성질을 이용하여 음성의 크기에 약한 제한 조건을 갖는 cost 함수를 정의하고, 이를 gradient 탐색 알고리즘을 사용하여 최적화된 필터계수를 구했다. 본 논문에서는 Sondhi가 제안한 빔 형성기의 위상 왜곡에 따른 음절 저하를 극복하기 위해 원하는 신호 방향에 대해서 선형 위상 응답 특성을 갖는 빔 형성기를 제안하였으며, 실제로 시스템을 구현할 경우 효과적으로 이용할 수 있는 샘플 처리 알고리듬을 제안하였다. 제안된 알고리듬의 성능 평가를 위하여 컴퓨터 시뮬레이션을 수행하였다.

  • PDF

노인음성신호처리: 젠더혁신 분석에 대한 체계적 문헌고찰 (Elderly Speech Signal Processing: A Systematic Review for Analysis of Gender Innovation)

  • 이지연
    • 융합정보논문지
    • /
    • 제9권8호
    • /
    • pp.148-154
    • /
    • 2019
  • 본 연구의 목적은 국내의 젠더혁신 기반 노인음성신호처리 연구에 대하여 체계적으로 문헌을 고찰하고, 젠더분석 방법의 효용성과 혁신성을 소개하는 것이다. 2000년부터 현재까지 국내 학회지에 게재된 37편의 연구 논문 중 중복되는 자료와 포함 및 배제 기준에 따라 적합한 25편의 논문이 선정되었다. 그리고 젠더분석 방법을 적용하여 남녀 연구대상과 젠더연구 설계로 구분하여 살펴보았다. 연구 결과 젠더혁신 측면 공학연구 개발에서 연구 분야의 다양성과 연구 개발팀의 높은 젠더 인식이 필요함을 보였다. 또한 노인음성신호처리 연구 및 논문에서 젠더혁신 연구과정 및 방법이 체계적으로 적용될 수 있도록 정부 차원의 규정 확립과 대학 차원의 다양한 젠더혁신 프로젝트 출범을 제언하는 바이다. 추후 노인음성 신호처리 연구에서의 젠더혁신은 남녀 모두의 요구를 반영한 음성인식 시스템과 서비스 개발로 우리 모두를 위한 새로운 시장을 창출할 것이다.

TMS320VC5510 DSP를 이용한 AMR 음성부호화기의 실시간 구현 (Real-Time Implementation of AMR Speech Codec Using TMS320VC5510 DSP)

  • 김준;배건성
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.143-152
    • /
    • 2008
  • This paper focuses on the real time implementation of an adaptive multi-rate (AMR) speech codec, that is a standard speech codec of IMT-2000, using the TMS320VC5510. The series of TMS320VC55x is a 16-bit fixed-point digital signal processor (DSP) having low power consumption for the use of mobile communications by Texas Instruments (TI) corporation. After we analyze the AMR algorithm and source code as well as the structure and I/O of 7MS320VC55x, we carry out optimizing the programs for real time implementation. The implemented AMR speech codec uses 55.2 kbyte for the program memory and 98.3 kbyte for the data memory, and it requires 709,878 clocks, i.e. about 3.5 ms, for processing a frame of 20 ms speech signal.

  • PDF

A Study of Peak Finding Algorithms for the Autocorrelation Function of Speech Signal

  • So, Shin-Ae;Lee, Kang-Hee;You, Kwang-Bock;Lim, Ha-Young;Park, Ji Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권12호
    • /
    • pp.131-137
    • /
    • 2016
  • In this paper, the peak finding algorithms corresponding to the Autocorrelation Function (ACF), which are widely exploited for detecting the pitch of voiced signal, are proposed. According to various researchers, it is well known fact that the estimation of fundamental frequency (F0) in speech signal is not only very important task but quite difficult mission. The proposed algorithms, presented in this paper, are implemented by using many characteristics - such as monotonic increasing function - of ACF function. Thus, the proposed algorithms may be able to estimate both reliable and correct the fundamental frequency as long as the autocorrelation function of speech signal is accurate. Since the proposed algorithms may reduce the computational complexity it can be applied to the real-time processing. The speech data, is composed of Korean emotion expressed words, is used for evaluation of their performance. The pitches are measured to compare the performance of proposed algorithms.

균일양자화기의 잔여신호를 이용한 음성신호의 피치검출 (On a Pitch Extraction of Speech Signal using Residual Signal of the Uniform Quantizer)

  • 배명진;한기천;차진종
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.36-40
    • /
    • 1997
  • 음성신호처리 분야에서 정확한 피치검출은 중요하고 필요하다. 지금까지 제안된 피치검출 알고리즘들은 음성신호의 다양성으로 인해 피치를 정확히 검출하기가 어렵다. 본 논문에서는 PCM과 같은 균일 양자화기의 잔여신호에 대해 음성신호의 기본주기를 검출하는 새로운 피치검출법을 제안하였다. 제안한 방법은 무잡음 음성에 대해 평균 0.25%의 조오율이 그리고 0dB의 SNR에 대해서는 평균 3.39%의 조오율이 나타나는 정확성을 보였다. 또한 음소의 천이영역이나 배경잡음 하에서도 피치검출의 정확도가 개선된 피치검출의 결과를 얻었다.

  • PDF

음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법 (DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition)

  • 오상엽
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.1-6
    • /
    • 2021
  • 음성 인식 분야에서 DNN이 적용됨에 따라 음성 인식의 이용이 증대되고 있으나 기존의 GMM 보다 병렬 훈련에 대한 계산의 양이 많아야 되며, 데이터의 양이 적으면 오버피팅이 발생한다. 이를 해결하기 위해 데이터의 양이 작은 경우에도 강인한 음성 특징 추출과 음성 신호 잡음 제거에 효율적인 방안을 제시한다. 음성 특징 추출은 음성에 대한 프레임 에너지의 차이와 음성 신호에 영향을 받는 영 교차율과 레벨 교차율을 적용하여 음성 에너지의 효율적 추출을 한다. 또한, 잡음 제거를 위해 음성 신호에 대한 검출에서 음성의 고유 특성을 유지하면서 음성 정보 손상이 적은 평균 예측 LMS 필터를 개선하여 음성 신호의 잡음을 제거하여 데이터양이 적은 경우의 문제를 해결한다. 개선된 LMS 필터는 입력 신호에 대한 활성 파라미터 임계치를 조정하여 입력된 음성 신호에 대한 잡음을 처리하는 방법을 사용한다. 본 논문에서 제안한 방법을 사용하여 기존의 프레임 에너지를 이용한 방법과 비교한 결과 음성의 시작점의 오차율은 7%, 끝나는 점 오차율에서 11% 향상된 성능을 확인하였다.