• 제목/요약/키워드: Speech Signal

검색결과 1,172건 처리시간 0.024초

새로운 음성/비음성 분류함수에 기반한 스펙트럼 차감법에 의한 차량잡음제거 (Car Noise Cancellation by Using Spectral Subtraction Method Based on a New Speech/nonspeech Classification Function)

  • 박영식;이준재;이응주;하영호
    • 한국통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.994-1003
    • /
    • 1994
  • 본 논문에서는 차량 잡음 환경하에서 하나의 마이크로폰 구조를 사용하여 스펙트럼 차감법을 이용한 잡음 제거 방법을 제안하였다. 변화하는 잡음에 의하여 손상된 음성신호에서 잡음의 성분을 제거하기 위하여 여러 상황에서의 차량 잡음을 분석하고 특성을 알아보았다. 음성/비음성의 분류와 잡음의 스펙트럼을 추정하기 위하여 잡음 분석을 바탕으로 음성/비음성 분류함수를 제안하였다. 이 분류함수에 의하여 적은 계산량으로 간단하게 정확한 음성/비음성의 분류가 가능하다. 또한 정확한 잡음의 스펙트럼 추정이 가능하다. 제안된 음성/비음성 분류함수에 의한 잡음의 스펙트럼 추정으로 인하여 왜곡이 거의 없는 깨끗한 음성신호를 추출할 수 있었다.

  • PDF

음성 신호의 음소 단위 구분화에 관한 연구 (A Study on the Segmentation of Speech Signal into Phonemic Units)

  • 이의천;이강성;김순협
    • 한국음향학회지
    • /
    • 제10권4호
    • /
    • pp.5-11
    • /
    • 1991
  • 본 연구에서는 음성신호의 음소 단위 구분화 방법을 제안한다. 제안된 구분화 시스템은 화자 독립적이고, 음성신호에 대한 사전 정보 없이도 음소 단위로 구분화를 수행할 수 있는 특징을 갖는다. 구분화 처리는 입력 음성신호를 먼저 순수 유성을 구간과 순수 유성음이 아닌 구간으로 분리 시킨 후, 각각의 구간에 대해 세분화된 음소 단위로 분리시키는 2단계 구분화 알고리즘을 적용하였고, 이때 사용된 파라미터는 유성을 검출 파라미터, 영차 LPC 캡스트럼 계수의 시간변호 파라미터, ZCR 파라미터이다. 본 연구에서 제안한 구분화 알고리즘의 유용성을 입증하기 위해 사용한 대상어는 고립단어와 연속음성으로 구성된 어휘로서 전체 어휘중에 포함된 507개 음소에 대한 구분화율은 91.7% 이다.

  • PDF

서브밴드 백색화 필터를 이용한 부공간 잡음 제거 (Subspace Speech Enhancement Using Subband Whitening Filter)

  • 김종욱;유창동
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.169-174
    • /
    • 2003
  • 본 논문에서는 서브밴드 백색화 필터를 이용한 새로운 부공간 잡음제거 방법을 제안하였다. 기존의 부공간 접근방법에서는 백색 잡음을 가정하거나, 유색 잡음에 대한 전처리로서 백색화 필터를 사용하였다. 백색화 필터를 서브밴드로 나누어 처리함으로써, 제안된 방법은 잔여잡음을 줄이면서 신호 왜곡의 상한값을 최소화하도록 설계하였다. 또한 서브밴드 백색화 필터를 도입함으로써 부공간 잡음제거 방법에서 약점으로 지적되는 것 중의 하나인 Karhunen-Loeve(KL) 영역에서의 주파수 해상도를 높일 수 있었다. 실험결과에 의하면 제안된 방법은 Ephraim에 의해 제안된 방법 부공간 잡음 제거 방법이나, Boll에 의해 제안된 주파수 차감법에 비해 구분 신호대 잡음 비 (SNRseg: segmental signal-to-noise ratio), 음성의 인지적 성능 평가 (PESQ: perceptual evaluation of speech quality)를 고려하였을 때 향상된 성능을 보였다.

반향 음성 신호의 하모닉 모델링을 이용한 음질 예측 알고리즘 (Speech Quality Estimation Algorithm using a Harmonic Modeling of Reverberant Signals)

  • 양재모;강홍구
    • 방송공학회논문지
    • /
    • 제18권6호
    • /
    • pp.919-926
    • /
    • 2013
  • 실내 환경에서 음성 신호는 음향 전달 함수에 의한 반향 신호를 포함한다. 이때 반향의 정도나 반향에 의한 음질 변화를 예측하는 것은 반향 제거 알고리즘 등에서 중요한 정보를 제공한다. 본 논문은 음성 신호의 하모닉 모델링 기법을 이용한 반향 환경에서의 자동 음질 예측 기법을 제안하다. 제안한 방법에서는 반향을 포함하는 음성 신호에 대한 하모닉 모델링 기법이 가능함을 보이고, 모델링된 하모닉 성분과 나머지 성분 사이의 통계적인 비율을 예측한다. 예측된 비율은 일반적인 방 환경에서의 음질 측정 표준 파라미터와 비 교하였다. 실험 결과 제안된 방법은 다양한 반향 환경 (반향 시간 0.2~1.0초)에서 표준 음질 파라미터를 정확하게 예측할 수 있음을 증명하였다.

망각소자를 갖는 t-분포 강인 연속 추정을 이용한 음성 신호 추정에 관한 연구 (Robust Sequential Estimation based on t-distribution with forgetting factor for time-varying speech)

  • 이주헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.470-474
    • /
    • 1998
  • In this paper, to estimate the time-varying parameters of speech signal, we use the robust sequential estimator based on t-distribution and, for time-varying signal, introduce the forgetting factor. By using the RSE based on t-distribution with small degree of freedom, we can alleviate efficiently the effects of outliers to obtain the better performance of parameter estimation. Moreover, by the forgetting factor, the proposed algorithm can estimate the accurate parameters under the rapid variation of speech signal.

  • PDF

방송뉴스 인식에서의 잡음 처리 기법에 대한 고찰 (A Study on Noise-Robust Methods for Broadcast News Speech Recognition)

  • 정용주
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.71-83
    • /
    • 2004
  • Recently, broadcast news speech recognition has become one of the most attractive research areas. If we can transcribe automatically the broadcast news and store their contents in the text form instead of the video or audio signal itself, it will be much easier for us to search for the multimedia databases to obtain what we need. However, the desirable speech signal in the broadcast news are usually affected by the interfering signals such as the background noise and/or the music. Also, the speech of the reporter who is speaking over the telephone or with the ill-conditioned microphone is severely distorted by the channel effect. The interfered or distorted speech may be the main reason for the poor performance in the broadcast news speech recognition. In this paper, we investigated some methods to cope with the problems and we could see some performance improvements in the noisy broadcast news speech recognition.

  • PDF

Classical Tamil Speech Enhancement with Modified Threshold Function using Wavelets

  • Indra., J;Kasthuri., N;Navaneetha Krishnan., S
    • Journal of Electrical Engineering and Technology
    • /
    • 제11권6호
    • /
    • pp.1793-1801
    • /
    • 2016
  • Speech enhancement is a challenging problem due to the diversity of noise sources and their effects in different applications. The goal of speech enhancement is to improve the quality and intelligibility of speech by reducing noise. Many research works in speech enhancement have been accomplished in English and other European Languages. There has been limited or no such works or efforts in the past in the context of Tamil speech enhancement in the literature. The aim of the proposed method is to reduce the background noise present in the Tamil speech signal by using wavelets. New modified thresholding function is introduced. The proposed method is evaluated on several speakers and under various noise conditions including White Gaussian noise, Babble noise and Car noise. The Signal to Noise Ratio (SNR), Mean Square Error (MSE) and Mean Opinion Score (MOS) results show that the proposed thresholding function improves the speech enhancement compared to the conventional hard and soft thresholding methods.

하모닉 구조를 이용한 두 명의 동시 발화 화자의 위치 추정 (Two Simultaneous Speakers Localization using harmonic structure)

  • 김현경;임성길;이현수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.121-124
    • /
    • 2005
  • In this paper, we propose a sound localization algorithm for two simultaneous speakers. Because speech is wide-band signal, there are many frequency sub-bands in that two speech sounds are mixed. However, in some sub-bands, one speech sound is more dominant than other sounds. In such sub-bands, dominant speech sounds are little interfered by other speech or noise. In speech sounds, overtones of fundamental frequency have large amplitude, and that are called 'Harmonic structure of speech'. Sub-bands inharmonic structure are more likely dominant. Therefore, the proposed localization algorithm is based on harmonic structure of each speakers. At first, sub-bands that belong to harmonic structure of each speech signal are selected. And then, two speakers are localized using selected sub-bands. The result of simulation shows that localization using selected sub-bands are more efficient and precise than localization methods using all sub-bands.

  • PDF

응급상황에서의 음성인식을 위한 필터기 구현 (Implementation of Speech Recognition Filtering at Emergency)

  • 조영임;장성순
    • 한국지능시스템학회논문지
    • /
    • 제20권2호
    • /
    • pp.208-213
    • /
    • 2010
  • 일반적으로 음성인식 시스템의 사용에 가장 저해되는 요소에는 배경 잡음을 들 수 있다. 잡음은 음성인식 시스템의 성능을 저하시키고, 이로 인해 사용 장소의 제약을 많이 받게 되는 이유가 된다. 이런 잡음의 영향을 해결하기 위해 본 논문에서는 음질 향상에 목적을 두고 신호단계에서부터 잡음성분을 제거하는 필터 중 FIR필터의 대역통과를 이용하여 일반적으로 사람의 음성 주파수 영역과 잡음 영역을 추출한 정보를 토대로 Wiener 필터를 구현, 그 성능을 향상하여, 전송되어지는 음성신호구간에서 잡음구간과 음성구간에 따라 잡음을 유연하게 처리하도록 구현하였다.

A User-friendly Remote Speech Input Method in Spontaneous Speech Recognition System

  • Suh, Young-Joo;Park, Jun;Lee, Young-Jik
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권2E호
    • /
    • pp.38-46
    • /
    • 1998
  • In this paper, we propose a remote speech input device, a new method of user-friendly speech input in spontaneous speech recognition system. We focus the user friendliness on hands-free and microphone independence in speech recognition applications. Our method adopts two algorithms, the automatic speech detection and the microphone array delay-and-sum beamforming (DSBF)-based speech enhancement. The automatic speech detection algorithm is composed of two stages; the detection of speech and nonspeech using the pitch information for the detected speech portion candidate. The DSBF algorithm adopts the time domain cross-correlation method as its time delay estimation. In the performance evaluation, the speech detection algorithm shows within-200 ms start point accuracy of 93%, 99% under 15dB, 20dB, and 25dB signal-to-noise ratio (SNR) environments, respectively and those for the end point are 72%, 89%, and 93% for the corresponding environments, respectively. The classification of speech and nonspeech for the start point detected region of input signal is performed by the pitch information-base method. The percentages of correct classification for speech and nonspeech input are 99% and 90%, respectively. The eight microphone array-based speech enhancement using the DSBF algorithm shows the maximum SNR gaing of 6dB over a single microphone and the error reductin of more than 15% in the spontaneous speech recognition domain.

  • PDF