• Title/Summary/Keyword: 음성신호 대역

Search Result 146, Processing Time 0.033 seconds

A Study on the Epoch Extraction of Voicd Speech (유성음 구간에서의 Epoch 추출에 관한 연구)

  • 강동규
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.216-220
    • /
    • 1995
  • 음성 신호처리분야의 기반을 이루고 잇는 선형예측기법으로 성대폐쇄구간 분석이 가능해질 경우 특히 음성합성가 부호화 시스템의 상당한 성능개선을 기대할 수 있기 때문에 최근 관련 분야에서 높은 신뢰도를 갖는 GCI 검출 알고리즘 개발에 많은 관심을 보이고 있다. 성대폐쇄구간 검출에서 가장 중요한 것은 성대폐쇄시점에 관한 정보이며, 본 논문에서는 이에 대응될 수 있는 정보인 epoch를 음성신호에서 직접 추출할 수 있는 기법을 제안하였다. 제안된 방법은 프레임 단위별 평균 피치를 참조하여 저역통과된 유성음 신호에서 3구간 영교차점별 평균진폭 변동율에 의해 pseudo-epoch를 검출한다. 대역 통과된 유성음 신호를 이용하여 pseudo-epoch 부근에 존재하는 보다 정밀한 실제 epoch을 최종적으로 결정하였다. 제안된 방법은 단계적으로 epoch가 존재할 수 있는 연역을 좁혀 나아가면서 처리하므로 검출오차를 줄일 수 있었고, 시간영역에서 처리되어 계산량이 적으므로 고속 처리가 가능하였다. 성능평가를 위해 처리결과를 EGG 신호와 비교한 결과 약 2샘플 정도의 오차만을 갖는 우수한 성능을 나타내었다.

  • PDF

A Study on the Slop Compensation of Speech Spectrum by QMF(Quadrature Mirror Filter) (QMF Filter에 의한 음성스펙트럼 평탄화에 관한 연구)

  • Jun, Woo-Jin
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05a
    • /
    • pp.273-276
    • /
    • 2010
  • 음성신호를 관찰하였을 때 성문특성으로 인해서 고주파쪽 특성이 약화되는 경향이 있다. 약화된 고주파 특성을 보상하기 위하여 프리 엠퍼시스 필터를 통해 보상하고 있다. 프리 엠퍼시스 필터를 간단한 수식으로 표현하면 y(n)=s(n)-As(n-1)와 같이 차분 방정식으로 나타낼 수 있다. 여기서 A값은 보통 0.9에서 1사이의 값을 사용한다. 본 논문에서는 QMF 필터를 이용하여 입력신호를 고주파와 저주파의 2개의 대역으로 분할하여 각 밴드에 프리 엠퍼시스 필터를 적용하여 약화되어진 특성을 정확히 보상하는 방법을 제안한다.

  • PDF

A Study on Real Time Implementation of an Adaptive Digital Filter Using a Sub-band Structure (SUB-BAND 적응 디지털 필터 실시간 시스템 구현에 관한 연구)

  • 류차희;윤대희;유재하;차일환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.6
    • /
    • pp.13-20
    • /
    • 1993
  • 충격 응답 시간이 긴 시스템을 모델링하기 위한 실시간 적응 디지털 필터를 구현하였다. 대상 시스템의 충격 응답 시간이 길 때, 일반적인 적응 디지털 필터를 사용하는 경우 발생하는 수렴 속도 저하와 계산량 증가 문제를 해결하기 위해서 서브밴드 구조를 갖는 적응 디지털 필터를 구성하였다. 실시간 처리 시스템에서는 GQMF을 사용하여 입력 신호를 4개 대역으로 분할하여 각 대역별로 적응 필터링을 수행함으로써 수렴 속도를 향상시킨다. 또한 대역별 신호를 동시에 분산 처리하기 때문에 계산량 면에서 효율적이므로 시스템의 충격 응답이 긴 경우에는 실시간 처리가 가능하다. 하드웨어 구성은 범용 신호 처리 프로세서인 DSP56001을 호스트 프로세서로 사용하며, 적응 디지털 필터 칩 DSP56200을 사용하여 각 대역 적응 필터를 구성하였다. 실험은 충격 응답 시간이 16 kHz 필터링 시 2000 탭 길이로 가정된 시스템을 대상으로 부동 소수점 시뮬레이션 결과와 실시간 처리 시스템의 결과를 비교하였다. 밴드를 나누지 않은 기존의 방법과 서브밴드 시스템의 비교 실험 결과 입력이 백색 잡음인 경우 대역별 간섭에 의한 성능 저하가 있었으나, 음성과 유사한 특성을 갖는 유색 잡음인 경우 서브밴드 시스템이 단일 시스템에 비해 성능 향상을 보였다.

  • PDF

Estimation and Weighting of Sub-band Reliability for Multi-band Speech Recognition (다중대역 음성인식을 위한 부대역 신뢰도의 추정 및 가중)

  • 조훈영;지상문;오영환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.6
    • /
    • pp.552-558
    • /
    • 2002
  • Recently, based on the human speech recognition (HSR) model of Fletcher, the multi-band speech recognition has been intensively studied by many researchers. As a new automatic speech recognition (ASR) technique, the multi-band speech recognition splits the frequency domain into several sub-bands and recognizes each sub-band independently. The likelihood scores of sub-bands are weighted according to reliabilities of sub-bands and re-combined to make a final decision. This approach is known to be robust under noisy environments. When the noise is stationary a sub-band SNR can be estimated using the noise information in non-speech interval. However, if the noise is non-stationary it is not feasible to obtain the sub-band SNR. This paper proposes the inverse sub-band distance (ISD) weighting, where a distance of each sub-band is calculated by a stochastic matching of input feature vectors and hidden Markov models. The inverse distance is used as a sub-band weight. Experiments on 1500∼1800㎐ band-limited white noise and classical guitar sound revealed that the proposed method could represent the sub-band reliability effectively and improve the performance under both stationary and non-stationary band-limited noise environments.

On the Perceptually Important Phase Information in Acoustic Signal (인지에 중요한 음향신호의 위상에 대해)

    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.7
    • /
    • pp.28-33
    • /
    • 2000
  • For efficient quantization of speech representation, it is common to incorporate Perceptual characteristics of human hearing. However, the focus has been confined only to the magnitude information of speech, and little attention has been paid to phase information. This paper presents a novel approach, termed perceptually irrelevant phase elimination (PIPE), to find out irrelevant phase information of acoustic signals in terms of perception. The proposed method, which is based on the observation that the relative phase relationship within a critical band is perceptually important, is derived not only for stationary Fourier signal but also for harmonic signal. The proposed method is incorporated into the analysis/synthesis system based on harmonic representation of speech, and subjective test results demonstrate the effectiveness of proposed method.

  • PDF

A New Speech Waveform Coding Based on the Nonuniform Sampling Method with Separated to High-Low Band (대역분리-비균일표본화 방법을 이용한 새로운 음성신호의 파형부호화 연구)

  • Bae, Myung-Jin;Lee, Joo-Hun;Im, Sung-Bin;Lee, Won-Cheol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.5
    • /
    • pp.89-93
    • /
    • 1995
  • To reduce the redundancy within samples that resulted from uniform sampling method, nonuniform sampling or nonredundant-sample coding methods can be considered. However, it is well known that when conventional nonuniform sampling methods are applied directly to speech signal, the required amount of data is comparable to or mure than that by uniform sampling method like PCM. To overcome this problem, a new nonuniform sampling method is proposed, in which nonuniform sampling is applied to the low-pass filtered speech signal and higher band is compensated by 8 colored Gaussian random noise with various noise levels. By this method, speech signal waveform can be encoded by 1.8 times larger compression ratio than the conventional nonuniform sampling method.

  • PDF

Sound Enhancement of low Sample rate Audio Using LMS in DWT Domain (DWT영역에서 LMS를 이용한 저 샘플링 비율 오디오 신호의 음질 향상)

  • 백수진;윤원중;박규식
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.1
    • /
    • pp.54-60
    • /
    • 2004
  • In order to mitigate the problems in storage space and network bandwidth for the full CD quality audio, current digital audio is always restricted by sampling rate and bandwidth. This restriction normally results in low sample rate audio or calls for the data compression scheme such as MP3. However, they can only reproduce a lower frequency range than a regular CD quality because of the Nyquist sampling theory. Consequently they lose rich spatial information embedded in high frequency. The propose of this paper is to propose efficient high frequency enhancement of low sample rate audio using n adaptive filtering and DWT analysis and synthesis. The proposed algorithm uses the LMS adaptive algorithm to estimate the missing high frequency contents in DWT domain and it then reconstructs the spectrally enhanced audio by using the DWT synthesis procedure. Several experiments with real speech and audio are performed and compared with other algorithm. From the experimental results of spectrogram and sonic test, we confirm that the proposed algorithm outperforms the other algorithm and reasonably works well for the most of audio cases.

On a Multiband Nonuniform Samping Technique with a Gaussian Noise Codebook for Speech Coding (가우시안 코드북을 갖는 다중대역 비균일 음성 표본화법)

  • Chung, Hyung-Goue;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.6
    • /
    • pp.110-114
    • /
    • 1997
  • When applying the nonuniform sampling to noisy speech signal, the required data rate increases to be comparable to or more than that by uniform sampling such as PCM. To solve this problem, we have proposed the waveform coding method, multiband nonuniform waveform coding(MNWC), applying the nonuniform sampling to band-separated speech signal[7]. However, the speech quality is deteriorated when it is compared to the uniform sampling method, since the high band is simply modeled as a Gaussian noise with average level. In this paper, as a good method to overcome this drawback, the high band is modeled as one of 16 codewords having different center frequencies. By doing this, with maintaining high speech quality as MOS score of average 3.16, the proposed method achieves 1.5 times higher compression ratio than that of the conventional nonuniform sampling method(CNSM).

  • PDF

Korean isolated word recognizer using new time alignment method of speech signal (새로운 시간축 정규화 방법을 이용한 한국어 고립단어 인식기)

  • Nam, Myeong-U;Park, Gyu-Hong;No, Seung-Yong
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.38 no.5
    • /
    • pp.567-575
    • /
    • 2001
  • This paper suggests new method to get fixed size parameter from different length of voice signals. The efficiency of speech recognizer is determined by how to compare the similarity(distance of each pattern) of the parameter from voice signal. But the variation of voice signal and the difference of speech speed make it difficult to extract the fixed size parameter from the voice signal. The method suggested in this paper is to normalize the parameter at fixed size by using the 2 dimension DCT(Discrete Cosine Transform) after representing the parameter by spectrogram. To prove validity of the suggested method, parameter extracted from 32 auditory filter-bank(it estimates auditory nerve firing probabilities) is used for the input of neural network after being processed by 2 dimension DCT. And to compare with conventional methods, we used one of conventional methods which solve time alignment problem. The result shows more efficient performance and faster recognition speed in the speaker dependent and independent isolated word recognition than conventional method.

  • PDF

Isolated Korean Digits Recognition Using Modified Wavelet Transform (변형된 Wavelet 변환을 이용한 한국어 숫자음 인식에 관한 연구)

  • 지상문
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1993.06a
    • /
    • pp.113-116
    • /
    • 1993
  • 본 논문에서는 변형된 wavelet 변환을 통해 추출한 특징벡터를 이용하여 한국어 숫자음을 대상으로 한 음성인식기를 구현하였다. wavelet 변환은 시간 및 주파수 영역에 대해 다중해상도(multiresolution)를 가지는 신호분석법이다. 본 연구에서는 계산량의 감소와 넓은 주파수 대역을 분석하기 위해, mother wavelet의 형태를 분석 주파수 대역에 따라 변화시키는 방법을 제안하였다. 기존의 wavelet 변환으로 실험한 결과 86.5%의 인식율을 얻었고, 변형된 wavelet 변환의 경우 96%의 인식율을 얻었으며 계산량이 감소하였다. 이와 함께 음성인식에서 널리 사용되는 특징 파라미터인 멜켑스트럼과 FFT 멜스케일 필터 대역(mel scale filter bank)과 비교 실험한 결과 인식율의 향상을 보였다. 이는 제안한 방법이 고주파 대역의 세밀한 시간 해상도와 저주파 대역의 세밀한 주파수 해상도를 지니는데 기인하는 것으로 판단된다.

  • PDF