• 제목/요약/키워드: Harmonic coding

검색결과 33건 처리시간 0.028초

Time-Domain Quantization and Interpolation of Pitch Cycle Waveform

  • Kim, Moo-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • 제27권1E호
    • /
    • pp.11-16
    • /
    • 2008
  • In this paper, a pitch cycle waveform (PCW) is extracted, quantized, and interpolated in a time domain to synthesize high-quality speech at low bit rates. The pre-alignment technique is proposed for the accurate and efficient PCW extraction, which predicts the current PCW position from the previous PCW position assuming that pitch periods evolve slowly. Since the pitch periods are different frame by frame, the original PCW is converted into the fixed-dimension PCW using the dimension-conversion method, and subsequently quantized by code-excited linear predictive (CELP) coding. The excitation signal for the linear predictive coding (LPC) synthesis filter is generated using the time-domain interpolation and interlink of the quantized PCW's. The coder operates at 4.2 kbit/s and 3.2 kbit/s depending on the pitch period. Informal listening test demonstrates the effectiveness of the proposed coding scheme.

효율적인 하모닉-CELP 구조를 갖는 저 전송률 음성 부호화기 (Efficient Harmonic-CELP Based Low Bit Rate Speech Coder)

  • 최용수;김경민;윤대희
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.35-47
    • /
    • 2001
  • 본 논문에서는 하모닉 부호화기와 CELP(Code Excited Linear Prediction) 부호화기의 장점을 고려한 효율적인 저 전송률 하모닉-CELP 음성 부호화기를 제안한다. 제안된 하모닉-CELP 부호화기에서는 프레임 단위 유/무성음 판별에 따라 무성음 구간에서는 고속 CELP방식으로 부호화하고 유성음 구간에서는 개선된 하모닉 부호화를 수행한다. 제안된 부호화기는 무성음 부호화를 위한 RP-VSELP(Regular Pulse Vector Sum Excited Linear Prediction), 유성음 부호화를 위한 간단한 정수 피치 검색, 정수 단위 피치에서의 고속 하모닉 추정, 가변 차원 하모닉 벡터 양자화, 주파수 해상도를 반영한 인지 가중치, 고속 하모닉 합성, 대역별 유성음 정도에 따른 자연성 제어, 다중 모드 등을 주요한 특징으로 하며, 이러한 특징들로 인해 기존의 HVXC(Harmonic Vector eXeited Coder) 부호화기에 비해서 매우 낮은 복잡도를 갖는다. 주관적인 음질 평가 결과, 제안된 2.4 kbps 하모닉-CELP 부호화기는 낮은 지연과 적은 계산량으로 양호한 음질을 얻을 수 있음을 확인하였다.

  • PDF

Speech Quality of a Sinusoidal Model Depending on the Number of Sinusoids

  • Seo, Jeong-Wook;Kim, Ki-Hong;Seok, Jong-Won;Bae, Keun-Sung
    • 음성과학
    • /
    • 제7권1호
    • /
    • pp.17-29
    • /
    • 2000
  • The STC(Sinusoidal Transform Coding) is a vocoding technique that uses a sinusoidal speech model to obtain high- quality speech at low data rate. It models and synthesizes the speech signal with fundamental frequency and its harmonic elements in frequency domain. To reduce the data rate, it is necessary to represent the sinusoidal amplitudes and phases with as small number of peaks as possible while maintaining the speech quality. As a basic research to develop a low-rate speech coding algorithm using the sinusoidal model, in this paper, we investigate the speech quality depending on the number of sinusoids. By varying the number of spectral peaks from 5 to 40 speech signals are reconstructed, and then their qualities are evaluated using spectral envelope distortion measure and MOS(Mean Opinion Score). Two approaches are used to obtain the spectral peaks: one is a conventional STFT (Short-Time Fourier Transform), and the other is a multiresolutional analysis method.

  • PDF

Harmonic-Mean-Based Dual-Antenna Selection with Distributed Concatenated Alamouti Codes in Two-Way Relaying Networks

  • Li, Guo;Gong, Feng-Kui;Chen, Xiang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.1961-1974
    • /
    • 2019
  • In this letter, a harmonic-mean-based dual-antenna selection scheme at relay node is proposed in two-way relaying networks (TWRNs). With well-designed distributed orthogonal concatenated Alamouti space-time block code (STBC), a dual-antenna selection problem based on the instantaneous achievable sum-rate criterion is formulated. We propose a low-complexity selection algorithm based on the harmonic-mean criterion with linearly complexity $O(N_R)$ rather than the directly exhaustive search with complexity $O(N^2_R)$. From the analysis of network outage performance, we show that the asymptotic diversity gain function of the proposed scheme achieves as $1/{\rho}{^{N_R-1}}$, which demonstrates one degree loss of diversity order compared with the full diversity. This slight performance gap is mainly caused by sacrificing some dual-antenna selection freedom to reduce the algorithm complexity. In addition, our proposed scheme can obtain an extra coding gain because of the combination of the well-designed orthogonal concatenated Alamouti STBC and the corresponding dual-antenna selection algorithm. Compared with the common-used selection algorithms in the state of the art, the proposed scheme can achieve the best performance, which is validated by numerical simulations.

Enhanced Spectral Hole Substitution for Improving Speech Quality in Low Bit-Rate Audio Coding

  • Lee, Chang-Heon;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • 제29권3E호
    • /
    • pp.131-139
    • /
    • 2010
  • This paper proposes a novel spectral hole substitution technique for low bit-rate audio coding. The spectral holes frequently occurring in relatively weak energy bands due to zero bit quantization result in severe quality degradation, especially for harmonic signals such as speech vowels. The enhanced aacPlus (EAAC) audio codec artificially adjusts the minimum signal-to-mask ratio (SMR) to reduce the number of spectral holes, but it still produces noisy sound. The proposed method selectively predicts the spectral shapes of hole bands using either intra-band correlation, i.e. harmonically related coefficients nearby or inter-band correlation, i.e. previous frames. For the bands that have low prediction gain, only the energy term is quantized and spectral shapes are replaced by pseudo random values in the decoding stage. To minimize perceptual distortion caused by spectral mismatching, the criterion of the just noticeable level difference (JNLD) and spectral similarity between original and predicted shapes are adopted for quantizing the energy term. Simulation results show that the proposed method implemented into the EAAC baseline coder significantly improves speech quality at low bit-rates while keeping equivalent quality for mixed and music contents.

하모닉 보상방법에 기반한 파라메트릭 코덱 구현에 관한 연구 (Novel harmonic coding method for parametric audio codec)

  • 정종훈;이남숙;이건형
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.143-144
    • /
    • 2008
  • 본 논문은 오디오 압축시 하모닉의 특성을 적용함으로써 신호의 압축률을 향상시킬 수 있도록 하는 내용을 기술하고 있다. 하모닉 코딩은 오디오 신호가 가지는 특징인 복합음(Complex tone)의 특성을 이용하는 것으로, 주파수 공간에서 정수배의 주파수가 존재하며, 정면파의 특성상 시간적으로 인접 신호들간의 유사성이 매우 높은 특징을 이용하여 압축효율을 향상시키는 방법이다. 하지만 실질적인 오디오 신호의 경우, 악기들의 harmonic stretch, 전달과정에서 발생하는 신호의 왜곡, 외부 잡음등의 특성으로 인하여 수집된 오디오 신호를 분석하는 과정에서 부정확한 하모닉의 판단이 이루어질 가능성이 높으며, 이는 압축과정에서 심각한 음질의 열화를 가져오게 된다. 따라서 본 논문에서는 프레림간의 변화 추이의 판단을 통하여 하모닉의 변화를 예측하고, 예측 오류에 대한 보상값을 전달함으로써 오디오 신호의 안정적인 압축/복원이 가능하도록 하는 신호처리 방법에 대한 내용을 기술하고있다.

  • PDF

고조파 복원에 의한 CELP 음성 부호화기의 저대역 확장 (Low-band Extension of CELP Speech Coder by Recovery of Harmonics)

  • 박진수;최무열;김형순
    • 대한음성학회지:말소리
    • /
    • 제49호
    • /
    • pp.63-75
    • /
    • 2004
  • Most existing telephone speech transmitted in current public networks is band-limited to 0.3-3.4 kHz. Compared with wideband speech(0-8 kHz), the narrowband speech lacks low-band (0-0.3 kHz) and high-band(3.4-8 kHz) components of sound. As a result, the speech is characterized by the reduced intelligibility and a muffled quality, and degraded speaker identification. Bandwidth extension is a technique to provide wideband speech quality, which means reconstruction of low-band and high-band components without any additional transmitted information. Our new approach considers to exploit harmonic synthesis method for reconstruction of low-band speech over the CELP coded speech. A spectral distortion measurement and listening test are introduced to assess the proposed method, and the improvement of synthesized speech quality was verified.

  • PDF

정현파 음성-오디오 모델의 빠른 하모닉 합성 방법 (Fast Harmonic Synthesis Method for Sinusoidal Speech-Audio Model)

  • 김규진;김종학;정규혁;이인성
    • 대한전자공학회논문지SP
    • /
    • 제44권4호통권316호
    • /
    • pp.109-116
    • /
    • 2007
  • 대부분의 2차 및 3차 위상 보간을 사용하는 하모닉 합성 방법은 각각의 정현파 성분에 대해 샘플단위로 합성되기 때문에 구현하는데 있어 많은 연산량이 요구된다. 본 논문에서는 이러한 문제를 해결하기 위해 2차 및 3차 위상 항을 가지는 정현파 음성 및 오디오 모델을 위한 빠른 하모닉 합성 방법을 제안한다. 제안하는 빠른 하모닉 합성 방법은 2차 및 3차 위상함수의 계수를 하모닉과 독립적으로 강요함으로써 오버 샘플링 함수와 위상 변조 함수를 정의하고, Inverse Fast Fourier Transform(IFFT)을 이용한 합성식을 유도한다. 제안한 빠른 하모닉 합성 방법은 연산량과 Segment SNR(Segment Signal-to-Noise Ratio)을 코사인 함수를 이용한 합성 방법과의 비교를 통해 음질의 저하없이 연산량이 현저히 줄어드는 것을 확인할 수 있었다.

Performance of a Multi-Code CDMA Scheme on Non-Gaussian Noises in Power Line Communication Channels

  • Na, Sung-Ju;Yoan Shin
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -1
    • /
    • pp.132-135
    • /
    • 2000
  • In this paper, we propose to exploit a multi-code CDMA scheme for power line communication (PLC) systems, and its performance on non-Gaussian impulse and harmonic noises is presented. The proposed multi-code CDMA scheme utilizes convolutional coding and block interleaving to combat with the non-Gaussian noises, and simulation results indicate effective alleviation of these noises, and thus significant bit error rate improvement by the proposed scheme even under strict restriction of frequency band allowed in PLC systems.

  • PDF

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 한국통신학회논문지
    • /
    • 제27권3A호
    • /
    • pp.196-204
    • /
    • 2002
  • STC(Sinusoidal Transform Coding) 방식은 주파수 영역에서 음성신호의 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 음성부호화 방식을 말한다. 저전송률 STC 방식에서는 스펙트럼의 모든 피크를 이용하는 대신, 기본 주파수와 고조파에 해당하는 스펙트럼 포락선에서의 크기와 그때의 위상을 이용하여 음성을 합성한다. 본 논문에서는 정현파 모델에 기반한 2.4kbps 음성부호화 알고리즘을 제안한다. 피치정보는 모든 스펙트럼 피크를 사용한 합성음과 선택된 주파수와 고조파를 이용한 합성음과의 평균자승에러를 이용하여 추정하고, 위상정보는 여기신호 펄스의 시작시기를 나타내는 onset time과 성도 모델 전달함수의 위상을 이용하여 얻는다. 크기정보는 SEEVOC 알고리즘과 선형예측계수를 이용하여 추정한다. 실험결과, 합성음의 스펙트럼 특성은 원음성의 포만트 정보를 대부분 가지고 있으며, 위상정보도 원음성의 위상을 잘 따라감을 확인하였다. 합성음의 음질평가를 위해서 informal한 MOS(Mean Opinion Score) 테스트를 시행하였으며, 2.0kbps의 HVXC와 비교하여 대체적으로 MOS 3.1 이상의 음질을 얻을 수 있었다.