• Title/Summary/Keyword: 저 전송률 음성 부호화

Search Result 19, Processing Time 0.025 seconds

A Study on the Improvement of PWF Performance Using the LSP (LSP를 이용한 인지가중필터의 성능개선에 관한 연구)

  • JUNG HyunUk;KIM IkSung;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.191-194
    • /
    • 2002
  • 최근 음성 부호화기의 연구방향은 저전송률, 저복잡도와 더불어 가변전송률 음성부호화기에 대한 연구로 진행되고 있다. 지금까지 제안된 저전송률 음성부호화기로는 스펙트럼 모델링을 이용한 MBE 계열과 혼성부호화 방식의 CELP 계열이 있다. 그 중에서 가장 많은 연구가 이루어지고 있는 방식이 CELP 방식이다. 이 방식은 4.8kbps 내외의 전송율에서 양호한 음질을 얻을 수 있다. 본 논문에서는 평균자승오차값을 최소화하여 계산량을 줄이고 음질을 향상시킬 수 있는 새로운 알고리즘을 제안한다. 먼저 G.723.1 부호화기에서 인지가중필터를 거친 신호를 LSP를 이용하여 각 포만트의 위치를 검출하여 Pole점만 비교하여 Zero점의 영향을 최소화 하였고 평균자승오차값을 최소화 하여 문턱값에 가장 가까운 값을 대표 피치이득계수로 정하고 그때의 피치와 함께 부호화한다.

  • PDF

Multi Rate Wideband Speech Coder with the AMR Speech Coder and MLT-VQ (AMR부호화기와 MLT-VQ방법을 이용한 다전송률 광대역 음성부호화기)

  • 김은주;이인성
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.809-812
    • /
    • 2001
  • 본 논문에서는 AMR(Adaptive Multi-Rate)과 MLT (Modulated Lapped Transform) 벡터 양자화 방법을 이용하여 광대역 음성부호화기를 설계하였다. 제안한 음성부호화 알고리즘은 split-band 구조를 가지고 있으며 16kHz로 샘플링 된 신호를 입력받아 QMF 필터에 의해 두 개의 대역으로 나누어, 각각 8kHz 샘플링 신호로 변환시킨 후 저대역(0Hz-3400Hz)의 신호와 고대역(3400Hz -7000Hz)의 신호로 나누어 각각 부호화한다. 나누어진 두 개의 협대역 음성신호는 AMR(Adaptive Multi-Rate)부호화기와 MLT (Modulated Lapped Transform)벡터 양자화 방법을 사용하여 각각 부호화되어 전송된다. 수신단에서는 각 대역을 AMR과 IMLT(Inverse MLT) 벡터 양자화 방법으로 역부호화하여 음성신호를 합성한다. 제안한 음성부호화기는 20.2kbps에서 12.15kbps까지의 다전송률로 동작된다. 설계된 광대역 음성부호화기는 MOS시험 결과로부터 G.722의 56 kbps 음성이 설계된 코더의 20.2 kbps와 비슷한 음질을 갖음을 확인할 수 있었다.

  • PDF

Design of Multi Rate Wideband Speech Coder Using the AMR(Adaptive Multi-Rate) Coder (AMR 부호화기와 결합된 다전송률 광대역 음성부호화기 설계)

  • 김은주;이호창;이인성
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.755-758
    • /
    • 2000
  • 본 논문에서는 AMR(Adaptive Multi-Rate)를 이용하여 광대역 음성부호화기를 설계하였다. 16kHz로 샘플링 된 입력 신호를 QMF 필터에 의해 두 개의 대역으로 나누어, 각각 decimation하여 두 개의 8kHz 샘플링 신호로 변환시킨 후 저대역(0Hz-3400Hz)의 신호와 고대역(3400Hz -7000Hz)의 신호로 나누어 각각 부호화한다. 나누어진 두 개의 협대역 음성신호는 AMR(Adaptive Multi-Rate)과 ATC(Adaptive Transform Coding)을 사용하여 각각 부호화되어 전송된다. 두 대역으로부터 부호화된 정보는 20.2kbps에서 12.75kbps까지의 전송률을 갖고, 수신단에서는 각 대역을 AMR과ATC방법으로 역부호화하여 음성신호를 합성한다. 설계된 광대역 음성부호화기의 성능을 평가하기 위해 ITU-T의 표준안인 G.722를 포함하여 MOS 시험을 하였다.

  • PDF

Design of Multi Rate Wideband Speech Coder Using the AMR(Adaptive Multi-Rate) Coder (AMR 부호화기와 결합된 다전송률 광대역 음성부호화기 설계)

  • 김은주;이인성
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.5B
    • /
    • pp.632-638
    • /
    • 2001
  • 본 논문에서는 AMR(Adaptive Multi-Rate)를 이용하여 광대역 음성부호화기를 설계하였다. 16kHz로 샘플링된 입력 신호를 QMF 필터에 의해 두 개의 대역으로 나누어, 각각 decimation하여 두 개의 8kHz 샘플링 신호로 변환시킨 후 저대역(0Hz-3400Hz)의 신호와 고대역(3400Hz∼7000Hz)의 신호로 나누어 각각 부호화한다. 나누어진 두 개의 협대역 음성신호는 AMR(Adaptive Multi-Rate)과 ATC(Adaptive Transform Coding)을 사용하여 각각 부호화되어 전송된다. 두 대역으로부터 부호화된 정보는 20.2kbps에서 12.75kbps까지의 전송률을 갖고, 수신단에서는 각 대역을 AMR과 ATC 방법으로 역부호화하여 음성신호를 합성한다. 설계된 광대역 음성부호화기의 성능을 평가하기 위해 ITU-T의 표준안인 G.722를 포함하여 MOS 시험을 하였다.

  • PDF

2.4kbps Speech Coding Algorithm Using the Sinusoidal Model (정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘)

  • 백성기;배건성
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.123-126
    • /
    • 2000
  • STC(Sinusoidal Transform Coding) 방식은 음성신호의 주파수 영역에서 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 방식을 말한다. 저전송률 STC 방식에서는 전송되는 정보량을 줄이기 위해 스펙트럼 피크를 대신해 음성신호의 스펙트럼 포락선 정보와, 피치정보를 이용하여 얻어지는 고조파 성분들을 정현파로 모델링하여 음성을 합성한다. 본 논문에서는 음성신호의 정현파 모델에 기반하여 2.4kbps 전송속도를 갖는 음성부호화 알고리즘을 제안하였으며, 실험결과로 합성음의 파형과 스펙트럼 특성, 위상특성, 그리고 MOS(Mean Opinion Score) 테스트를 이용한 합성음의 음질을 비교/분석 하였다.

  • PDF

Design of a Low Bit-rate Speech Coder Based on Mixed Multi-band Excitation Model (혼합 다중대역 여기모델에 기반한 저 전송률 음성 부호화기의 설계)

  • 한우진;오영환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.6
    • /
    • pp.510-521
    • /
    • 2002
  • MBE (multi-band excitation) coder can achieve high qualify synthetic speech below 4.0 kbps. There are, however, significant differences of the fine structure between the original spectrum and the synthetic spectrum. They are mainly due to the exclusive partition of voiced and unvoiced regions in frequency domain and the decision procedure based on the experimental threshold. This paper proposes MMBE (mixed multi-band excitation) speech model to overcome drawbacks of a MBE coder. In addition, two analysis methods, which do not need my decision procedure based on a threshold, are presented. Both voiced and unvoiced components can be mixed over all the frequency axis in the MMBE speech model. To illustrate the potential of the proposed speech model, we develop a 2.6 kbps MMBE coder and compare it with a 2.9 kbps MBE coder by both objective and subjective methods. The results have shown that the proposed coder has a better performance even at a lower bit-rate compared with the MBE coder.

Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding (저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상)

  • Lee, Chang-Heon;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.1
    • /
    • pp.62-68
    • /
    • 2010
  • This paper proposes a new masking threshold adjustment strategy to improve the performance for speech signals in low bit-rate audio coding. After determining formant regions, the masking threshold is adjusted by using the energy ratio of each sub-band to the average energy of each formant. More quantization noises are added to the bands that have relatively large energy, but less distortion is allowed in spectral valley regions by allocating more bits, which reflects the concept of perceptual weighting widely used in speech coding. From the results of objective speech quality measure, we verified that the proposed method improves quality for the speech input signals compared to the conventional one.

Wideband Speech Coding Algorithm with Application of Wavelet Transform (웨이브렛 변환을 적용한 광대역 음성부호화 알고리즘)

  • 이승원;배건성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.5
    • /
    • pp.462-470
    • /
    • 2002
  • Wideband speech, characterized by a bandwidth of 50∼7000 ㎐, sounds more natural and intelligible, and is less tiring to listen to when compared to narrowband speech characterized by a bandwidth of 300∼3400 ㎐. Wideband speech coders, however, have not been as successful as the narrowband speech coders because of their higher bit rate. In this paper, we propose a new wideband speech coder which combines the European standard of a narrowband speech coder, i.e., GSM-EFR, and a transform coder using the discrete wavelet transform. The proposed wideband speech coder operates as follows input speech is first split into two subbands with equal bandwidth and the two subband signals are coded and decoded by each subband coder. A GSM-EFR is adopted as a lower subband coder and a subband coder with wavelet transformed speech is designed for a upper subband coder. The total bit rate of the proposed coder is 18.9kbps (12.2 kbps for lower band coder and 6.7 kbps for upper band coder), and informal listening test results have shown that the proposed coder has comparable speech quality to that of G.722 with 56 kbps.

Low Bit Rate Multi Mode Harmonic Transform Excitation Coding for Speech and Music (음성 및 음악을 위한 저 전송률 다중모드 하모닉 변환 여기 부호화기)

  • 김종학;이인성
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.525-528
    • /
    • 2001
  • 본 논문은 음성 및 음악을 위한 새로운 4kbps 다중 모드 하모닉 변환 여기 부호화 방법을 제안한다. 제안된 부호화방법은 음성/음악 분류기에 의해 분류된 신호를 각각 하모닉-잡음 여기모델과 MLT 여기모델로 부호화한다. 하모닉-잡음 여기모델에서는 전이구간과 유/무성음 혼합신호의 모델링오차 개선을 위해 MP(Matching Pursuit)방법과 혼합된 잡음스펙트럴을 표현하기 위한 캡스트럽 LPC 잡음 모델, 빠른 정현파 합성법을 제안한다. 음악에서는 비트할당 효율을 높이기위한 LP 적응 피크 분석을 적용한 MLT(Modulated Lapped Transform) 부호화 방법을 제안한다. 제안된 방법을 적용한 4kbps 음성부호화 방법은 전이구간에서의 향상된 모델링 구조를 보여주었으며, 주관적음질 평가 8kbps QCELP 보다 MOS 0.2 정도 향상된 결과를 얻었다.

  • PDF

Study on Noise Filling algorithm of Unified Speech and Audio Coding (통합 음성/오디오 부호화기의 Noise Filling 알고리즘에 대한 연구)

  • Song, Jeongook;Kang, Hong-Goo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.260-261
    • /
    • 2012
  • 본 논문에서는 Unified Speech and Audio Coding (USAC)에 적용된 Noise Filling의 부호화 과정에서 음질 왜곡 정도에 따라 Noise level을 설정하는 방법을 제안한다. USAC는 Moving Picture Experts Group (MPEG)에서 표준화한 최신의 음성/오디오 통합 코덱으로 현존하는 코덱 중에 최고의 성능을 가지고 있다. 하지만, 복호화기 기술만 표준화하여, 인코더를 설계하는 방법에 따라 음질의 차이가 존재한다 현재 오픈 소스 기반으로 진행되고 있는 프로젝트 JAME에서는 이러한 음질 차이를 극복하고, USAC에 적용된 핵섬 인코더 기술의 성능을 최대화 할 수 있는 여러 가지 방법을 포함하고 있다. 그 중 Noise Filling은 저 전송률 부호화 과정에서 양자화 되지 않는 스펙트럼에 대하여 일정한 noise level을 넣어 인지적으로 음질을 향상시키는 방법이다. 제안된 Noise Filling 부호화 방법은 현재 프레임의 음질 왜곡 정도를 반영하여, noise-like 신호 성분을 더욱 정교하게 부호화 할 수 있게 하였다.

  • PDF