• 제목/요약/키워드: Speech Codec

검색결과 128건 처리시간 0.021초

$TMS320C6701^TM$을 이용한 2.4kbps EHSX 음성 부호화기의 실시간 구현 (Real-time implementation of the 2.4kbps EHSX Speech Coder Using a $TMS320C6701^TM$ DSPCore)

  • 양용호;이인성;권오주
    • 한국통신학회논문지
    • /
    • 제29권7C호
    • /
    • pp.962-970
    • /
    • 2004
  • 본 논문에서는 TI사의 부동소수점 DSP인 TMS320C6701$^{TM}$을 이용한 2.4kbps EHSX(Enhanced Harmonic Stochastic Excitation) 음성부호화기의 실시간 구현 방법에 대해서 논한다. EHSX는 4khz의 대역폭을 갖는 음성신호를 2.4kbps의 비트율을 갖는 압축 패킷으로 변환하는 부호화 방법으로, 유/무성음에 따라 하모닉(Harmonic) 여기 부호화 방법과 CELP 부호화 방법을 선택적으로 사용하는 구조를 갖는다. 본 논문에서는 이러한 EHSX의 실시간 구현을 위해 연산량의 큰 비중을 차지하는 CELP 분석의 코드북 검색부분과 일부 IIR 필터링 부분에 대한 고정소수점 변환 방법과, 부호화시 하모닉 검색 및 피치 검색방법에 대한 알고리즘 상 연산량 감소 방법, DSP의 구조를 고려한 코드를 배치방법 등 연산량을 감소시키기 위한 최적화 방법을 제시한다. 설계된 음성 부호화기는 PESQ(perceptual evaluation of speech quality) ITU-T Recommendation P.862를 이용한 음질 평가 결과로서 약MOS 3.28을 얻었으며, 실시간으로 압축 및 복원을 수행한다.

VoIP 환경에서의 잡음제거를 위한 최적화된 위너 필터 (Optimized Wiener Filter for Noise Reduction in VoIP Environments)

  • 정상배;이성독;한민수
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.105-119
    • /
    • 2007
  • Noise reduction technologies are indispensable to achieve acceptable speech quality in VoIP systems. This paper proposes a Wiener filter optimized to the estimated SNR of noisy speech for the noise reduction in VoIP environments. The proposed noise canceller is applied as a pre-processor before speech encoding. The performance of the proposed method is evaluated by the PESQ in various noisy conditions. In this paper, the proposed algorithm is applied to G.711, G.723.1, and G.729A which are all VoIP speech codecs. The PESQ results show that the performance of our proposed noise reduction scheme outperforms those of the noise suppression in the IS-127 EVRC and the ETSI standard for the advanced distributed speech recognition front-end.

  • PDF

Adaptive Kernel Function of SVM for Improving Speech/Music Classification of 3GPP2 SMV

  • Lim, Chung-Soo;Chang, Joon-Hyuk
    • ETRI Journal
    • /
    • 제33권6호
    • /
    • pp.871-879
    • /
    • 2011
  • Because a wide variety of multimedia services are provided through personal wireless communication devices, the demand for efficient bandwidth utilization becomes stronger. This demand naturally results in the introduction of the variable bitrate speech coding concept. One exemplary work is the selectable mode vocoder (SMV) that supports speech/music classification. However, because it has severe limitations in its classification performance, a couple of works to improve speech/music classification by introducing support vector machines (SVMs) have been proposed. While these approaches significantly improved classification accuracy, they did not consider correlations commonly found in speech and music frames. In this paper, we propose a novel and orthogonal approach to improve the speech/music classification of SMV codec by adaptively tuning SVMs based on interframe correlations. According to the experimental results, the proposed algorithm yields improved results in classifying speech and music within the SMV framework.

한국어에 의한 EVRC LSP 코드북 설계 (Design of EVRC LSP Codebooks with Korean)

  • 이진걸
    • 한국음향학회지
    • /
    • 제21권2호
    • /
    • pp.167-172
    • /
    • 2002
  • 음성부호화 알고리즘인 EVRC (Enhanced Variable Rate Codec)는 현재 북미 및 한국 CDMA 디지털 셀룰러 시스템에 사용되고 있다. EVRC음성부호화기에서 음성의 주파수영역에서의 에너지 분포와 관련되어 있는 LSP (Line Spectral Pairs)값은 가중분할 벡터 양자화 (Weighted Split Vector Quantization)에 의해 코딩된다. 이러한 코딩 과정에 사용되는 LSP 코드북이 개발국 언어 혹은 영어로 설계되었음을 감안하면 한국어통화에 대해서는 한국어로 설계된 LS 코드북에 의해 향상된 성능을 기대할 수 있다. 본 논문에서는 한국어로 BVRC의 LSP 코드북을 LBG알고리즘을 기반으로 한 벡터 양자화기법으로 설계하였으며 이 코드북에 의한 벡터양자화 성능향상 및 그에 따른 음질향상을 각각 SD (Spectral Distortion) 및 신호대 잡음비 (SNR), SegSNR측정으로 입증하였다.

EVRC 음성부호화기의 잡음억제단을 이용한 수중 천이신호 검출 (Detection of Underwater Transient Signals Using Noise Suppression Module of EVRC Speech Codec)

  • 김태환;배건성
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.301-305
    • /
    • 2007
  • 본 연구에서 관심을 갖는 수중환경에서의 천이소음도 가청주파수 대역임에 착안하여 이동통신 시스템의 표준 음성부호화기인 EVRC의 전처리단을 이용하여 배경잡음 구간을 판별하고 이를 바탕으로 수중 천이신호를 탐지하는 알고리즘을 제안하였다. EVRC 전처리 모듈에 프레임 단위의 입력신호가 들어가면 모듈로부터 잡음 구간을 결정하는 플래그, 각 채널의 에너지, 잡음이 제거된 신호, 입력신호의 에너지, 배경잡음의 에너지, 잡음이 제거된 신호의 에너지에 해당하는 파라미터 값을 얻게 된다. 잡음이 제거된 신호의 에너지를 배경잡음의 에너지로 정규화하고 이를 문턱값과 비교함으로써 천이신호를 검출할 수 있다. 또한 문턱 값은 잡음 구간에서 구한 이전 값을 이용해서 갱신된다. 실험결과를 통해 제안한 알고리즘이 백색 또는 유색잡음 하에서도 4% 미만의 오차를 보여주는 것을 검증한다.

AMR 기반 저 전력 인공 대역 확장 기술 개발 (Developing a Low Power BWE Technique Based on the AMR Coder)

  • 구본강;박희완;주연재;강상원
    • 한국음향학회지
    • /
    • 제30권4호
    • /
    • pp.190-196
    • /
    • 2011
  • 대역폭 확장 (Bandwidth Extension)은 300-3400 Hz 대역의 협대역 음성 신호를 50-7000 Hz 대역의 광대역 음성신호로 확장하여 협대역 음성신호의 음질과 명료도를 높이는 기술이다. 본 논문에서는 협대역 음성 정보만을 이용해서 광대역 음성신호를 추정하는 인공 대역폭 확장 기술을 설계하여, ITU-T 협대역 표준 음성 코덱인 AMR (adaptive multi-rate) 복호화기에 내장시킴 (embedded)으로써, 대역폭 확장 모듈에서의 LPC 분석 및 LSP 해석과 관련된 계산량을 감소시켰고, 알고리즘 지연도 줄였다. 그리고 SDS (single distance search) 고속 탐색 방식을 대역폭 확장 시스템의 코드북 매핑에 적용하여, 최종적으로 저 전력 대역 확장 AMR 복호화기를 설계하였다. 제안된 대역폭 확장 방법은 AMR 복호화기 후단에 독립적으로 설치되는 기존 DTE (decode then extend)방식에 비해 28 % 정도의 계산량을 줄이고 알고리즘 지연도 20 msec 줄였다. 또한 제안방식은 피치정보를 이용한 classified 코드북 매핑 방식을 사용하여 스펙트럼 포락선을 확장하였고, 코드 벡터 탐색 시 가중치를 적용하여 광대역 합성 음성의 성능을 향상시켰다.

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 (Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments)

  • 홍정표;박상준;정상배;한민수
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.11-16
    • /
    • 2013
  • This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VAD to drastically decline because the fluctuation of features in the noise intervals results in increased false alarm rates. In this paper, in order to improve the VAD performance, harmonic-weighted energy is proposed. This feature extraction method focuses on voiced speech intervals and weighted harmonic-to-noise ratios to determine the amount of the harmonicity to frame energy. For performance evaluation, the receiver operating characteristic curves and equal error rate are measured.

ZINC 함수 여기신호를 이용한 분석-합성 구조의 초 저속 음성 부호화기 (Very Low Bit Rate Speech Coder of Analysis by Synthesis Structure Using ZINC Function Excitation)

  • 서상원;김영준;김종학;김영주;이인성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.349-350
    • /
    • 2006
  • This paper presents very low bit rate speech coder, ZFE-CELP(ZINC Function Excitation-Code Excited Linear Prediction). The ZFE-CELP speech codec is based on a ZINC function and CELP modeling of the excitation signal respectively according to the frame characteristic such as a voiced speech and an unvoiced speech. And this paper suggest strategies to improve the speech quality of the very low bit rate speech coder.

  • PDF

음성코덱에서의 잡음제거 방식 비교 (Comparion of Noise Suppression Methods in Voice CODEC)

  • 이진걸
    • 공학논문집
    • /
    • 제3권1호
    • /
    • pp.43-46
    • /
    • 1998
  • 지난 30년간 부가 잡음에 의해 열화된 음성신호의 개선에 관해 많은 연구가 진행되어 왔다. 잡음제거를 위한 고전적인 방법인 spectral subtraction, Wiener filter와 최근에 제안된 심리음향모델에 근거한 perceptual filter, EVRC의 잡음제거단을 성능과 구현의 복잡도 측면에서 비교하였다.

  • PDF

순방향 WCDMA 채널에서 AMR 음성 코덱 모드 할당방식에 대한 성능 비교 (Performance Comparison of AMR Codec Mode Allocations in Downlink WCDMA System)

  • 정성환;홍정완;이상천;이창훈
    • 대한산업공학회지
    • /
    • 제31권4호
    • /
    • pp.349-357
    • /
    • 2005
  • The Adaptive Multi-Rate (AMR) speech codec is the mandatory for voice service in WCDMA systems. The AMR codec can be used efficiently to provide a balanced trade-off between the capacity and quality of voice by adjusting various service rates. In this paper, three ways of AMR mode allocation schemes on the downlink in WCDMA system are evaluated. To evaluate users satisfaction efficiently, new system performance measure and analytic models are proposed. The proposed analytic models can be applied to obtain optimal mode allocation ways while considering the system capacity and quality of voice. In numerical examples, the ways of finding optimal parameters are illustrated for the given traffic loads and the performances of three mode allocation schemes are compared.