• 제목/요약/키워드: Speech coder

검색결과 166건 처리시간 0.022초

TTS DB 압축을 위한 광대역 파형보간 부호기 구현 (Implementation of Wideband Waveform Interpolation Coder for TTS DB Compression)

  • 양희식;한민수
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.143-158
    • /
    • 2005
  • The adequate compression algorithm is essential to achieve high quality embedded TTS system. in this paper, we Propose waveform interpolation coder for TTS corpus compression after many speech coder investigation. Unlike speech coders in communication system, compression rate and anality are more important factors in TTS DB compression than other performance criteria. Thus we select waveform interpolation algorithm because it provides good speech quality under high compression rate at the cost of complexity. The implemented coder has bit rate 6kbps with quality degradation 0.47. The performance indicates that the waveform interpolation is adequate for TTS DB compression with some further study.

  • PDF

A Scalable Audio Coder for High-quality Speech and Audio Services

  • 이길호;이영한;김홍국;김도영;이미숙
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.75-86
    • /
    • 2007
  • In this paper, we propose a scalable audio coder, which has a variable bandwidth from the narrowband speech bandwidth to the audio bandwidth and also has a bit-rate from 8 to 320 kbits/s, in order to cope with the quality of service(QoS) according to the network load. First of all, the proposed scalable coder splits bandwidth of the input audio into narrowband up to around 4 kHz and above. Next, the narrowband signals are compressed by a speech coding method compatible to an existing standard speech coder such as G.729, and the other signals whose bandwidth is above the narrowband are compressed on the basis of a psychoacoustic model. It is shown from the objective quality tests using the signal-to-noise ratio(SNR) and the perceptual evaluation of audio quality(PEAQ) that the proposed scalable audio coder provides a comparable quality to the MPEG-1 Layer III (MP3) audio coder.

  • PDF

A Low Bit Rate Speech Coder Based on the Inflection Point Detection

  • Iem, Byeong-Gwan
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제15권4호
    • /
    • pp.300-304
    • /
    • 2015
  • A low bit rate speech coder based on the non-uniform sampling technique is proposed. The non-uniform sampling technique is based on the detection of inflection points (IP). A speech block is processed by the IP detector, and the detected IP pattern is compared with entries of the IP database. The address of the closest member of the database is transmitted with the energy of the speech block. In the receiver, the decoder reconstructs the speech block using the received address and the energy information of the block. As results, the coder shows fixed data rate contrary to the existing speech coders based on the non-uniform sampling. Through computer simulation, the usefulness of the proposed technique is shown. The SNR performance of the proposed method is approximately 5.27 dB with the data rate of 1.5 kbps.

1차원 SPIHT를 이용한 가변 비트율 음성 부호기의 설계 (Design of a Variable Bit Rate Speech Coder Based on One-dimensional SPIHT)

  • 나훈;정대권
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.443-451
    • /
    • 2003
  • 코드북 기반의 CELP 부호기는 코드북에 미리 할당된 부호화 비트율에 따라서 여기 신호를 모델링한 후 코드북을 이용하여 음성신호를 합성한다. 따라서 임의의 다양한 비트율을 하나의 부호기에서 지원하지 못하는 단점이 있다. 본 논문에서 제안하는 가변 비트율 부호기는 웨이블렛 변환 (wavelet transform과 1차원 SPIHr (one dimensional SPIHT)를 이용하여 현재 프레임에 할당되는 비트수에 따라서 여기신호를 부호화한다. 또한 CELP 부호기의 경우처럼 특정한 몇 가지 형태로 여기신호(또는 코드북)를 모델링할 필요가 없고, 정확한 피치정보가 없어도 여기신호를 사용자의 요구에 따라 다양한 비트율로 부호화할 수 있다. 그 결과 코드북이 존재하지 않기 때문에 부호기의 복잡도가 낮으며, CELP 기반의 G.729와 G.723.1 부호기와의 음질 비교 결과 동등하거나 나은 결과를 보여준다.

TMS320VC5402 DSP를 이용한 G.723.1A 음성부호화기의 실시간 구현 (Real-time Implementation of G.723.1A Speech Coder Using a TMS320VC5402 DSP)

  • 이송찬;정익주
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.65-75
    • /
    • 2003
  • This paper describes the issues associated with the real-time implementation of G.723.1A dual-rate speech coder on a TMS320VC5402 DSP. Firstly, the main features of the G.723.1A speech coder and the procedure involved in the implementation using assembly and C languages are discussed. Various real-time implementation issues such as memory/MIPS tradeoffs are also presented. For fixed-point implementation, we converted the ITU-T fixed-point ANSI C code into TMS320VC5402 code in the bit-exact way through verification using the test vectors. Finally, as the result of implementation, we present the MIPS and memory requirement for the real-time operation.

  • PDF

Improved Excitation Modeling for Low-Rate CELP Speech Coding

  • Kwon, Chul-Hong
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권2E호
    • /
    • pp.24-30
    • /
    • 1999
  • In this paper, we propose a weighting dependent mixed source model (WD-MSM) coder that is an improved version of a CELP-based mixed source model (C-MSM) coder. The coder classifies speech segments into three types : voiced, unvoiced and mixed. The excitation for a voiced frame is an adaptive source, and the excitation for an unvoiced frame is a stochastic source. The coder has a modified mixed source for a mixed frame. We apply different weighting functions for three classes. Simulation results show that the proposed coder at 4 kbits/s yields very good performance both subjectively and objectively.

  • PDF

멀티채널 AMR 음성부호화기의 실시간 구현 (Real-time Implementation of Multi-channel AMR Speech Coder)

  • 지덕구;박만호;김형중;윤병식;최송인
    • 한국음향학회지
    • /
    • 제20권8호
    • /
    • pp.19-23
    • /
    • 2001
  • 고속 저전력의 DSP (Programmable Digital Signal Processor)가 개발됨에 따라 이동통신 분야에서 시스템 및 단말기 등이 DSP를 사용하여 구현되고 있다. 본 논문에서는 DSP를 사용한 AMR (Adaptive Multi-rate) 음성부호화기의 멀티 채널 실시간 구현에 관하여 논한다. AMR 음성부호화 알고리즘을 250 MHz로 동작하는 32비트 정수형 DSP 칩인 TMS320C6202를 사용하여 구현하였다. 실시간 동작을 위하여 cross compile, 선형 어셈블리 최적화, TMS320C62xx 어셈블리 최적화 작업을 수행하였다. AMR 음성부호화기에 음성 데이터 입출력 기능 및 외부 CPU와의 통신기능을 포함하였다. DSP EVM 보드를 사용하여 AMR 음성부호화기를 개발하였고, ETRI에서 개발중인 비동기 IMT-2000 시스템 상에서 동작 및 기능을 검증하였다.

  • PDF

TMS320C5509 DSP를 이용한 AMR-WB 음성부호화기의 실시간 구현 (Real-time Implementation or AMR-WB Speech Coder Using TMS320C5509 DSP)

  • 최송인;지덕구
    • 한국음향학회지
    • /
    • 제24권1호
    • /
    • pp.52-57
    • /
    • 2005
  • AMR-WB 음성부호화기는 50~7000 Hz의 확장된 대역폭을 갖는 음성신호를 압축/복원하는 광대역 음성부호화기로써 6.60 kbit/s에서 23.85 kbit/s까지 9개의 전송 비트율을 가지고 있다. 본 논문에서는 2개의 MAC (Multimply and-Accumulate) 유닛을 가진 Tl의 16bit 고정소수점 DSP인 TMS320C5509 DSP를 이용한 AMR-WB 음성부호화기의 실시간 구현에 관하여 논한다. 실시간 구현은 intrinsic을 이용한 C수준의 구현 및 어셈블리 코딩에 의한 구현을 수행하여 그 결과를 비교하였다. 어셈블리 코딩에 의하여 실시간 구현된 AMR-WB 음성부호화기는 23.85 kbit/s 모드에서 42.9 Mclock의 계산량을 가지며, 사용된 프로그램 메모리는 15.1 kword이고, 데이터 ROM 메모리는 9.2 kword이고 데이터 RAM 메모리는 13.9 kword이다.

2.4kbps EHSX 음성부호화기와 결합된 채널코딩 방법 (Design of Channel Coding Combined with 2.4kbps EHSX Coder)

  • 이창환;김영준;이인성
    • 한국콘텐츠학회논문지
    • /
    • 제10권9호
    • /
    • pp.88-96
    • /
    • 2010
  • 본 논문에서는 2.4kbps EHSX 음성코더와 결합된 채널 코딩 방법을 제안한다. 채널 코더의 부호율은 1/2로 하였고, 그에 따라 부호율이 1/3인 convolutional 코더를 펑처링(puncturing)함으로써 부호율을 맞추었다. 채널 코더의 부호율을 1/3에서 1/2로 하기 위한 펑처링에 소스 부호화된 비트들의 중요도를 고려하여 채널 코딩을 수행할 때 성능 향상을 얻도록 하였다. 소스 코더로 사용된 EHSX 코더의 부호와된 비트들의 중요도는 4명의 여성과 남성으로 구성된 음성을 사용하여 분석하였고, 실험 결과, EHSX 코더가 출력하는 부호화된 비트들은 서로 다른 비트 에러 감응도(sensitive)를 가짐을 알 수 있었다. 소스 코더와 결합된 채널 코더의 성능 평가를 위한 모의 실험은 Rayleigh 페이딩 채널과 AWGN 채널 상에서 수행되었으며, 제안된 방법을 통해 MOS 0.25~0.35 정도의 성능 향상을 이루었다.

음성 부호기용 채널 부호화기의 구현 및 성능 분석 (Channel Coder Implementation and Performance Analysis for Speech Coding: Considering bit Importance of Speech Information-part III)

  • 강법주;김선영;김상천;김영식
    • 대한전자공학회논문지
    • /
    • 제27권4호
    • /
    • pp.484-490
    • /
    • 1990
  • In speech coding scheme, because information bits have different error sensitivities over channel errors, the channel coder for combining with speech coding should be realized by the variable coding rate considering the bit importance of speech information bits. In realizing the 4 kbps channel coder for 12kbps speech, this paper have chosen the channel coding method by analyzing the hard-decision post-decoding error rate of RCPC(Rate Compatible Punctured Convolutional) codes and bit error sensitivity of 12 kbps speech. Under the coherent QPSK and Rayleigh fading channel, the performance analysis has showed that 10dB gain was obtained in speech SEGSNR by 4-level uneuqal error protection, which was compared with the caseof no channel coding at 7dB channel SNR.

  • PDF