• 제목/요약/키워드: Speech Quality

검색결과 804건 처리시간 0.025초

$TMS320C6701^TM$을 이용한 2.4kbps EHSX 음성 부호화기의 실시간 구현 (Real-time implementation of the 2.4kbps EHSX Speech Coder Using a $TMS320C6701^TM$ DSPCore)

  • 양용호;이인성;권오주
    • 한국통신학회논문지
    • /
    • 제29권7C호
    • /
    • pp.962-970
    • /
    • 2004
  • 본 논문에서는 TI사의 부동소수점 DSP인 TMS320C6701$^{TM}$을 이용한 2.4kbps EHSX(Enhanced Harmonic Stochastic Excitation) 음성부호화기의 실시간 구현 방법에 대해서 논한다. EHSX는 4khz의 대역폭을 갖는 음성신호를 2.4kbps의 비트율을 갖는 압축 패킷으로 변환하는 부호화 방법으로, 유/무성음에 따라 하모닉(Harmonic) 여기 부호화 방법과 CELP 부호화 방법을 선택적으로 사용하는 구조를 갖는다. 본 논문에서는 이러한 EHSX의 실시간 구현을 위해 연산량의 큰 비중을 차지하는 CELP 분석의 코드북 검색부분과 일부 IIR 필터링 부분에 대한 고정소수점 변환 방법과, 부호화시 하모닉 검색 및 피치 검색방법에 대한 알고리즘 상 연산량 감소 방법, DSP의 구조를 고려한 코드를 배치방법 등 연산량을 감소시키기 위한 최적화 방법을 제시한다. 설계된 음성 부호화기는 PESQ(perceptual evaluation of speech quality) ITU-T Recommendation P.862를 이용한 음질 평가 결과로서 약MOS 3.28을 얻었으며, 실시간으로 압축 및 복원을 수행한다.

V/S/TSIUVC 스위칭을 이용한 음성부호화 방식에 관한 연구 (A study on Speech Coding Method using V/S/TSIUVC Switching)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제7권6호
    • /
    • pp.1180-1184
    • /
    • 2006
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서 모음과 무성자음이 있는 프레임에서 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭과 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 96.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

분산형 시스템을 적용한 음성합성에 관한 연구 (A Study on Speech Synthesizer Using Distributed System)

  • 김진우;민소연;나덕수;배명진
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.209-215
    • /
    • 2010
  • 최근 광대역 무선 통신망의 보급과 소형 저장매체의 대용량화로 인하여 이동형 단말기가 주목 받고 있다. 이로 인해 이동형 단말기에 문자정보를 청취할 수 있도록 문자를 음성으로 변환해 주는 TTS(Text-to-Speech) 기능이 추가되고 있다. 사용자의 요구사항은 고음질의 음성합성이지만 고음질의 음성합성은 많은 계산량이 필요하기 때문에 낮은 성능의 이동형 단말기에 는 적합하지 않다. 본 논문에서 제안하는 분산형 음성합성기 (DTTS)는 고음질 음성합성이 가능한 코퍼스 기반 음성합성 시스템을 서버와 단말기로 나누어 구성한다. 서버 음성합성 시스템은 단말기에서 전송된 텍스트를 데이터베이스 검색 후 음성파형 연결정보를 생성하여 단말기로 전송하고, 단말기 음성합성 시스템은 서버 음성합성 시스템에서 생성된 음성파형 연결정보와 단말기에 존재하는 데이터베이스를 이용하여 간단한 연산으로 고음질 합성음을 생성할 수 있는 시스템이다. 제안하는 분산형 합성기는 단말기에서의 계산량을 줄여 저가의 CPU 사용, 전력소모의 감소, 효율적인 유지보수를 할 수 있도록 하는 장점이 있다.

잡음음성인식을 위한 음성개선 방식들의 성능 비교 (Performance Comparison of the Speech Enhancement Methods for Noisy Speech Recognition)

  • 정용주
    • 말소리와 음성과학
    • /
    • 제1권2호
    • /
    • pp.9-14
    • /
    • 2009
  • Speech enhancement methods can be generally classified into a few categories and they have been usually compared with each other in terms of speech quality. For the successful use of speech enhancement methods in speech recognition systems, performance comparisons in terms of speech recognition accuracy are necessary. In this paper, we compared the speech recognition performance of some of the representative speech enhancement algorithms which are popularly cited in the literature and used widely. We also compared the performance of speech enhancement methods with other noise robust speech recognition methods like PMC to verify the usefulness of speech enhancement approaches in noise robust speech recognition systems.

  • PDF

한국어 음성합성기의 성능 향상을 위한 합성 단위의 유무성음 분리 (Separation of Voiced Sounds and Unvoiced Sounds for Corpus-based Korean Text-To-Speech)

  • 홍문기;신지영;강선미
    • 음성과학
    • /
    • 제10권2호
    • /
    • pp.7-25
    • /
    • 2003
  • Predicting the right prosodic elements is a key factor in improving the quality of synthesized speech. Prosodic elements include break, pitch, duration and loudness. Pitch, which is realized by Fundamental Frequency (F0), is the most important element relating to the quality of the synthesized speech. However, the previous method for predicting the F0 appears to reveal some problems. If voiced and unvoiced sounds are not correctly classified, it results in wrong prediction of pitch, wrong unit of triphone in synthesizing the voiced and unvoiced sounds, and the sound of click or vibration. This kind of feature is usual in the case of the transformation from the voiced sound to the unvoiced sound or from the unvoiced sound to the voiced sound. Such problem is not resolved by the method of grammar, and it much influences the synthesized sound. Therefore, to steadily acquire the correct value of pitch, in this paper we propose a new model for predicting and classifying the voiced and unvoiced sounds using the CART tool.

  • PDF

음질 개선을 위한 돌발잡음 제거와 음성복원 (Abrupt Noise Cancellation and Speech Restoration for Speech Enhancement)

  • 손백권;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.101-104
    • /
    • 2003
  • In this paper, speech quality is improved by removing abrupt noise intervals and then substituting the gaps with estimates of the previous speech waveform. An abrupt noise detection signal has been proposed as a prediction error signal by utilizing LP coefficients of the previous frame. Abrupt noise intervals are estimated by using spectral energy. After removing estimated noise intervals, we applied several waveform substitution techniques such as zero substitution, previous frame repetition, pattern matching, and pitch waveform replication. To prove the validity of our algorithm, the LPC spectral distortion test and the recognition test are executed and, the results show that the speech quality is fairly well improved.

  • PDF

음성통신 중 웨이브렛 계수 양자화를 이용한 비밀정보 통신 방법 (Secret Data Communication Method using Quantization of Wavelet Coefficients during Speech Communication)

  • 이종관
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (D)
    • /
    • pp.302-305
    • /
    • 2006
  • In this paper, we have proposed a novel method using quantization of wavelet coefficients for secret data communication. First, speech signal is partitioned into small time frames and the frames are transformed into frequency domain using a WT(Wavelet Transform). We quantize the wavelet coefficients and embedded secret data into the quantized wavelet coefficients. The destination regard quantization errors of received speech as seceret dat. As most speech watermark techniques have a trade off between noise robustness and speech quality, our method also have. However we solve the problem with a partial quantization and a noise level dependent threshold. In additional, we improve the speech quality with de-noising method using wavelet transform. Since the signal is processed in the wavelet domain, we can easily adapt the de-noising method based on wavelet transform. Simulation results in the various noisy environments show that the proposed method is reliable for secret communication.

  • PDF

음성압축을 위한 전처리기법의 비교 분석에 관한 연구 (A Study on a Analysis and Comparison of Preprocessing Technique for the Speech Compression)

  • 장경아;민소연;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.125-136
    • /
    • 2003
  • Speech coding techniques have been studied to reduce the complexity and bit rate but also to improve the sound quality. CELP type vocoder, has used as a one of standard, supports the great sound quality even low bit rate. In this paper, the preprocessing of input speech to reduce the bit rate is the different with the conventional vocoder. The different kinds of parameter are used for the preprocessing so this paper is compared with theses parameters for finding the more appropriate parameter for the vocoder. The parameters are used to synthesize the speech not to encode or decode for coding technique so we proposed the simple algorithm not to have the influence on the processing time or the computation time. The parameters in used the preprocessing step are speaking rate, duration and PSOLA technique.

  • PDF

VoIP 통화품질 개선을 위한 적응 재생 버퍼 제어 기법 (Adaptive Playout Buffer Control Method for Improvement of VoIP Speech Quality)

  • 강진아;고성택;임재윤
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.75-79
    • /
    • 2006
  • 실시간 음성 서비스를 지원하는 VoIP(Voice over IP) 시스템에서 음성 품질은 지연, 지터, 손실, 그리고 역전된 패킷 순서에 의해 손상된다. 본 논문에서는 적응 재생 알고리즘에 의해 지터를 보상하고 패킷 손실 보상을 수행하며 패킷 순서를 정렬하는 수신단의 적응 재생 버퍼 제어 기법(Adaptive Playout Buffer Control: APBC)을 제안하였다. 또한 임베디드 VoIP 시스템을 구현하여 구현 시스템에서의 APBC 성능을 측정한 결과, 처리속도는 257$\mu$sec로 실시간으로 처리하기에 적합하고 MOS(Mean Opinion Score)에 의한 음성 품질은 고정 재생 지연 알고리즘에 비해 18% 개선되었다.

  • PDF

Adaptive Speech Streaming Based on Packet Loss Prediction Using Support Vector Machine for Software-Based Multipoint Control Unit over IP Networks

  • Kang, Jin Ah;Han, Mikyong;Jang, Jong-Hyun;Kim, Hong Kook
    • ETRI Journal
    • /
    • 제38권6호
    • /
    • pp.1064-1073
    • /
    • 2016
  • An adaptive speech streaming method to improve the perceived speech quality of a software-based multipoint control unit (SW-based MCU) over IP networks is proposed. First, the proposed method predicts whether the speech packet to be transmitted is lost. To this end, the proposed method learns the pattern of packet losses in the IP network, and then predicts the loss of the packet to be transmitted over that IP network. The proposed method classifies the speech signal into different classes of silence, unvoiced, speech onset, or voiced frame. Based on the results of packet loss prediction and speech classification, the proposed method determines the proper amount and bitrate of redundant speech data (RSD) that are sent with primary speech data (PSD) in order to assist the speech decoder to restore the speech signals of lost packets. Specifically, when a packet is predicted to be lost, the amount and bitrate of the RSD must be increased through a reduction in the bitrate of the PSD. The effectiveness of the proposed method for learning the packet loss pattern and assigning a different speech coding rate is then demonstrated using a support vector machine and adaptive multirate-narrowband, respectively. The results show that as compared with conventional methods that restore lost speech signals, the proposed method remarkably improves the perceived speech quality of an SW-based MCU under various packet loss conditions in an IP network.