• 제목/요약/키워드: speech waveform

검색결과 135건 처리시간 0.022초

TTS DB 압축을 위한 광대역 파형보간 부호기 구현 (Implementation of Wideband Waveform Interpolation Coder for TTS DB Compression)

  • 양희식;한민수
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.143-158
    • /
    • 2005
  • The adequate compression algorithm is essential to achieve high quality embedded TTS system. in this paper, we Propose waveform interpolation coder for TTS corpus compression after many speech coder investigation. Unlike speech coders in communication system, compression rate and anality are more important factors in TTS DB compression than other performance criteria. Thus we select waveform interpolation algorithm because it provides good speech quality under high compression rate at the cost of complexity. The implemented coder has bit rate 6kbps with quality degradation 0.47. The performance indicates that the waveform interpolation is adequate for TTS DB compression with some further study.

  • PDF

평탄화된 여기 스펙트럼에서 켑스트럼 피치 변경법에 관한 연구 (On a Pitch Alteration Technique by Cepstrum Analysis of Flattened Excitation Spectrum)

  • 조왕래
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.159-162
    • /
    • 1998
  • Speech synthesis coding is classified into three categories: waveform coding, source coding and hybrid coding. To obtain the synthetic speech with high quality, the synthesis by waveform coding is desired. However, it is difficult to apply waveform coding to synthesis by syllable or phoneme unit, because it does not divide the speech into excitation and formant component. Thus it is required to alter the excitation in waveform coding for applying waveform coding to synthesis by rule. In this paper we propose a new pitch alteration method that minimizes the spectrum distortion by using the behavior of cepstrum. This method splits the spectrum of speech signal into excitation spectrum and formant spectrum and transforms the excitation spectrum into cepstrum domain. The pitch of excitation cepstrum is altered by zero insertion or zero deletion and the pitch altered spectrum is reconstructed in spectrum domain. As a result of performance test, the average spectrum distortion was below 2.29%.

  • PDF

시간 - 주파수 변환에 의한 파형 대칭 피치변경법 (On A Pitch Alteration using the Waveform Symmetry with Time - Frequency Conversion)

  • 박형빈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.147-150
    • /
    • 1998
  • In the case of speech synthesis, the waveform coding method with high quality is mainly used to the synthesis by analysis. Because the parameters of this coding method are not classified as both excitation and vocal tract parameters, it is difficult to apply the waveform coding method to the synthesis by rule. Thus, in order to apply the waveform coding method to the synthesis by rule, a pitch alteration is required for the prosody control. In the speech synthesis method by the conventional PSOLA technique, applying symmetric window function to asymmetric speech waveform, it occurs the unbalance phenomenon of energy according to the overlapped degree of pitch interval adjustment. In this paper to overcome the unbalance phenomenon of energy, we proposed a new method that can convert asymmetric waveform to symmetric one by time-frequency conversion. As a result, we can obtain an average spectrum distortion ratio with 6.38% according to the pitch alteration ratio.

  • PDF

음성 파형코딩의 음원피치 변경에 관한 연구 - LPC와 주기반분법에 의한 피치변경법 - (On Altering the Pitch of Speech Signals in Waveform Coding -(Altering Method by the LPC and the Pitch Halving)-)

  • 민경중
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.45-49
    • /
    • 1991
  • In area of the speech synthesis, the waveform coding with high quality are mainly used to the synthesis by analysis. However, it is difficult to applying the waveform coding to the synthesis by rule, because the parameters of this coding are not classified as either excitation parameters and vocal tract parameters. In this paper, we proposed a new pitch change method that can alter the pitch periods in the waveform coding. The proposed method expands the pitch period by the LPC synthesis method, and then the period is compressed by the waveform halving technique. Thus, it is possible that the waveform coding is carried out the synthesis by rule in speech processing.

  • PDF

위상 보상된 고조파 스케일링에 의한 음성합성용 피치변경법 (On a Pitch Alteration Method using Scaling the Harmonics Compensated with the Phase for Speech Synthesis)

  • 배명진
    • 한국음향학회지
    • /
    • 제13권6호
    • /
    • pp.91-97
    • /
    • 1994
  • 신호처리에서, 파형부화법은 음성신호의 잉여성분을 감소시킴으로써 파형을 유지하는 부호화 방법이다. 음성 합성의 경우, 고음질의 파형부호화법은 주로 분석에 의한 합성법에 이용된다. 그러나, 파형부호화법은 여기 파라미터와 성도 파라미터로 분리하지 않고 처리하기 때문에 규칙에 의한 합성에 적용되기 어렵다. 따라서 파형부호화법을 규칙에 의한 합성에 이용하기 위해서는 피치변경이 필요하다. 본 논문에서, 우리는 파형부호화법에서 음성신호를 성도 파라미터와 여기 파라미터로 분리함으로써 피치 주기를 바꿀 수 있는 새로운 피치변경법을 제안한다. 이 방법은 시-주파수 혼성영억 방법으로 시간영역에서 파형의 위상성분과 주파수영역에서 파형의 진폭성분을 보존한다. 따라서 파형부호화법은 음성처리에 있어 규칙에 의한 합성을 할 수 있다. 본 논문에서 제안한 알고리즘을 이용한 경우, 단지 $2.94\%의$ 스펙트럼 왜곡만이 일어났다. 즉, 스펙트럼 왜곡이 시간영역에서의 피치변경법보다 $5.06\%$ 이상 감소되었다.

  • PDF

켑스트럼 분석에 의한 파형부호화의 피치변경에 관한 연구 (On a Pitch Change of the Waveform Coding by the Cepstrum Analysis of Speech Waveforms)

  • 배명진;이미숙
    • 한국음향학회지
    • /
    • 제11권4호
    • /
    • pp.14-21
    • /
    • 1992
  • 음성신호의 합성기법들 중에서 파형부호화법은 음질이 우수하기 때문에 분석에 의한 합성법으로 많이 사용되고 있다. 그렇지만 음원과 성도의 특성을 분리하지 않고 파형의 잉여분만을 제거한 후에 파형자체를 저장하기 때문에 규칙에 의한 합성기법으로 사용하기에는 어려움이 많다. 본 논문에서는 파형부호화법 중에서 선형 PCM부호화법으로 저장된 음성파형에 대해 피치주기를 조절할 수 있는 켑스트럼 분석법을 제안하여 파형자체의 음원을 분리하지 않고 피치주기를 변경시킬 수 있는 새로운 피치 변경법을 제안하였다. 따라서 음질이 우수한 파형부호화 합성법으로 규칙에 의한 합성을 수행할 수 있다.

  • PDF

음질 개선을 위한 돌발잡음 제거와 음성복원 (Abrupt Noise Cancellation and Speech Restoration for Speech Enhancement)

  • 손백권;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.101-104
    • /
    • 2003
  • In this paper, speech quality is improved by removing abrupt noise intervals and then substituting the gaps with estimates of the previous speech waveform. An abrupt noise detection signal has been proposed as a prediction error signal by utilizing LP coefficients of the previous frame. Abrupt noise intervals are estimated by using spectral energy. After removing estimated noise intervals, we applied several waveform substitution techniques such as zero substitution, previous frame repetition, pattern matching, and pitch waveform replication. To prove the validity of our algorithm, the LPC spectral distortion test and the recognition test are executed and, the results show that the speech quality is fairly well improved.

  • PDF

보이스 전보 시스템 구현을 위한 저가형 음성파형 부호화 알고리즘 (On a Speech Coding Algorithm for Low Cost Implementation of Voice Telegram System)

  • 나덕수;민소연;배명진
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.101-105
    • /
    • 2000
  • 전보는 우리에게 아주 필요한 생활수단으로 긴급한 내용을 전달하거나, 바쁜 생활을 대신하여 애경사를 맞은 상대방에게 뜻을 전달하는 중요한 수단으로 활용되고 있다. 전보를 처리하는 과정이 첨단 정보통신의 발달로 인해 점점 편리해 지고 있는 반면 전보의 내용은 여전히 문자위주의 정보전달에서 벗어나지 못하고 있다. 보이스 전보는 사용자의 목소리를 문자와 함께 전달하는 것이다. 목소리가 함께 전달됨으로써 발신자의 정감과 분위기를 수신자에게 전달하여 보다 다양한 의미의 메시지를 알릴 수 있다. 그러나 목소리 정보는 데이터량이 많아 그대로 사용하게 되면 큰 메모리와 고가의 프로세서가 필요하게 된다. 본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 알고리즘을 새로이 제안한다. 먼저 유성음 부분에서, 파형의 피치 주기별로 유사도를 측정하여 유사도가 높은 파형은 피치와 진폭 값만 저장하여 압축하고 유사도가 낮은 파형은 형태를 저장한다. 실험결과 45%로 압축할 때 MOS 4의 음질을 얻을 수 있었다.

  • PDF

서브밴드 스케일링에 의한 음성신호의 피치변경법에 관한 연구 (A Study on the Pitch Alteration Technique by Subband Scaling in Speech Signal)

  • 김영구;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.137-147
    • /
    • 2003
  • Speech synthesis can classify by synthesis way, that is waveform coding, source coding and mixture coding. Specially, waveform coding is suitable for high quality synthesis. However, it is not desirable by synthesis techniques of syllable or phoneme unit because it do not separate and handles excitation and formant part. Therefore, there is a need for pitch alteration method applied in synthesis by the rule in waveform coding. This study propose about pitch alteration method that use spectrum scaling after do to flatten spectra by subband linear approximation to minimize spectrum distortion. This paper show evaluation whether show excellency of some measure compared with LPC, Cepstrum, lifter function and method that propose. estimation method seeks distribution of each flattened signal and measured degree of flattened spectra Signal flattened is normalized, So that highest point amounts to zero, and distribution of signal ,whose average is zero, is calculated. this show result that measure the spectrum distortion rate to estimate performance of method that propose. The average spectrum distortion rate was kept below the average 2.12%, so the method that propose is superiors than existent method.

  • PDF

포만트 유사도 측정에 의한 PSOLA 음성 부호화에 관한 연구 (On a study on PSOLA coding technique based on the measurement of formant similarity)

  • 나덕수;이희원;김규홍;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.607-610
    • /
    • 1998
  • The major objectives of speech coding include high compression ratio for transmission in the band limited channel, high synthesized speech quality in terms of the intelligibility and the naturalness and fast processing speed. In general, speech coding methods are classified into the following three categories: the wavelform coding, the source coding and the hybird coding. In this paper, we proposed a new waveform coding method using PSOLA(pitch-synchronous overlap add) technique. First, we fixed one basic waveform per pitch and measured the formant similarity between basic and neighbor waveform. Second, if the similairy satisfied threshold values, we compress the neighbor waveform per pitch and then store or transmit. When the comparession is about 45%, we obtained about 4 in MOS.

  • PDF