• 제목/요약/키워드: speech waveform

검색결과 135건 처리시간 0.021초

피치 변경법의 성능평가 (On a Performance Evaluation of the Pitch Alteration Techniques of speech waveform coding)

  • 금홍;배성근;조왕래;배명진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.103-106
    • /
    • 1994
  • Generally we are used to apply waveform coding method obtaining the high quality synthesized speech. But we have to solve the problems, memory capacity and pitch alteration, for applying the waveform coding method to speech synthesis by rule. The former problem is conquered by improving the integrated semiconductor technology, but the latter problem remains. In this paper, we compare the methods that have proposed for pitch alteration in our laboratory until now. These methods are not change properties of vocal tract formants and only altered the pitch halving method, 1.14% for cepstrum analysis method, and 2.36% for hamonics compensated with the phase method.

  • PDF

파형보간 코더에서 파라미터간 거리차를 이용한 가변비트율 기법 (A New Variable Bit Rate Scheme for Waveform Interpolative Coders)

  • 양희식;정상배;한민수
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.81-91
    • /
    • 2008
  • In this paper, we propose a new variable bit-rate speech coder based on the waveform interpolation concept. After the coder extracted all parameters, the amounts of the distortions between the current and the predicted parameters which are estimated by extrapolation using past two parameters are measured for all parameters. A parameter would not be transmitted unless the distortion exceeds the preset threshold. At the decoder side, the non-transmitted parameter is reconstructed by extrapolation with past two parameters used to synthesize signals. In this way, we can reduce 26% of the total bit rate while retaining the speech quality degradation below 0.1 PESQ score.

  • PDF

고음질 합성용 스펙트럼 보상된 시간축조절 피치 변경법 (On a Pitch Alteration Method by Time-axis Scaling Compensated with the Spectrum for High Quality Speech Synthesis)

  • 배명진;이원철;임성빈
    • 한국음향학회지
    • /
    • 제14권4호
    • /
    • pp.89-95
    • /
    • 1995
  • 파형부호화법은 음성신호에서 잉여성분 제거과정을 통해 유용한 파형의 꼴을 단순히 보존하는 방법이다. 음성합성분야에서 고음질의 파형부호화법은 분석에 의한 합성방식으로 주로 적용된다. 그렇지만 이러한 부호화법에서 파라미터들은 여기용과 성도 여파기용으로 분리되지 않기 때문에 이 파형부호화법을 규칙에 의한 합성 방식으로 사용하기는 어렵다. 파형부호화합을 규칙합성에 적용하려면 운율조절을 위해 피치변경법이 필요하다. 본 논문에서는 시간축 스케일링과 주파수상에서의 스펙트럼 보정을 통해 파형부호화법에서 피치를 변경할 수 있는 새로운 피치변경법을 제안하였다. 이 방식은 파형의 위상성분을 보존하는 시간-주파수 혼성법이고, 50%의 피치변경을 수행하였을 때 2.5%정도의 스펙트럼 왜곡을 나타내었다.

  • PDF

음성 파형분절의 지수함수 스므딩 기법에 관한 연구 (The Study on the Expential Smoothing Method of the Concatenation Parts in the Speech Waveform)

  • 박찬수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.7-10
    • /
    • 1991
  • In a text-to-speech system, sound units (phonemes, words, or phrases, etc.) can be concatenated together to produce required utterance. The quality of the resulting speech is dependent on factors including the phonological/prosodic contour, the quality of basic concatenation units, and how well the units join together. Thus although the quality of each basic sound unit is high, if occur the discontinuity in the concatenation part then the quality of synthesis speech is decrease. To solve this problem, a smoothing operation should be carried out in concatenation parts. But a major problem is that, as yet, no method of parameter smoothing is available for joining the segment together. Thus in this paper, we proposed a new aigorithm that smoothing the unnatural discountinuous parts which can be occured in speech waveform editing. This algorithm used the exponential smoothing method.

  • PDF

식도음성의 고유기저주파수 발현 현상 (Intrinsic Fundamental Frequency(Fo) of Vowels in the Esophageal Speech)

  • 홍기환;김성완;김현기
    • 대한후두음성언어의학회지
    • /
    • 제9권2호
    • /
    • pp.142-146
    • /
    • 1998
  • Background : It has been established that the fundamental frequency(Fo) of the vowels varies systemically as a function of vowel height. Specifically, high vowels have a higher Fo than low vowels. Two major explanations or hypotheses dominate contemporary accounts of fired to explain the mechanisms underlying intrinsic variation in vowel Fo, source-tract coupling hypothesis and tongue-pull hypothesis. Objectives : Total laryngectomy surgery necessiates removal of all structures between the hyoid bone and the tracheal rings. Therefore, the assumption that no direct interconnection exists between the tongue and pharyngoesophageal segment that would mediate systematic variation in vowel Fo appears quite reasonable. If tongue-pull hypothesis is correct, systemic differences in Fo between high versus low vowels produced by esophageal speakers would not Or expected. We analyzed the Fo in the vowels of esophageal voice. Materials and method : The subjects were 11 cases of laryngectomee patients with fluent esophageal voice. The five essential vowels were recorded and analyzed with computer speech analysis system(Computerized Speech Lab). The Fo was measured using acoustic waveform, automatically and manually, and narrow band spectral analysis. Results : The results of this study reveal that intrinsic variation in vowel Fo is clearly evident in esophageal speech. By analysis using acoustic waveform automatically, the signals were too irregular to measure the Fo precisely. So the data from automatic analysis of acoustic waveform is not logical. But the Fo by measuring with manually calculated acoustic waveform or narrowband spectral analysis resulted in acceptable results. These results were interpreted to support neither the source-tract coupling nor the tongue-pull hypotheses and led us to offer an alternative explanation to account for intrinsic variation of Fo.

  • PDF

고음질 합성방식용 V/UV 스펙트럼상의 피치변경법에 관한 연구 (On a Pitch Alteration Technique in the V/UV Spectrum for High Quality Speech Synthesis Technique)

  • 조왕래;배명진;김동성
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.99-103
    • /
    • 1996
  • 파형부호화법은 파형의 잉여성분 제거과정을 통해 음성파형의 꼴을 단순히 보존하는 부호화법이다. 음성합성분야에서 파형부호화법은 주로 분석에 의한 고음질 합성방식으로 적용되고 있다. 그렇지만 이 부호화법은 분석시에 여기원과 성도여파기 피라미터들로 분류하여 처리하지 않기 때문에 규칙에 의한 합성방식으로는 적용하기가 힘들다. 본 논문에서는 스펙트럼영역에서 유성스펙트럼에 대해서만 스펙트럼축의 변경을 통해 피치를 조절하는 새로운 피치변경법을 제안하였다. 이 방법은 주파수영역의 처리법이며 50%의 피치변경을 수행하여도 스펙트럼 왜곡율이 2.7% 이하로 얻어졌고, 시간영역의 위상특성 보상에 의해 프레임간의 진폭연결이 자연스럽다는 장점을 갖느다.

  • PDF

음성 통계 모형에 따른 음성 왜곡량 감소를 위한 비선형 음성강조법 (Nonlinear Speech Enhancement Method for Reducing the Amount of Speech Distortion According to Speech Statistics Model)

  • 최재승
    • 한국전자통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.465-470
    • /
    • 2021
  • 잡음이 존재하는 실제 환경에서 음성인식을 실시하는 경우에 음성인식의 성능 열화 및 음성의 품질이 저화되지 않는 강건한 음성인식 기술이 필요하다. 이러한 음성인식 기술을 개발함으로써 사람의 음성 스펙트럼과 유사한 잡음 환경에서도 안정되고 높은 음성인식률이 실현되는 어플리케이션이 요구된다. 따라서 본 논문에서는 최소 평균 제곱의 오차를 기반으로 한 단시간 스펙트럼 진폭 방법인 MMSA-STSA 추정 알고리즘에 기초한 잡음억압을 처리하는 음성강조 알고리즘을 제안한다. 이 알고리즘은 단일 채널 입력에 기초한 효과적인 비선형 음성강조 알고리즘이며, 높은 잡음억제 성능을 가지고 있으며 음성의 통계적인 모델에 기초하여 음성의 왜곡량을 줄이는 기법이다. 본 실험에서는 MMSA-STSA 추정 알고리즘의 유효성을 확인하기 위하여 입력 음성파형과 출력 음성파형을 비교하여 제안한 알고리즘의 효과를 확인한다.

음성 주파수 분포 분석을 통한 편집 의심 지점 검출 방법 (A Speech Waveform Forgery Detection Algorithm Based on Frequency Distribution Analysis)

  • 허희수;소병민;양일호;유하진
    • 말소리와 음성과학
    • /
    • 제7권4호
    • /
    • pp.35-40
    • /
    • 2015
  • We propose a speech waveform forgery detection algorithm based on the flatness of frequency distribution. We devise a new measure of flatness which emphasizes the local change of the frequency distribution. Our measure calculates the sum of the differences between the energies of neighboring frequency bands. We compare the proposed measure with conventional flatness measures using a set of a large amount of test sounds. We also compare- the proposed method with conventional detection algorithms based on spectral distances. The results show that the proposed method gives lower equal error rate for the test set compared to the conventional methods.

On a Cepstral Pitch Alteration Technique for Prosody Control in the Speech Synthesis System with High Quality

  • Kim, Kyu-Hong;Baek, Seong-Joon;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권1E호
    • /
    • pp.32-36
    • /
    • 1999
  • In the area of the speech synthesis techniques, the waveform coding methods maintain the intelligibility and naturalness of synthetic speech. In order to apply the waveform coding techniques to synthesis by rule, we must be able to alter the pitches of synthetic speech. In this paper, we propose a new pitch altering method that compensates phase distortion of the cepstral pitch alteration method with time scaling method in the time domain. This method can remove some spectrum distortion which is occurred in conjunction point between the waveforms. For performance test the spectrum distortion rate was used as objective criterion and the MOS(Mean Opinion Score) was used as subjective criterion. As a result, the spectrum distortion and MOS are obtained by 0.66% and 3.9, respectively.

  • PDF

음성엔코더 시뮬레이션에 사용되는 난수발생기 설계 (Design of Random Number Generator for Simulation of Speech-Waveform Coders)

  • 박중후
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.3-9
    • /
    • 2001
  • 본 논문에서는 음성엔코더 (speech-waveform coder) 시뮬레이션에 사용할 수 있는 난수발생기를 설계하였다. 설계된 난수발생기는 규정된 확률밀도함수와 규정된 스펙트럼을 동시에 만족해야 하는 환경에서 필요로 하는 것이다. 선형필터와 메모리가 없는 비선형 회로로 구성되는 Sondhi 알고리즘 [1]을 기반으로 하여 난수발생기를 구현하였고, 균일 분포, 이진 분포, 감마 분포와 같은 연속적인 확률분포함수들을 얻기 위해 필요한 선형필터와 비선형 회로를 구현하는 방법을 연구하였다. 또한 분석적인 방법을 통하여 구현해야 하는 비선형 회로가 비대칭 형태로 표현되지 않는 경우 (카이-제곱 분포, lognormal 분포)와 수학식으로 표현할 수 없는 경우 (Student-t 분포, F 분포)에는 Sondhi 알고리즘이 동작하지 않음을 보였다.

  • PDF