• 제목/요약/키워드: speech waveform

검색결과 135건 처리시간 0.023초

전, 후방향 LPC법에 의한 음성 파형분절의 연결부분 스므딩법 (The Smoothing Method of the Concatenation Parts in Speech Waveform by using the Forward/Backward LPC Technique)

  • 이미숙
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.15-20
    • /
    • 1991
  • In a text-to-speech system, sound units (e. q., phonemes, words, or phrases) can be concatenated together to produce required utterance. The quality of the resulting speech is dependent on factors including the phonological/prosodic contour, the quality of basic concatenation units, and how well the units join together. Thus although the quality of each basic sound unit is high, if occur the discontinuity in the concatenation part then the quality of synthesis speech is decrease. To solve this problem, a smoothing operation should be carried out in concatenation parts. But a major problem is that, as yet, no method of parameter smoothing is availalbe for joining the segment together.

  • PDF

가변 운율 모델링을 이용한 고음질 감정 음성합성기 구현에 관한 연구 (A Study on Implementation of Emotional Speech Synthesis System using Variable Prosody Model)

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제14권8호
    • /
    • pp.3992-3998
    • /
    • 2013
  • 본 논문은 고음질의 대용량 코퍼스 기반 음성 합성기에 감정 음성 코퍼스를 추가하여 보다 다양한 합성음을 생성할 수 있는 방법에 관한 것이다. 파형 접합형 합성기에서 사용할 수 있는 형태로 감정 음성 코퍼스를 구축하여 기존의 일반 음성 코퍼스와 동일한 합성단위 선택과정을 통해 합성음을 생성할 수 있도록 구현하였다. 감정 음성 합성을 위해 태그를 사용하여 텍스트를 입력하고, 억양구 단위로 일치하는 데이터가 존재하는 경우 감정 음성으로 합성하고, 그렇지 않은 경우 일반 음성으로 합성하도록 하였다. 그리고 음성에서 운율을 구성하는 요소로 휴지기(break)가 있는데, 감정 음성의 휴지기는 일반 음성보다 불규칙한 특성이 있다. 따라서 합성기에서 생성되는 휴지기 정보를 감정 음성 합성에 그대로 사용하는 것이 어려워진다. 이 문제를 해결하기 위해 가변 휴지기(Variable break)[3] 모델링을 적용하였다. 실험은 일본어 합성기를 사용하였고, 그 결과 일반 음성의 휴지기 예측 모듈을 그대로 사용하면서 자연스러운 감정 합성음을 얻을 수 있었다.

음성신호에서 천이구간의 근사합성에 관한 연구 (A Study on Approximation-Synthesis of Transition Segment in Speech Signal)

  • 이시우
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.167-173
    • /
    • 2005
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하현상이 나타난다. 본 논문에서는 같은 프레임 안에 유성음과 무정자음이 같이 존재하지 않도록 Zero Crossing Rate과 개별피치 펄스를 사용하여 무성자음을 포함한 천이구간을 추출하는 방법과 주파수대역을 분할하여 TSIUVC를 근사합성하는 방법을 제안한다. 실험결과, 0.547kHz 이하 2.813kHz 이상의 주파수 정보를 사용하여 TSIUVC 음성파형을 양호하게 근사합성 할 수 있었으며, TSIUVC의 추출율은 여자와 남자음성에서 각각 $91\%$$96.2\%$를 얻었다. 이 방법은 음성합성, 음성분석, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.

  • PDF

비대칭 4 질량 성대 모델에 의한 쉰목소리 분석 (Hoarse Speech Analysis Using Dissymmetric Four-Mass Model of Vocal Cords)

  • 장강의;진혜방;최태영
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.94-101
    • /
    • 1995
  • 본 논문에서는 쉰 목소리 메커니즘 분석을 위한 4질량 성대 모델을 제안하였다. 쉰 목소리가 성대의 병리학적 변화에 기인한다는 것과 성문 파형이 성대의 움직임 상태를 반영한다는 사실에서, 병든 성대를 비대칭 구조이고 4질량형으로 가정하였다. 정상 목소리와 쉰 목소리에 대한 모델 변수들과 성문 파형을 분석하여 모델 변수와 병리학 사이의 관계를 검토하였다. 실험 결과 쉰 목소리의 음향 특징과 병리학간의 관계를 밝힐 수 있었고 후두 질병 진단과 쉰 목소리의 음질 향상에도 본 논문에서 제안한 방법이 사용될 수 있음을 알았다.

  • PDF

시간 영역 벌크 지표에 기반한 한국어 모음 'ㅜ'의 음성 인식 (Speech Recognition of the Korean Vowel 'ㅜ' Based on Time Domain Bulk Indicators)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.591-600
    • /
    • 2016
  • 네트워크와 컴퓨팅 기술의 발달로 인해 인간이 생활하는 거의 모든 일상 환경에 컴퓨팅 기술의 접목이 증대되고 있다. 또한, 사물 인터넷에 대한 관심이 급속히 증대되면서, 음성 인식은 중요한 HCI 수단으로 자리 잡고 있다. 본 논문은 음소 기반 한국어 음성 인식 시스템의 일부로서, 한국어 모음 'ㅜ'에 대한 새로운 인식 방식을 제안한다. 제안하는 방식은 주파수 영역에서의 분석 대신, 시간 영역에서 계산한 벌크 지표를 분석하여 동작하므로, 계산 비용을 현저히 절감할 수 있다. 벌크 지표를 사용하여 모음 'ㅜ'의 전형적인 파형 패턴들을 탐지하기 위한 네 가지 요소 알고리즘을 제시하며, 이를 결합하여 최종적인 판별을 수행한다. 실험 결과를 통해, 제안하는 방식이 90.1%의 인식 정확도를 달성할 수 있음을 확인하였으며, 인식 속도는 어절 당 0.68 msec이다.

대역분리-비균일표본화 방법을 이용한 새로운 음성신호의 파형부호화 연구 (A New Speech Waveform Coding Based on the Nonuniform Sampling Method with Separated to High-Low Band)

  • 배명진;이주헌;임성빈;이원철
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.89-93
    • /
    • 1995
  • 균일표본화에서 나타나는 샘플간의 잉여정보를 더욱 줄임으로써, 요구되는 데이타량을 크게 줄일 수 있는 방법으로 비균일표본화 방법이 고려된다 그러나, 음성신호의 경우 이러한 비균일표본화 방법을 바로 적용하면, 필요한 데이타량이 균일표본화에 견주어 크게 줄어들지 않게 된다. 특히, 잡음환경하에서는 오히려 균일표본화의 경우보다도 데이타량이 커질 수 있다. 이러한 단점을 보완하기 위해서, 먼저 음성신호를 적당히 저대역 필터링을 한 후 비균일표본화를 적용하고, 고대역성분에서의 오차는 잡음신호로 보완하는 방법을 제안한다. 제안된 방법은 기존의 비균일표본화 방법보다 약1.8배의 데이타압축효과를 얻을 수 있었다.

  • PDF

음성파형 부호화기의 실시간 성능측정 시스템 (A Real-time Performance Evaluation System for Speech Waveform Coders)

  • 김용철;은종관
    • 한국음향학회지
    • /
    • 제3권1호
    • /
    • pp.43-54
    • /
    • 1984
  • 본 논문에서는 음성파형 부호화기의 성능을 실시간 측정하기 위한 시스템의 구현에 관하여 연구 하였다. 본 장비는 "bit slice" 마이크로프로세서로 설계되었다. 개발된 시스템으로 세 개의 codec의 성능 을 측정하였으며 이 결과를 distortion analyzer로 측정한 결과와 비교하였다. 개발된 장비는 음성 부호 화기의 성능시험을 위한 주관적 청취시험 과정을 피할 수 있게 되었다.

  • PDF

경험적 모드 재구성 방법을 이용한 성문파형 신호의 기계선 변동 제거 (Cancelation of Baseline Wandering of Electroglottograph Signal using Empirical Mode Decomposition)

  • 장승진;김효민;박영철;최홍식;윤영로
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.475-476
    • /
    • 2007
  • Electroglottography (EGG) is a technique used to register laryngeal behavior indirectly by a measuring the change in electrical impedance across the throat during speaking. However, EGG waveform is affected by laryngeal muscles which fluctuate the vocal cords, and which result in baseline wander. It is required to reduce baseline wander in EGG waveform, because EGG waveform is used for input signal of nonlinear speech synthesizer in next chapter. In vocal cords, the abduction-adduction of glottis is mainly controlled by the posterior cricoarytenoid (abductor) and interarytenoid (adductor) muscles respectively. Empirical Mode Decomposition method was adopted in cancellation of EGG waveform baseline wandering, and showd better performance than that of high pass filter with 500 order.

  • PDF

운율경계에 위치한 어두 모음의 성문 특성: 음향적 상관성을 중심으로 (Glottal Characteristics of Word-initial Vowels in the Prosodic Boundary: Acoustic Correlates)

  • 손형숙
    • 말소리와 음성과학
    • /
    • 제2권3호
    • /
    • pp.47-63
    • /
    • 2010
  • This study provides a description of the glottal characteristics of the word-initial low vowels /a, $\ae$/ in terms of a set of acoustic parameters and discusses glottal configuration as their acoustic correlates. Furthermore, it examines the effect of prosodic boundary on the glottal properties of the vowels, seeking an account of the possible role of prosodic structure based on prosodic theory. Acoustic parameters reported to indicate glottal characteristics were obtained from the measurements made directly from the speech spectrum on recordings of Korean and English collected from 45 speakers. They consist of two separate groups of native Korean and native English speakers, each including both male and female speakers. Based on the three acoustic parameters of open quotient (OQ), first-formant bandwidth (B1), and spectral tilt (ST), comparisons were made between the speech of males and females, between the speech of native Korean and native English speakers, and between Korean and English produced by native Korean speakers. Acoustic analysis of the experimental data indicates that some or all glottal parameters play a crucial role in differentiating the speech groups, despite substantial interspeaker variations. Statistical analysis of the Korean data indicates prosodic strengthening with respect to the acoustic parameters B1 and OQ, suggesting acoustic enhancement in terms of the degree of glottal abduction and the glottal closure during a vibratory cycle.

  • PDF

8kbps에 있어서 PCFBD-MPC에 관한 연구 (A Study on PCFBD-MPC in 8kbps)

  • 이시우
    • 인터넷정보학회논문지
    • /
    • 제18권5호
    • /
    • pp.17-22
    • /
    • 2017
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식에 있어서, 대표구간의 멀티펄스 음원을 사용하는 경우에 유성음의 합성음성파형에서 일그러짐이 나타난다. 이러한 원인은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성파형이 정규화 되는 것이 원인으로 작용한다. 본 논문에서는 합성 음성파형의 일그러짐을 제어하기 위하여 V/UV/S(Voiced / Unvoiced / Silence)의 스위칭을 사용하고, 피치구간 마다 멀티펄스의 위치를 보정하며, 무성자음(Unvoiced)의 근사합성에 특정주파수를 이용하는 PCFBD-MPC(Position Compensation Frequency Band Division-Multi Pulse Coding)를 제안하였다. 또한 8kbps의 부호화 조건에서 PCFBD-MPC 시스템을 구현하고, PCFBD-MPC의 SNRseg를 평가하였다. 그 결과 PCFBD-MPC의 남자음성에서 13.8dB, 여자음성에서 13.4dB 임을 확인할 수 있었다. 향후 멀티펄스 음원의 진폭과 위치를 동시에 보정하는 8kbps 음성부호화 방식의 음질을 평가하는 연구를 수행하고자 한다. 향후, 멀티펄스 음원의 진폭과 위치를 동시에 보정하는 8kbps 음성부호화 방식의 음질을 평가하는 연구를 하고자 한다. 이러한 방법들은 셀룰러폰이나 스마트폰과 같이 낮은 비트율의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.