• Title/Summary/Keyword: 음합성

Search Result 333, Processing Time 0.022 seconds

Speaker-Adaptive Speech Synthesis by Fuzzy Vector Quantization Mapping (FVQ(Fuzzy Vector Quantization) 사상화에 의한 화자적응 음성합성)

  • 이진이;이광형
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.3 no.4
    • /
    • pp.3-20
    • /
    • 1993
  • 본 연구에서는 퍼지사상화(fuzzy mapping)에 의한 사상된(mapped) 코드북을 사용하는 화자적은 음성합성 알고리즘을 제안한다. 입력화자와 기준화자의 코드북은 신경망 클러스터링 알고리즘인 자율경쟁 학습을 사용하여 작성된다. 사상된 코드북은 입력 음성벡터에 대한 두 화자의 대응 코드벡터의 소속갑(membership value)으로 퍼지 히스토그랩을 작성하여 이들을 1차 결합함으로써 얻어지는 퍼지사상화에 의하여 작성된다. 음성합성시에는 사상된 코드북을 사용하여 입력화자의 음것을 퍼지 벡터양자화한 다음, CFM 연산으로 합성함으로써 입력화자에 적응된 합성음을 얻는다. 실험에서 여러 입력화자로 30대의 남성, 20대의 여성음을 사용하였고 기준음석으로 입력음성과는 다른 20대의 여성음성을 사용하였다.실험에 사용된 음성데이타는 문장/안녕하십니까/와/굿모닝/이다. 실험결과는 각각의 입력화자에 기준화자 음성이 적응된 합성음을 얻었다.

  • PDF

Text-to-Speech Synthesizer with the Process of Minimizing Concatenation Distortion (접합 왜곡의 최소화 과정이 포함된 음성합성기)

  • 박훈재;김상훈;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.4
    • /
    • pp.38-44
    • /
    • 1998
  • 대용량의 음성합성용 데이터베이스를 용이하게 구축하기 위해 음성인식 시스템을 이용한 음소 경계 분할이 이루어지고 있다. 그러나 자동 분할 결과를 직접 이용하여 합성음 을 생성할 경우 음소 경계 에러로 인하여 접합 왜곡이 많이 발생하게 된다. 이러한 문제를 해결하기 위해서, 본 연구에서는 단위 접합시 경계 에러를 고려하여 적합한 접합 위치를 찾 고자 하였다. 여기서 적합한 접합 위치는 스펙트럼의 불연속이 최소화된 접합점을 의미한다. 합성음에 대한 MOS(Mean Opinion Score) 테스트와 스펙트로그램(spectrogram)의 모양을 비교하므로써 제안된 방법의 성능을 평가하였다. 제안된 방법은 두 단계로 이루어져 있다. 첫째, 레퍼런스 패턴(reference pattern)과 두 개의 테스트 패턴(test pattern)을 선택하는 단 계와, 둘째, 앞과 뒤 테스트 패턴 사이의 적합한 접합위치를 찾는 단계이다. 본 연구에서는 패턴 사이의 스펙트로그램 비교를 위해 켑스트럼(cepstrum) 피라미터와 패턴 분류기 (pattern classifier)인 DTW(Dynamic Time Warping) 알고리즘을 사용하였다. 제안된 알고 리즘을 평가한 청취 테스트의 결과에서 제안된 알고리즘을 적용하여 합성된 합성음의 음질 이 자동 분절로 생성된 단위를 그대로 이용한 경우의 음질보다 우수함을 보였다.

  • PDF

Formant Synthesis of Haegeum Sounds Using Cepstral Envelope (캡스트럼 포락선을 이용한 해금 소리의 포만트 합성)

  • Hong, Yeon-Woo;Cho, Sang-Jin;Kim, Jong-Myon;Chong, Ui-Pil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.6
    • /
    • pp.526-533
    • /
    • 2009
  • This paper proposes a formant synthesis method of Haegeum sounds using cepstral envelope for spectral modeling. Spectral modeling synthesis (SMS) is a technique that models time-varying spectra as a combination of sinusoids (the "deterministic" part), and a time-varying filtered noise component (the "stochastic" part). SMS is appropriate for synthesizing sounds of string and wind instruments whose harmonics are evenly distributed over whole frequency band. Formants extracted from cepstral envelope are parameterized for synthesis of sinusoids. A resonator by Impulse Invariant Transform (IIT) is applied to synthesize sinusoids and the results are bandpass filtered to adjust magnitude. The noise is calculated by first generating the sinusoids with formant synthesis, subtracting them from the original sound, and then removing some harmonics remained. Linear interpolation is used to model noise. The synthesized sounds are made by summing sinusoids, which are shown to be similar to the original Haegeum sounds.

Speech Synthesis for the Korean large Vocabulary Through the Waveform Analysis in Time Domains and Evauation of Synthesized Speech Quality (시간영역에서의 파형분석에 의한 무제한 어휘 합성 및 음절 유형별 규칙합성음 음질평가)

  • Kang, Chan-Hee;Chin, Yong-Ohk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.13 no.1
    • /
    • pp.71-83
    • /
    • 1994
  • This paper deals with the improvement of the synthesized speech quality and naturality in the Korean TTS(Text-to-Speech) system. We had extracted the parameters(table2) such as its amplitude, duration and pitch period in a syllable through the analysis of speech waveforms(table1) in the time domain and synthesized syllables using them. To the frequencies of the Korean pronunciation large vocabulary dictionary we had synthesized speeches selected 229 syllables such as V types are 19, CV types are 80. VC types are 30 and CVC types are 100. According to the 4 Korean syllable types from the data format dictionary(table3) we had tested each 15 syllables with the objective MOS(Mean Opinion Score) evaluation method about the 4 items i.e., intelligibility, clearness, loudness, and naturality after selecting random group without the knowledge of them. As the results of experiments the qualities of them are very clear and we can control the prosodic elements such as durations, accents and pitch periods (fig9, 10, 11, 12).

  • PDF

Delay Characteristics and Sound Quality of Space Based Digital Waveguide Model (공간 기준 디지털 도파관 모델의 지연 특성과 합성음의 음질)

  • 강명수;김규년
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.8
    • /
    • pp.680-686
    • /
    • 2003
  • Digital waveguide model is a general method that is used in physical modeling of musical instruments. Wave motion is analyzed by time or by space in digital waveguide model. Because sampling is made via time, it is general that musical instrument model is described by wave motion of time. In this paper, we synthesized the musical instrument sound by adding instrument body model to the spatial based string model. In this way, we could improve sound quality and process musical instrument model's tone control variables effectively. We explained about delay error that happens in string and body in space based sampling and showed method to process fractional delay using FD (Fractional Delay)filter. Finally, we explained the relation between tone quality and number of delays. And we also compared the result with time base digital waveguide model.

Sound Engine for Korean Traditional Instruments Using General Purpose Digital Signal Processor (범용 디지털 신호처리기를 이용한 국악기 사운드 엔진 개발)

  • Kang, Myeong-Su;Cho, Sang-Jin;Kwon, Sun-Deok;Chong, Ui-Pil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.3
    • /
    • pp.229-238
    • /
    • 2009
  • This paper describes a sound engine of Korean traditional instruments, which are the Gayageum and Taepyeongso, by using a TMS320F2812. The Gayageum and Taepyeongso models based on commuted waveguide synthesis (CWS) are required to synthesize each sound. There is an instrument selection button to choose one of instruments in the proposed sound engine, and thus a corresponding sound is produced by the relative model at every certain time. Every synthesized sound sample is transmitted to a DAC (TLV5638) using SPI communication, and it is played through a speaker via an audio interface. The length of the delay line determines a fundamental frequency of a desired sound. In order to determine the length of the delay line, it is needed that the time for synthesizing a sound sample should be checked by using a GPIO. It takes $28.6{\mu}s$ for the Gayageum and $21{\mu}s$ for the Taepyeongso, respectively. It happens that each sound sample is synthesized and transferred to the DAC in an interrupt service routine (ISR) of the proposed sound engine. A timer of the TMS320F2812 has four events for generating interrupts. In this paper, the interrupt is happened by using the period matching event of it, and the ISR is called whenever the interrupt happens, $60{\mu}s$. Compared to original sounds with their spectra, the results are good enough to represent timbres of instruments except 'Mu, Hwang, Tae, Joong' of the Taepyeongso. Moreover, only one sound is produced when playing the Taepyeongso and it takes $21{\mu}s$ for the real-time playing. In the case of the Gayageum, players usually use their two fingers (thumb and middle finger or thumb and index finger), so it takes $57.2{\mu}s$ for the real-time playing.

Selection of Synthesis Unit for High Quality Korean Speech Synthesis System (고품질 한국어 음성합성 시스템을 위한 합성단위의 선택)

  • 김재홍
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.269-272
    • /
    • 1998
  • 본 논문에서는 고품질 한국어 합성을 위한 합성단위에 대해서 연구한다. 합성단위는 합성음의 음질을 좌우할 뿐만 아니라 전체 시스템의 크기에도 영향을 미친다. 음소와 같이 단위의 수가 적은 경우 적은 메모리로 시스템의 구성이 가능하지만 음운천이구간의 처리가 어려우며, 복합음소단위의 경우 많은 메모리를 요구하지만 음운천이특성을 잘 표현할 수 있는 장점이 있다. 본 논문에서는 합성단위가 한국어 합성음질에 미치는 영향을 분석하기 위하여 반음절, CVC형, VCV형 복합음소를 대상으로 음성을 합성하였다. 실험에 사용된 합성시스템은 최근 제안된 코퍼스에 기반한 합성시스템이다. 실험 전에 파악된 각 단위들의 통계적인 특성과 합성음의 음질을 비교한 결과 CVC형 복합음소가 제안된 시스템에 가장 적합한 합성단위로 판정되었다.

  • PDF

2.4kbps Speech Coding Algorithm Using the Sinusoidal Model (정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘)

  • 백성기;배건성
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.123-126
    • /
    • 2000
  • STC(Sinusoidal Transform Coding) 방식은 음성신호의 주파수 영역에서 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 방식을 말한다. 저전송률 STC 방식에서는 전송되는 정보량을 줄이기 위해 스펙트럼 피크를 대신해 음성신호의 스펙트럼 포락선 정보와, 피치정보를 이용하여 얻어지는 고조파 성분들을 정현파로 모델링하여 음성을 합성한다. 본 논문에서는 음성신호의 정현파 모델에 기반하여 2.4kbps 전송속도를 갖는 음성부호화 알고리즘을 제안하였으며, 실험결과로 합성음의 파형과 스펙트럼 특성, 위상특성, 그리고 MOS(Mean Opinion Score) 테스트를 이용한 합성음의 음질을 비교/분석 하였다.

  • PDF

An Extraction of the Prosody and Duration Information for Speech Synthesis in Korean (한국어 음성 합성을 위한 운율 및 길이 정보의 추출)

  • 양진석;박광철;양세라;김재범;이정현
    • Proceedings of the Korea Database Society Conference
    • /
    • 1995.12a
    • /
    • pp.187-190
    • /
    • 1995
  • 자연스러운 음성 합성을 위해서는 운율 및 장단음 처리가 선행되어야 한다. 본 논문에서는 음성학적 실험과 억양 규칙을 이용하여 한국어 문장으로부터 운율 제어 정보와 모음 길이 정보를 추출한 뒤 음성 합성에 적용함으로써 합성음의 자연성을 향상시키는 방법을 제안한다. 이러한 정보는 문장 분석 후 일련의 운율 규칙을 적용하여 반복된 실험을 통해 수치화함으로써 얻을 수 있었다. 실험결과, 운율 및 장단처리를 적용한 본 시스템에서는 자연성이 향상된 결과를 얻을 수 있었다.

  • PDF

The Rule of Duration Variation For Natural Female Synthetic Speech (자연스러운 여성 합성음을 위한 지속시간 규칙에 관한 연구)

  • Choi Young-Ig;Kwon Chul-Hong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.3-6
    • /
    • 1999
  • 합성음의 자연성은 운율(prosody)과 관계가 있으며, 운율은 지속시간(duration), 세기(intensity), 피치(pitch)의 3가지 요소가 어우러져 이루어진다. 본 연구에서는 한국어 여성 음에 나타나는 지속시간 패턴을 분석하여 지속시간의 규칙을 정리함을 목적으로 한다. 본 연구에서는 각 음소(자음, 모음)의 고유 지속시간과 단어내의 음절 위치, 인접음소의 영향, 구와 절의 경계의 영향에 따른 지속시간의 변화를 조사하여 지속시간 규칙을 정립하였다 청취 실험 결과, 본 지속시간 규칙이 합성음의 자연성을 향상시켰다는 것을 보여준다.

  • PDF