TTS 적용을 위한 음성합성엔진

Speech syntheis engine for TTS

  • 이희만 (서원대학교 전자계산학과) ;
  • 김지영 (서원대학교 전자계산학과)
  • 발행 : 1998.06.01


본 논문은 컴퓨터에 입력된 문자정보를 음성정보로 변환하기 위한 음성합성엔진에 관한 것이며, 특히 명료성의 향상을 위해 파형처리 음성합성방식을 이용한다. 음성합성엔진은 컴맨드 스트림의 제어에 따라 자연성의 향상을 위한 피치조절, 길이 및 에너지 등을 제어하며 음성합성단위로서 반음절을 사용한다. 엔진에서 사용 가능한 컴맨드를 프로그램하여 음성합성엔진에 입력함으로서 음성을 합성하는 빙식은 구문분석, 어휘분석 등의 하이레벨과 파형의 편집 가공 등의 로우레벨을 완전 분리하므로 시스템의 융통성과 확장성을 높인다. 또한 TTS시스템의 적용에 있어 각 모듈을 객체/컴포넌트(Object/Component)로 각 모듈이 상호 독립적으로 작동되도록 하여 쉽게 대체가 가능하다. 하이 레벨과 로우 레벨을 분리하는 소프트웨어 아키택처는 음성합성 연구에 있어 각각 여러 분야별로 독립적으로 연구수행이 가능하여 연구의 효율성을 높이며 여러 소프트웨어의 조합사용(Mix-and-Match)이 가능하여 확장성과 이식성을 향상시킨다.

This paper presents the speech synthesis engine that converts the character strings kept in a computer memory into the synthesized speech sounds with enhancing the intelligibility and the naturalness by adapting the waveform processing method. The speech engine using demisyllable speech segments receives command streams for pitch modification, duration and energy control. The command based engine isolates the high level processing of text normalization, letter-to-sound and the lexical analysis and the low level processing of signal filtering and pitch processing. The TTS(Text-to-Speech) system implemented by using the speech synthesis engine has three independent object modules of the Text-Normalizer, the Commander and the said Speech Synthesis Engine those of which are easily replaced by other compatible modules. The architecture separating the high level and the low level processing has the advantage of the expandibility and the portability because of the mix-and-match nature.



  1. Voice Processing Cordon E. Pelton
  2. Speech Communication v.9 no.5-6 Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones E. Moulines;F.J. Charpentier
  3. Proc. ICASSP Diphone Synthesis Using An Overlap-Add Technique for Speech WaveForms Concattenation F.J. Carpentier;M.G. Stella
  4. ICASSP TTS Algorithms Based on FFT Synthesis F.J. Carpentier;E. Mouliens
  5. Speech Communication v.12 MBR-PSOLA: Text-to-Synthesis Based On FFT An MBE Re-Synthesis of the Segments Data- base Thierry Dutoit;Henri Leich
  6. 한국정보처리학회 논문지 v.3 no.5 운율 및 길이 정보를 이용한 무제한 음성합성기의 설계 및 구현 양진석;김재범;이정현
  7. 한국음향학회지 v.13 no.6 음성인식/합성을 위한국어의 음성-음운론적 특성연구 정국;구희산;이찬도;김종미
  8. 한국음향학회지 v.13 no.5 합성음성평가를 위한 다음절 무의미 단어 생성과 이용에 관한 연구 조철우;김경태;이용주
  9. 한국음향학회지 v.14 no.3 음소단위를 이용한 소규모 문자음성변환 시스템의 설계 및 구현 박애희;양진우;김순협
  10. J. Acost. Soc. Am no.49 Effects of Glottal pulse Shape on the Quality of Natual Vowels A. Rosenberg
  11. J. Acoust. Soc. Am. no.66 A Theoretical Study of the effects of the various Laryngeal Configurations on the Acoustics of Phon- ation I. Titze;D. Talkin