Design and Implementation of Simple Text-to-Speech System using Phoneme Units

음소단위를 이용한 소규모 문자-음성 변환 시스템의 설계 및 구현

  • Park, Ae-Hee (Department of Computer Engineering, Kwang Woon University) ;
  • Yang, Jin-Woo (Department of Computer Engineering, Kwang Woon University) ;
  • Kim, Soon-Hyob (Department of Computer Engineering, Kwang Woon University)
  • 박애희 (광운대학교 전자계산기공학과) ;
  • 양진우 (광운대학교 전자계산기공학과) ;
  • 김순협 (광운대학교 전자계산기공학과)
  • Published : 1995.06.01

Abstract

This paper is a study on the design and implementation of the Korean Text-to-Speech system which is used for a small and simple system. In this paper, a parameter synthesis method is chosen for speech syntheiss method, we use PARCOR(PARtial autoCORrelation) coefficient which is one of the LPC analysis. And we use phoneme for synthesis unit which is the basic unit for speech synthesis. We use PARCOR, pitch, amplitude as synthesis parameter of voice, we use residual signal, PARCOR coefficients as synthesis parameter of unvoice. In this paper, we could obtain the 60% intelligibility by using the residual signal as excitation signal of unvoiced sound. The result of synthesis experiment, synthesis of a word unit is available. The controlling of phoneme duration is necessary for synthesizing of a sentence unit. For setting up the synthesis system, PC 486, a 70[Hz]-4.5[KHz] band pass filter for speech input/output, amplifier, and TMS320C30 DSP board was used.

본 논문은 소규모 시스템에 적용 가능한 한국어 문자-음성 변환 시스템의 설계 및 구현에 대한 연구를 목적으로 한다. 본 논문에서 채택한 음성합성 방법은 파라메터 합성법으로서 LPC(linear Predictive Coding)계열의 PARCOR(PARtial autoCORrelation) 계수를 음향 파라메터로 사용하였으며, 음성합성 단위로는 가장 기본적인 단위인 음소를 채택하였다. 합성 파라메터로는 유성음의 경우 PARCOR계수, 피치, 진폭을 무성음의 경우 잔차신호와 PARCOR계수를 사용하였다. 특히 무성음의 경우 LPC합성시 음질이 떨어진다는 단점이 있었으나, 본 논문에서는 LPC분석시 얻어지는 잔차신호를 무성음의 여기신호로 사용하여 단어 단위의 합성에서 60%의 이해도를 얻을 수 있었다. 합성결과 단어 단위의 합성에 적용 가능하였고, 문장단위의 합성을 위해서는 음소 지속시간 조절에 대한 연구가 진행되어야 할것이다. 본 논문의 구현환경으로는 486 PC상에서 음성의 입,출력을 위해 70[Hz]-4.5[KHz] 대역통과 필터와 증폭기, 그리고 TMS320C30 디지털 신호처리 프로세서를 장착한 DSP 보드를 사용하였다.

Keywords