시간적 분해에 기반한 F0 궤적 모델에 관한 연구

F0 Contour Model based on Temporal Decomposition

  • 변효진 (한국과학기술원 전산학과) ;
  • 김연준 (한국과학기술원 전산학과) ;
  • 오영환 (한국과학기술원 전산학과)
  • 발행 : 1999.11.01

초록

본 논문에서는 음성합성의 억양 제어를 위한 새로운 F0 궤적 모델을 제안한다. 제안한 모델은 발성된 문장의 F0 궤적을 중첩가산되는 사건들로 분해하고, 각 사건들을 가우시안 종모양의 사건함수로 모델링한다. 그리고 제안한 모델을 위한 파라미터 추정 알고리즘을 제시한다. 제안한 모델은 특정한 음운론적 지식에 기반하지 않았으며, F0 궤적의 분석단계와 합성단계에 모두 사용 가능하다. 제안한 모델의 성능평가를 위해 다양한 장르에서 추출한 여러 형태의 500문장의 코퍼스를 구축하고, 이를 전문 아나운서에게 발성하게 하여 구축한 음성코퍼스로 실험한 결과, 원음성의 F0 궤적과 제안한 모델에 의해 합성된 F0 궤적의 평균 제곱 오류근이 7.87Hz이었다.

This paper proposes a new F0 contour model for intonation control in speech synthesis. We assume that the F0 contour of an utterance can be described using a sequence of time-overlapping events, which determine the fluctuation of a given F0 contour, described by asymmetric Gaussian functions. In addition, We propose a parameter estimation algorithm for the proposed model. The proposed model is not developed with a particular phonological theory in mind, and can be used in both F0 contour analysis and synthesis. For testing our F0 model, we collected 500 sentences from various genres and built a corresponding speech corpus uttered by a professional female announcer. As n result of F0 resynthesis experiment using the proposed model, the RMSE was 7.87Hz for given speech corpus.

키워드

참고문헌

  1. 석사학위논문, 한국과학기술원 전산학과 구문분석에 의한 운율조절을 이용한 한국어 문서-음성 변환 시스템의 구현 김연준
  2. JASA v.90 no.6 The use of prosody in syntactic disambiguation P. J. Price;M. Ostendorf;S. Shattuck-Hufnagel;C. Fong
  3. An introduction to Text-to-Speech synthesis Thierry Dutoit
  4. PhD thesis, Boston University Modeling of intonation for speech synthesis K. N. Ross
  5. Proceedings ICSLP'96 Generation F0 contours form ToBI labels using linear regression A. W. Black;A. J. Hunt
  6. Computer Speech and Language v.9 Automatic pitch contour stylization using a model of tonal perception C. d'Alessandro;P. Mertens
  7. Proceedings ICASSP'88 Realization of linguistic information in the voice fundamental frequency contour H. Fujisaki;H. Kawai
  8. Speech Communication v.15 The rise/fall/connection model of intonation P. Taylor
  9. Proceedings ICSLP'98 The maximum-based description of F0 contours and its application to English T. Portele;B. Heuft
  10. Proceedings of the 3rd ESCA/-COCOSDA International Workshop on speech Synthesis Parametric modeling of intonation using vector quantization G. Mohler;A. Conkie
  11. Proceedings ICASSP'93 Analysis and modeling of word accent and sentence intonation in Swedish H. Fujisaki;M. Ljugqvist;H. Murata
  12. Proceedings ICASSP'97 Generation of F0 contour using stochastic mapping and vector quantization control parameters H. J. Byeon;Y. J. Kim;Y. H. Oh
  13. JASA v.83 no.1 Measurement of pitch by subharmonic summation D. J. Hermes