운율구 추출 및 음소 지속 시간의 트리 기반 모델링

Tree-based Modeling of Prosodic Phrasing and Segmental Duration

  • 이상호 (한국과학기술원 전산학과) ;
  • 오영환 (한국과학기술원 전산학과)
  • 발행 : 1998.08.01

초록

본 논문에서는 한국어 TTS시스템을 위한 운율구 추출, 운율구 사이의 휴지 기간, 음소의 지속 시간 모델링 방법을 설명한다. 실험을 위해 여러 장르로 구성된 400문장을 선 정하고, 이를 전문 여성 아나운서가 발성하였다. 녹음된 음성 신호에 대해 음소 및 운율구 경계를 결정하고, 문장에 대해서는 형태소 분석, 발음표기 변환, 구문 분석을 수행하였다. 400문장(약33분) 중 240문장(약20분)을 이용하여 결정 트리 및 회귀 트리를 학습시킨 후, 160분장(약13분)에 대해 실험하였다. 운율 모델링을 위한 특징들이 제안되었고, 학습된 트리 들을 해석함으로써 특징들의 유효성이 평가되었다. 실험 문장에 대해 운율구 경계의 유무를 결정하는 결정 트리의 오류율은 14.46%이었고, 운율구 사이의 휴지 기간과 음소 지속 시간 을 예측하기 위한 회귀 트리들의 평균 제곱 오류근(RMSE)이 각각 132msec, 22msec이었다. 수집된 모든 자료(400문장)로 학습한 결과, 운율구 경계 결정 오류율, 휴지 기간 및 지속시 간 RMSE의 10-fold cross-validation 추정치가 각각 13.77%, 127.91msec, 21.54msec이었다.

키워드

참고문헌

  1. 한국음향학회지 v.16 no.1 운율구 경계현상 분석 및 텍스트에서의 운율구 추출 김상훈;성철재;이정철
  2. 제 13회 음성통신 및 신호처리 워크샵 언어정보 및 통계 테이터를 이용한 한국어 운율 생성 김정수;이혜정
  3. 한국과학기술원 전산학과 석사학위논문 확률적 의존 문법과 한국어 구문 분석 김형근
  4. 한국과학기술원 전산학과 석사학위논문 어절사이의 의존관계를 이용한 한국어 구문분석기 서광준
  5. 제13회 음성통신 및 신호처리 워크샵 한국어 음운 지속시간 모델화를 위한 특징 분석 성유나;이양희
  6. 국어 음운론 이기문;김진우;이상억
  7. 한국음향학회지 v.15 no.3 한국어 문서 음성 변환 시스템을 위한 문서 분석기 이상호;오영환;서정연
  8. 한국음향학회 학술발표대회 논문집 v.16 음성 코퍼스로부터 TTS 시스템을 위한 단위 음성 자동 생성 이상호;오영환
  9. 한국어의 표준발음 이현복
  10. Classification and Regression Trees L. Breiman;J.H. Friedman;R.A. Olshen;C.J. Stone
  11. IEEE Trans on PAMI v.13 no.4 Optimal Partitioning for Classification and Regression Trees P.A. Chou
  12. Probability and Statistics for Engineering and the Science J.L. Devore
  13. IEEE Trans on PAMI v.19 no.5 A Comparative Analysis of Methods for Pruning Decision Trees F. Esposito;D. Malerba;G. Semeraro
  14. Proceedings ICASSP '95 Stochastic Modeling of Pause Insertion using Context-free Grammar S. Fujio;Y. Sagisaka;N. Higuchi
  15. IEEE Trans on Neural Networks v.3 no.6 Classification Trees with Neural Network Feature Extraction H. Guo;S.B. Gelfand
  16. Coding and Information Theory R.W. Hamming
  17. Neural Networks S. Haykin
  18. Hidden Markov Models for Speech Recognition X.D. Huang;Y. Ariki;M.A. Jack
  19. IEEE Trans on ASSP v.34 no.5 Synthesis of Natural Sounding Pitch Contours in Isolated Utterances using Hidden Markov Models A. Ljolje;F. Fallside
  20. Computational Linguistics v.20 no.1 A Hierarchical Stochastic Model for Automatic Prediction of Prosodic Boundary Location M. Ostendorf;N. Veilleux
  21. Talking Machines: Theories, Models, Designs Tree-based modelling of segmental duration M.D. Riley;G. Bailly(ed.);C. Benoit(ed.);T.R. Sawallis(ed.)
  22. Computer Speech and Language v.10 Prediction of Abstract Prosodic Labels for Speech Synthesis K. Ross;M. Ostendorf
  23. IEEE Trans. on Systems, Man, and Cybernetics v.21 no.3 A Survey of Decision Tree Classifier Methodology S.R. Safavian;D. Landgrebe
  24. Speech Coding and Synthesis An Approach to Text-to-Speech Synthesis R. Sproat;J. Olive;W.B. Kleijn(ed.);K.K. Paliwal(ed.)
  25. Talking Machines: Theories, Models, Designs $F_0$ generation with a database of natural $F_0$ patterns and with a neural network C. Traber;G. Bailly(ed.);C. Benoit(ed.);T.R. Sawallis(ed.)
  26. Computer Speech and Language v.6 Automatic Classification of Intonational Phrase Boundaries M.Q. Wang;J. Hirschberg
  27. J. Acoust. Soc. Am. v.9 no.3 Segmental Durations in the Vicinity of Prosodic Phrase Boundaries C.W. Wightman;S. Shattuck-Hufnager;M. Ostendorf;P.J. Price