Abstract
This study describes an energy contour generation method for Korean n systems. We propose a vector-regression tree, which is a vector version of a scalar regression tree. A vector-regression tree predicts a response vector for an unknown feature vector. In our study, the tree yields a vector containing ten sampled energy values for each phone. After collecting 500 sentences and its corresponding speech corpus, we trained trees on 300 sentences and tested them on 200 sentences. We construct a bagged tree and a born again one to improve the performance of contour prediction. In the experiment, we got a 0.803 correlation coefficient for the observed and predicted energy values.
본 논문에서는 한국어 TTS 시스템을 위한 에너지 궤적 생성 방법에 대해 설명한다. 에너지 궤적 생성을 위해 스칼라 회귀 트리를 확장한 벡터 회귀 트리를 제안하고 구현하였다. 벡터 회귀 트리는 특징 벡터로부터 목적 벡터를 예측할 수 있으며, 본 연구에서는 각 음소당 10개의 에너지 값을 예측한다. 실험을 위해 500 문장의 문장 코퍼스와 그 문장들을 발성한 음성 코퍼스를 수집하였고, 이중 300 문장을 이용하여 트리들을 학습하고 200 문장에 대해 실험하였다. 에너지 궤적의 예측 정확률을 높이기 위해 배깅 트리 (bagged tree)와 재구축 트리 (born again tree)도 함께 구현한 결과, 원음의 에너지 궤적과 예측된 에너지 궤적간의 상관계수가 0.803으로 기존의 방법보다 더 좋은 결과를 얻을 수 있었다.