Abstract
In a large corpus-based speech synthesizer, a break, which is a parameter influencing the naturalness and intelligibility, is used as an important feature during a unit selection process. Japanese is a language having intonations, which ate indicated by the relative differences in pitch heights and the APs(Accentual Phrases) are placed according to the changes of the accents while a break occurs on a boundary of the APs. Although a break can be predicted by using J-ToBI(Japanese-Tones and Break Indices), which is a rule-based or statistical approach, it is very difficult to predict a break exactly due to the flexibility. Therefore, in this paper, a method is to conduct a unit search by dividing breaks into two types, such as a fixed break and a flexible break, in order to use the advantages of a large-scale corpus, which includes various types of prosodies. As a result of an experiment, the proposed unit selection method contributed itself to enhance the naturalness of synthesized speeches.
대용량 코퍼스를 이용하는 합성단위 선택(unit selection) 기반 합성기에서 break는 자연성 및 명료성에 큰 영향을 미치는 파라미터로 unit selection 과정에서 음소 정보와 함께 중요한 특징으로 사용된다. 일본어는 피치의 상대적 높낮이로 표현되는 악센트를 가지는 언어이고, 악센트의 변화에 따라 AP(Accentual Phrase)가 결정되고 AP 경계에서 break가 형성된다. break는 규칙 기반 방식이나 통계적 방식인 J-ToBI를 이용하여 예측 할 수 있으나 다양성으로 인해 정확한 예측이 어렵다. 따라서 본 논문에서는 다양한 운율 정보를 포함하고 있는 대용량 코퍼스의 장점을 이용하기 위해 break를 고정 break와 유동 break로 나누어 합성단위 검색을 수행한다. 실험 결과 제안한 합성단위 선택 방법으로 합성음의 자연성을 향상 시킬 수 있었다.