Parameter Generation Algorithm for LSTM-RNN-based Speech Synthesis

Park, Sangjun;Hahn, Minsoo;

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

2017.06a
/
Pages.105-106
/
2017

The Korean Institute of Broadcast and Media Engineers (한국방송∙미디어공학회)

Parameter Generation Algorithm for LSTM-RNN-based Speech Synthesis

LSTM-RNN 기반 음성합성을 위한 파라미터 생성 알고리즘

Park, Sangjun (Korea Advanced Institute of Science and Technology) ;
Hahn, Minsoo (Korea Advanced Institute of Science and Technology)

박상준 (한국과학기술원) ;
한민수 (한국과학기술원)

Published : 2017.06.21

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 최대 우도 기반 파라미터 생성 알고리즘을 적용하여 인공 신경망의 출력인 음향 파라미터 열의 정확성 및 자연성을 향상시키는 방법을 제안하였다. 인공 신경망의 출력으로 정적 특징벡터 뿐 만 아니라 동적 특징벡터도 함께 사용하였고, 미리 계산된 파라미터 분산을 파라미터 생성에 사용하였다. 추정된 정적, 동적 특징벡터의 평균, 분산을 EM 알고리즘에 적용하여 최대 우도 기준 파라미터를 추정할 수 있다. 제안된 알고리즘은 파라미터 생성 시 동적 특징벡터 및 분산을 함께 적용하여 시간축에서의 자연성을 향상시켰다. 제안된 알고리즘의 객관적 평가로 MCD, F0 의 RMSE 를 측정하였고, 주관적평가로 선호도 평가를 실시하였다. 그 결과 기존 알고리즘 대비 객관적, 주관적 성능이 향상되는 것을 검증하였다.

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

Parameter Generation Algorithm for LSTM-RNN-based Speech Synthesis

LSTM-RNN 기반 음성합성을 위한 파라미터 생성 알고리즘

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)