A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system

Um, Se-Yun;Oh, Sangshin;Jang, Inseon;Ahn, Chung-hyun;Kang, Hong-Goo;

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

2020.07a
/
Pages.453-455
/
2020

The Korean Institute of Broadcast and Media Engineers (한국방송∙미디어공학회)

A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system

세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구

Um, Se-Yun (Yonsei University, Department of Electrical and Electronic Engineering) ;
Oh, Sangshin (Yonsei University, Department of Electrical and Electronic Engineering) ;
Jang, Inseon (Electronics and Telecommunications Research Institution) ;
Ahn, Chung-hyun (Electronics and Telecommunications Research Institution) ;
Kang, Hong-Goo (Yonsei University, Department of Electrical and Electronic Engineering)

엄세연 (연세대학교 전기전자공학과) ;
오상신 (연세대학교 전기전자공학과) ;
장인선 (한국전자통신연구원 미디어연구본부) ;
안충현 (한국전자통신연구원 미디어연구본부) ;
강홍구 (연세대학교 전기전자공학과)

Published : 2020.07.13

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system

세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구

Abstract

Keywords