A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system

세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구

  • Um, Se-Yun (Yonsei University, Department of Electrical and Electronic Engineering) ;
  • Oh, Sangshin (Yonsei University, Department of Electrical and Electronic Engineering) ;
  • Jang, Inseon (Electronics and Telecommunications Research Institution) ;
  • Ahn, Chung-hyun (Electronics and Telecommunications Research Institution) ;
  • Kang, Hong-Goo (Yonsei University, Department of Electrical and Electronic Engineering)
  • 엄세연 (연세대학교 전기전자공학과) ;
  • 오상신 (연세대학교 전기전자공학과) ;
  • 장인선 (한국전자통신연구원 미디어연구본부) ;
  • 안충현 (한국전자통신연구원 미디어연구본부) ;
  • 강홍구 (연세대학교 전기전자공학과)
  • Published : 2020.07.13

Abstract

본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.

Keywords