DOI QR코드

DOI QR Code

다음색 감정 음성합성 응용을 위한 감정 SSML 처리기

An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications

  • 유세희 (성신여자대학교 대학원 미래융합기술공학과) ;
  • 조희 (한국전력공사 전력연구원) ;
  • 이주현 (CJ 올리브네트웍스 AI-DT 연구소) ;
  • 홍기형 (성신여자대학교 서비스디자인공학과)
  • 투고 : 2021.07.31
  • 심사 : 2021.09.02
  • 발행 : 2021.09.30

초록

본 논문에서는 감정 마크업을 포함하는 Speech Synthesis Markup Language(SSML) 처리기를 설계하고 개발하였다. 다양한 음색과 감정 표현이 가능한 음성합성 기술이 개발되고 있으며 다양한 음색 및 감정 음성합성의 응용 확대를 위하여 표준화된 음성 인터페이스 마크업 언어인 SSML을 감정 표현이 가능하도록 확장한 감정 SSML(Emotional SSML)을 설계하였다. 감정 SSML 처리기는 그래픽 사용자 인터페이스로 손쉽게 음색 및 감정을 원하는 텍스트 부분에 표시할 수 있는 다음색 감정 텍스트 편집기, 편집 결과를 감정 SSML 문서로 생성하는 감정 SSML 문서 생성기, 생성된 감정 SSML 문서를 파싱하는 감정 SSML 파서, 감정 SSML 파서의 결과인 다음색 감정 합성 시퀀스를 기반으로 합성기와 연동하여 음성 스트림의 합성 을 제어하는 시퀀서로 구성된다. 본 논문에서 개발한 다음색 감정합성을 위한 감정 SSML 처리기는 프로그래밍 언어 및 플랫폼 독립적인 개방형 표준인 SSML을 기반으로 하여 다양한 음성합성 엔진에 쉽게 연동할 수 있는 구조를 가지며 다양한 음색과 감정 음성합성이 필요한 다양한 응용 개발에 활용될 것으로 기대한다.

In this paper, we designed and developed an Emotional Speech Synthesis Markup Language (SSML) processor. Multi-speaker emotional speech synthesis technology that can express multiple voice colors and emotional expressions have been developed, and we designed Emotional SSML by extending SSML for multiple voice colors and emotional expressions. The Emotional SSML processor has a graphic user interface and consists of following four components. First, a multi-speaker emotional text editor that can easily mark specific voice colors and emotions on desired positions. Second, an Emotional SSML document generator that creates an Emotional SSML document automatically from the result of the multi-speaker emotional text editor. Third, an Emotional SSML parser that parses the Emotional SSML document. Last, a sequencer to control a multi-speaker and emotional Text-to-Speech (TTS) engine based on the result of the Emotional SSML parser. Based on SSML which is a programming language and platform independent open standard, the Emotional SSML processor can easily integrate with various speech synthesis engines and facilitates the development of multi-speaker emotional text-to-speech applications.

키워드

과제정보

이 논문은 산업통상자원부의 산업기술혁신사업으로부터 지원을 받아 수행된 연구입니다(지원번호: 10080667, 음원 다양화를 통하여 로봇의 감정 및 개성을 표현할 수 있는 대화음성합성 원천기술 개발).

참고문헌

  1. World Wide Web Consortium (W3C) Recommendation Voice Extensible Markup Language (VoiceXML) Version 2.0, https://www.w3.org/TR/voicexml20, (Last Viewed July 2, 2021).
  2. K. R. Kim and K. H. Hong, "An extension of the VoiceXML platform for push-based voice applications" (in Korean), J. Acoust. Soc. Kr. 21, 27-36 (2002).
  3. J. Rouillard, "Web services and speech-based applications around VoiceXML," J. Networks. 2, 27-35 (2007). https://doi.org/10.4304/jnw.2.1.27-35
  4. World Wide Web Consortium (W3C) Recommendation Speech Synthesis Markup Language (SSML) Version 1.1, https://www.w3.org/TR/speech-synthesis11/, (Last Viewed July 2, 2021).
  5. Google Cloud Text-to-Speech Synthesis Markup Language (SSML), https://cloud.google.com/text-to-speech/docs/ssml, (Last Viewed July 2, 2021).
  6. H. J. Choi, S. J. Park, J. U. Park, and M. S. Hahn, "Emotional speech synthesis for multi-speaker emotional dataset using wavenet vocoder," Proc. IEEE ICCE. 1-2 (2019).
  7. S. S. Oh, S. Y. Um, I. S. Jang, C. H. Ahn, and H. G. Kang, "Determination of representative emotional style of speech based on k-means algorithm" (in Korean), J. Acoust. Soc. Kr. 38, 614-620 (2019).
  8. The JSON data interchange syntax (ECMA-404) 2nd Ed, https://www.ecma-international.org/publications-and-standards/standards/ecma-404/, (Last Viewed July 4, 2021).
  9. World Wide Web Consortium (W3C) Recommendation Emotion Markup Language (EmotionML) 1.0, https://www.w3.org/TR/emotionml/, (Last Viewed July 2, 2021).
  10. Alexa Developer Documentation SSML Reference, https://developer.amazon.com/en-US/docs/alexa/custom-skills/speech-synthesis-markup-language-ssml-reference.html#amazon-emotion, (Last Viewed August 30, 2021).
  11. Microsoft Azure Speech Service, https://docs.microsoft.com/ko-kr/azure/cognitive-services/speech-service/speech-synthesis-markup?tabs=csharp, (Last Viewed August 30, 2021).
  12. World Wide Web Consortium (W3C) Recommendation Document Object Model (DOM) 4.1, https://www.w3.org/TR/dom41/, (Last Viewed July 4, 2021).
  13. EmotionTTS, https://github.com/emotiontts/emotiontts_open_db, (Last Viewed July 4, 2021).