음성 합성과 동작 인식 기술을 활용한 CLOVA Dubbing과 Avatar 서비스

  • 발행 : 2021.01.30

초록

코로나로 인해 사회는 급속한 변화를 겪고 있고, 그 변화의 중심에는 온라인 플랫폼 기업과 서비스가 있다. AI 기술의 발전 속도는 여전히 가속되고 있고, 특히 음성 합성과 실시간 동작 인식, 아바타 생성 기술은 콘텐츠 생성 및 비대면 서비스에서 그 활용이 더욱 기대된다.

키워드

참고문헌

  1. https://blogs.nvidia.com/blog/2020/05/22/gamegan-research-pacman-anniversary/
  2. https://openai.com/blog/jukebox/
  3. https://github.com/openai/gpt-3
  4. TACOTRON2: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions, Jonathan Shen and Ruoming Pang and Ron J. Weiss and Mike Schuster and Navdeep Jaitly and Zongheng Yang and Zhifeng Chen and Yu Zhang and Yuxuan Wang and RJ Skerry-Ryan and Rif A. Saurous and Yannis Agiomyrgiannakis and Yonghui Wu. (ICASSP 2018)
  5. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram, Ryuichi Yamamoto and Eunwoo Song and Jae-Min Kim. (ICASSP 2020)
  6. 누구나 만드는 내 목소리 합성기 II (커스텀 보이스 파이프라인) https://deview.kr/2020/sessions/354 (DEVIEW 2020)
  7. 나를 따라하는 아바타: 모델 개발부터 모바일에 적용하기까지 https://deview.kr/2020/sessions/395
  8. Lightweight 3D Human Pose Estimation Network Training Using Teacher-Student Learning, Dong-Hyun Hwang and Suntae Kim and Nicolas Monet and Hideki Koike and Soonmin Bae. (WACV 2020)