DOI QR코드

DOI QR Code

고화질 멀티 모달 영상 합성을 통한 다중 콘텐츠 통합 애니메이션 방법

Multicontents Integrated Image Animation within Synthesis for Hiqh Quality Multimodal Video

  • 투고 : 2023.10.10
  • 심사 : 2023.12.17
  • 발행 : 2023.12.31

초록

최근 딥러닝 모델을 통해 사진이나 영상을 활용하여 영상 합성을 수행하는 것에 대한 요구가 높아지고 있다. 기존 영상 합성 모델의 경우 주어진 영상으로부터 모션 정보만을 전이하여 사진에 대한 애니메이션 효과를 생성하였다. 하지만 이러한 합성 모델의 경우 음성에 따른 립싱크가 불가능하다는 문제와 함께 합성 결과물의 화질이 떨어진다는 문제점이 있다. 문제를 해결하기 위해 본 논문에서는 이미지 애니메이션 기법을 기반으로 한 새로운 프레임워크에 대해 설명한다. 본 프레임워크에서는 합성하려는 사진과 영상, 그리고 오디오를 제공하면 사진의 인물 특징을 유지한 채 주어진 영상의 행동을 따라 움직이는 것뿐만 아니라 음성에 맞게 발화하는 모습도 함께 합성하여 모션 전이와 함께 립싱크를 수행한 합성 결과물을 생성한다. 또한 초해상화 기법을 영상 합성물에도 활용하여 더욱 고화질, 고해상도의 합성 결과물을 제공하도록 구성하였다.

There is currently a burgeoning demand for image synthesis from photos and videos using deep learning models. Existing video synthesis models solely extract motion information from the provided video to generate animation effects on photos. However, these synthesis models encounter challenges in achieving accurate lip synchronization with the audio and maintaining the image quality of the synthesized output. To tackle these issues, this paper introduces a novel framework based on an image animation approach. Within this framework, upon receiving a photo, a video, and audio input, it produces an output that not only retains the unique characteristics of the individuals in the photo but also synchronizes their movements with the provided video, achieving lip synchronization with the audio. Furthermore, a super-resolution model is employed to enhance the quality and resolution of the synthesized output.

키워드

참고문헌

  1. Dong, C., Loy, C. C., He, K., & Tang, X. (2015). Image super-resolution using deep convolutional networks. IEEE transactions on pattern analysis and machine intelligence, 38(2), 295-307. https://doi.org/10.1109/TPAMI.2015.2439281
  2. Ledig, C., Theis, L., Huszar, F., Caballero, J., Cunningham, A., Acosta, A., ... & Shi, W. (2017). Photo-realistic single image super-resolution using a generative adversarial network. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4681-4690).
  3. Perov, I., Gao, D., Chervoniy, N., Liu, K., Marangonda, S., Ume, C., ... & Zhang, W. (2020). DeepFaceLab: Integrated, flexible and extensible face-swapping framework. arXiv preprint arXiv:2005.05535.
  4. Prajwal, K. R., Mukhopadhyay, R., Namboodiri, V. P., & Jawahar, C. V. (2020, October). A lip sync expert is all you need for speech to lip generation in the wild. In Proceedings of the 28th ACM international conference on multimedia (pp. 484-492).
  5. Prajwal, K. R., Mukhopadhyay, R., Philip, J., Jha, A., Namboodiri, V., & Jawahar, C. V. (2019, October). Towards automatic face-to-face translation. In Proceedings of the 27th ACM international conference on multimedia (pp. 1428-1436).
  6. Siarohin, A., Lathuiliere, S., Tulyakov, S., Ricci, E., & Sebe, N. (2019). Animating arbitrary objects via deep motion transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2377-2386).
  7. Siarohin, A., Lathuiliere, S., Tulyakov, S., Ricci, E., & Sebe, N. (2019). First order motion model for image animation. Advances in neural information processing systems, 32.
  8. Siarohin, A., Woodford, O. J., Ren, J., Chai, M., & Tulyakov, S. (2021). Motion representations for articulated animation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 13653-13662).
  9. Wang, X., Li, Y., Zhang, H., & Shan, Y. (2021). Towards real-world blind face restoration with generative facial prior. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 9168-9178).
  10. Wang, X., Xie, L., Dong, C., & Shan, Y. (2021). Real-esrgan: Training real-world blind super-resolution with pure synthetic data. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 1905-1914).
  11. Wang, X., Yu, K., Wu, S., Gu, J., Liu, Y., Dong, C., ... & Change Loy, C. (2018). Esrgan: Enhanced super-resolution generative adversarial networks. In Proceedings of the European conference on computer vision (ECCV) workshops (pp. 0-0).
  12. Zhao, J., & Zhang, H. (2022). Thin-plate spline motion model for image animation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3657-3666).