초록
최근 딥러닝 모델을 통해 사진이나 영상을 활용하여 영상 합성을 수행하는 것에 대한 요구가 높아지고 있다. 기존 영상 합성 모델의 경우 주어진 영상으로부터 모션 정보만을 전이하여 사진에 대한 애니메이션 효과를 생성하였다. 하지만 이러한 합성 모델의 경우 음성에 따른 립싱크가 불가능하다는 문제와 함께 합성 결과물의 화질이 떨어진다는 문제점이 있다. 문제를 해결하기 위해 본 논문에서는 이미지 애니메이션 기법을 기반으로 한 새로운 프레임워크에 대해 설명한다. 본 프레임워크에서는 합성하려는 사진과 영상, 그리고 오디오를 제공하면 사진의 인물 특징을 유지한 채 주어진 영상의 행동을 따라 움직이는 것뿐만 아니라 음성에 맞게 발화하는 모습도 함께 합성하여 모션 전이와 함께 립싱크를 수행한 합성 결과물을 생성한다. 또한 초해상화 기법을 영상 합성물에도 활용하여 더욱 고화질, 고해상도의 합성 결과물을 제공하도록 구성하였다.
There is currently a burgeoning demand for image synthesis from photos and videos using deep learning models. Existing video synthesis models solely extract motion information from the provided video to generate animation effects on photos. However, these synthesis models encounter challenges in achieving accurate lip synchronization with the audio and maintaining the image quality of the synthesized output. To tackle these issues, this paper introduces a novel framework based on an image animation approach. Within this framework, upon receiving a photo, a video, and audio input, it produces an output that not only retains the unique characteristics of the individuals in the photo but also synchronizes their movements with the provided video, achieving lip synchronization with the audio. Furthermore, a super-resolution model is employed to enhance the quality and resolution of the synthesized output.