1. 서론
실시간 렌더링 및 심층 학습 기술의 발달로 인한 인공지능 디지털 휴먼 캐릭터의 활용은 전통적인 활용 분야인 영화, 애니메이션 등의 콘텐츠 경계를 넘어 판매, 상담, 교육 등 인터랙티브 서비스가 필요한 광범위한 분야로 확장되고 있다. 이로 인하여 사실적인 디지털 휴먼 제작에 대한 수요가 갈수록 높아지고 있으나, 전통적인 디지털 휴먼 제작 공정은 이러한 급증하는 수요에 대응할 만큼 신속하게 디지털 캐릭터를 제작하기 어렵다.
특히, 디지털 휴먼 제작에 있어 가장 시간과 비용이 많이 드는 작업 중 하나는 사실적인 얼굴 표현이 가능하게 하는 페이셜 리깅(Facial rigging) 작업이다. 페이셜 리깅은 아티스트가 편리하게 디지털 캐릭터의 얼굴 애니메이션을 컨트롤할 수 있는 장치를 만드는 과정으로, 블렌드쉐입(Blendshape)을 활용한 페이셜 리깅이 직관적인 작동 방식과 높은 품질로 인하여 널리 활용된다. 블렌드쉐입의 단점은 수십∼수백 개의 표정 셋(Set)을 일일이 아티스트가 수작업으로 만들어 주어야 한다는 것인데, 작업의 난이도에 따라서 수 주일에서 수개월까지 소모되어 디지털 휴먼 캐릭터 제작의 시간과 비용을 증가시키는 원인이 된다.
본 연구에서는 자동화된 알고리즘을 통하여 이미 만들어진 블렌드쉐입을 새로운 얼굴에 대하여 복제함으로써 효율적으로 페이셜 리깅을 수행하는 기술을 제안한다. 이를 위하여 먼저 다양한 얼굴에 범용적으로 적용될 수 있는 표준 블렌드쉐입 페이셜 리그를 제작하고, 새로운 얼굴이 주어졌을 때 메쉬 변형전달(Deformation Transfer) 기법을 통하여 블렌드쉐입 셋을 복제한다. 여기에 아티스트가 직관적으로 편리하게 활용할 수 있는 컨트롤러를 자동으로 설치하여 완성한다.
2. 관련 연구
사실적인 디지털 휴먼 제작을 위한 페이셜 리깅은 70년대에 처음 그 개념이 도입된 이후[1], 현재까지 지속해서 발전을 거듭해 온 결과[2,3], 2010년대 이후헐리우드 CG VFX 스튜디오가 제작하는 디지털 더블(Digital Double - 실제 인물의 디지털 복제)은 실제 인물과 거의 구분되지 않을 수준에 도달했다(Fig 1(a)). 사실적인 디지털 휴먼 캐릭터의 활용은 영화, 애니메이션 등 단순히 눈으로 보는 단방향 콘텐츠 제작을 넘어서, 사람과 상호작용할 수 있는 인공지능 (Fig 1(b), (c)), 실시간으로 작동하는 디지털 휴먼[7], 성형수술 등 의학적 목적[8], 개인화된 아바타 생성 [9] 등 다양한 분야로 발전하고 있다.
Fig. 1. (a) Digital double of
블렌드쉐입은 디지털 캐릭터의 미리 만들어진 얼굴 표정들을 선형 보간(Linear interpolation) 하는 방식으로 얼굴 애니메이션을 생성하는 기법이다[4]. 구현이 간단하고 아티스트가 직관적으로 이해할 수 있어 프로덕션에서 활용하기에 적합하다. 본 연구에서는 블렌드쉐입을 활용한 페이셜 리깅을 다룬다.
메쉬 변형 전달(Deformation Transfer)[5]은 삼각형화(Triangulate)된 구조를 가진 메쉬의 변화량을 제약 조건에 따라 다른 메쉬에 전달하는 기법으로, 직관적인 메쉬 변형 컨트롤[10] 및 메쉬 데이터베이스의 표준화된 파라미터 제공[11] 등을 수행하는 데 활용되고 있다. 직관적인 메쉬 변형 컨트롤은 아티스트가 눈으로 보고 컨트롤 할 수 있는 얼굴 표정의블렌드쉐입의 특성에, 표준화된 파라미터 제공은 서로 다른 얼굴에 대해서 블렌드쉐입 복제를 수행하는 본 연구의 목적에 적합하다. 따라서 본 연구에서는메쉬 변형 전달 알고리즘에 기반하여 블렌드쉐입 복제를 수행하였다.
3. 표준 블렌드쉐입 리그 제작
표준 블렌드쉐입 리그 제작을 위하여 먼저 필요한 것은 표준 페이셜 모델이다. 본 연구에서는 한국인 2~30대 성인 남녀를 기준으로 하여 표준 페이셜 모델을 제작하였다. 표준 페이셜 모델의 폴리곤 개수는 얼굴 영역에 해당하는 페이셜 서피스 메쉬의 경우 약 11K 개, 속눈썹과 안구, 치아 등 얼굴 세부 오브젝트를 모두 합치면 약 48K 개로 구성하였다. Fig. 2는 본 연구를 위하여 제작한 표준 페이셜 모델을 보여주고 있다.
Fig. 2. Default facial model of our research.
다음으로 표준 페이셜 모델에 대하여 표준 블렌드쉐입을 제작하였다. 페이셜 애니메이션을 위한 블렌드쉐입 셋의 경우 타겟(target) 쉐입들을 기쁨, 놀람, 슬픔 등 온전한 하나의 얼굴 표정으로 사용할 수도 있지만, 얼굴의 각 부위를 독립적으로 제어할 수 있도록 얼굴 근육 움직임에 기반한 FACS(Facial Action Coding System)[6]에 기반한 델타 쉐입(Delta shape) 을 활용하는 것이 일반적이다.
본 연구에서는 Apple ARKit 이 제안하는 52개의블렌드쉐입 목록에 기반하여 표준 블렌드쉐입을 제작하였다. 해당 블렌드쉐입 셋을 선택한 이유는 먼저블렌드쉐입의 구성이 잘 알려져 있으므로 개발된 결과물을 여러 다른 어플리케이션에서 활용하고자 할 때 데이터 호환이 용이하고, 실시간 게임 엔진(ex. Unreal, Unity) 상에서 실시간으로 동작하는 디지털 캐릭터의 페이셜 애니메이션을 구현할 때 iPhone이나 iPad 등 트루 뎁스(True Depth) 카메라가 탑재된 장비를 실시간 페이셜 캡처 장비로 활용하여 테스트를 손쉽게 수행할 수 있기 때문이다.
4. 블렌드쉐입 복제
Fig. 3은 본 연구의 블렌드쉐입 복제 프로세스의 개요를 나타내고 있다. 얼굴 데이터베이스를 통한 블렌드쉐입은 서로 다른 여러 개의 쉐입을 선형 조합 (Linear combination)하는 방식으로 계산하는데, 결과 메쉬를 벡터 f, 각 타겟 쉐입을 벡터 b, 각 타겟쉐입의 선형 조합 가중치를 스칼라 w로 하고 n개의타겟 쉐입을 가진 얼굴의 표현식은
\(\mathbf{f}=\sum_{k=0}^{n} w_{k} \mathbf{b}\) (1)
으로 나타낼 수 있다. 이 식을 행렬곱 형태로 보다 간결하게 표현하면
\(\mathbf{f}=\mathbf{B w}\) (2)
로 나타낼 수 있다. 행렬 B는 n개의 열벡터 b 로 이루어져 있으며 이를 ‘블렌드쉐입 매트릭스’로 부른다. 벡터 w는 n개의 스칼라 w로 이루어져 있다.
위와 같은 블렌드쉐입 모델은 얼굴 전체의 메쉬버텍스 좌표를 선형 조합하는 방식으로, 수학적으로는 간결하나 실제 현업에서 사용하기에는 직관적이지 않다. 그리하여 본 연구에서는 동일한 행렬곱 연산의 형태를 가지고 있으나 기준이 되는 무표정 쉐입 (Neutral shape)을 하나 정하고, 그 쉐입으로부터의변화량을 선형 조합하는 델타 블렌드쉐입(Delta blend-shape) 모델을 활용한다. 델타 블렌드쉐입 모델에서 얼굴의 표현식은
\(\mathbf{f}=\mathbf{b}_{\mathbf{k}}+\sum_{k=1}^{n} w_{k}\left(\mathbf{b}_{k}-\mathbf{b}_{\mathbf{i}}\right)\) (3)
으로 나타낼 수 있으며, b0는 무표정 쉐입을 의미한다. 이를 행렬곱 연산으로 간결하게 표현하면
\(\mathbf{f}=\mathbf{b}_{\mathbf{p}}+\mathbf{B}_{\mathbf{w}}\) (4)
으로 나타낼 수 있다.
이렇게 행렬곱의 형태로 블렌드쉐입 연산을 정의한 다음, 표준 블렌드쉐입의 메쉬 모델을 \(\hat{\mathbf{f}}\), 타겟 쉐입을 \(\hat{\mathbf{b}}\)로 표현하였을 때 블렌드쉐입의 복제는 서로 다른 메쉬 모델간의 변형률 함수 \(\Phi\)의 값을 최소화하는 새로운 얼굴에서의 블렌드쉐입 매트릭스 \(\mathbf{B}\)를 찾는 에너지 최소화 문제로 정의할 수 있다.
\(\begin{gathered} \min \operatorname{mize} \\ \mathbf{B} \end{gathered}(\hat{\mathbf{f}}, \mathbf{f})\) (5)
메쉬 변형률 함수 \(\Phi\)을 최소화하기 위하여, 표준메쉬 \(\hat{\mathrm{b}}_{0}\)와 표준 블렌드쉐입 타겟 \(\hat{\mathbf{b}}\) 사이의 메쉬 변형을 새로로운 무표정 메쉬 b0와 새로운 블렌드쉐입타겟 b으로 전달하는 제한 최적화(constrained optimization) 연산을 수행한다.
제한 최적화를 수행하기 위한 제한 조건(constraint)으로, 본 연구에서는 표준 얼굴 메쉬와 대상 얼굴 메쉬가 동일한 폴리곤 개수와 메쉬 구조로 되어있는 것으로 가정하였다. 이 가정에 기반한 메쉬 변형 전달 방식의 경우, 표준 얼굴 메쉬와 대상 얼굴메쉬에 별도의 대응점을 지정하거나 대응 영역 등을 지정하는 추가적인 공정이 불필요하다는 장점이 있다. 물론 이 방식은 새로운 얼굴 메쉬를 제작할 때 항상 표준 얼굴 메쉬와 동일한 폴리곤 개수와 구조를 가진 얼굴 메쉬를 활용하여야 한다는 제한은 있으나, 얼굴 리깅 이후의 UV 텍스쳐 매핑 작업, 세부 디포머적용 작업 등 얼굴과 관련된 다른 프로세스를 개발할 때에도 페이셜 메쉬가 항상 동일한 메쉬 구조로 되어있다는 것은 단점이 아니라 장점으로 작용하는 경우가 많다. 따라서 본 연구에서도 표준 얼굴 메쉬와 대상 얼굴 메쉬가 동일한 폴리곤 개수 및 메쉬 구조로 되어 있는 것으로 가정하고 최적화 연산을 수행하였다. 무표정 쉐입에서 타겟 쉐입으로의 메쉬 변형은 메쉬 버텍스의 변환 행렬(Transformation matrix)을통한 변형으로 표현할 수 있고, 이 변환 행렬을 \(\mathbf{M}\)으로 표현한다. 여기에, 메쉬의 변형의 기준이 되는 제한 조건 벡터(constraint vector)를 \(\mathbf{c}\)로 표현한다. 이 제약 조건은 무표정 쉐입 b0의 특성을 유지하며타겟 쉐입 b를 생성할 수 있게 한다. 이를 통하여 임의의 타겟 쉐입 b 에 대한 최적화 연산은 다음 행렬식
\(\underset{\mathrm{b}}{\min }|| \mathbf{c}-\mathbf{M x}||_{2}^{2}\) (6)
에 대한 선형 최적화를 수행하는 것으로 정의할 수 있다. 벡터 x는 이 수식의 미지수이며, 메쉬 변형이 완료된 새로운 얼굴의 메쉬 버텍스의 위치이다. 이를 잘 알려진 정규 방정식(Normal equation) 형태로 표현하면
\(\mathbf{M}^{\mathrm{T}} \mathbf{M} \mathbf{x}=\mathbf{M}^{\mathrm{T}} \mathbf{c}\) (7)
로 표현할 수 있고, 이 행렬 연산을 최적화하는 것으로 블렌드쉐입을 복제할 수 있다. 위 행렬 연산은 희소 행렬(sparse matrix)에 대한 최적화 연산으로, 본연구에서는 이 행렬식 해결을 위하여 sparse LU solver(UMFPACK)을 활용하였다. 본 연구의 알고리즘은 [Algorithm 1]의 의사코드를 하여 확인할 수 있다.
Algorithm. 1. Pseudo code of our deformation transfer algorithm.
5. 프로덕션 페이셜 리그 적용 및 효율성 검증
본 연구의 결과물이 실제 디지털 콘텐츠 제작 프로덕션에서 활용 가능함을 검증하기 위하여, DSLR 을 활용한 Photogrammetry 3D 스캔 시스템에서 획득된 메쉬 데이터를 기반으로 페이셜 애니메이션이 가능한 페이셜 리깅을 제작하는 공정에 본 연구의결과물을 적용하였다. 이를 위하여 42대의 DSLR로 구성된 페이셜 스캔 시스템에서 인물의 페이셜 스캔을 수행하였고, 그렇게 획득된 메쉬 결과물(Fig. 4)을표준 얼굴 모델에 기반하여 메쉬 클린업 작업을 수행한 뒤 블렌드쉐입 복제를 수행하였다. 그 결과, Fig. 5과 같이 사실적인 얼굴 표현이 가능한 블렌드쉐입기반 페이셜 리그를 효율적으로 제작할 수 있었다.
Fig. 4. Photogrammetry facial scan data from actor.
Fig. 5. Facial expressions of digital double created by our blendshape transfer method.
Table 1. Comparison of working hours between professional artist and the results of our method.
본 연구에서 제안하는 방식이 기존 방식보다 쉽고 빠르게 페이셜 리그를 제작할 수 있다는 사실을 검증하기 위하여, 실제 현업에서 페이셜 리그를 제작하는 숙련된 전문 작업자의 작업 시간과 비교, 검증을 수행하였다. 비교 검증은 동일한 난이도의 사실적인 페이셜 모델 및 블렌드쉐입 타겟 모델의 제작 시간을 전문 작업자 5명으로부터 측정, 평균을 계산하였다. Table 1의 결과와 같이, 본 연구의 방식으로 제작한 페이셜 리그 제작 공정의 효율성이 기존 방식보다 월등히 향상되었음을 확인할 수 있다.
6. 결론
본 연구에서는 디지털 휴먼 제작 공정에 있어 노동 집약적인 블렌드쉐입 제작 공정을 메쉬 변형 전달알고리즘에 기반한 블렌드쉐입 복제 방법을 소개하였다. 본 연구에서 제안하는 방법은 블렌드쉐입에 기반한 페이셜 리깅은 효율적으로 새로운 얼굴로 복제할 수 있으나, 얼굴 내부에 뼈대 구조를 만들에 서피스 메쉬 모델이 바인딩 되어 있는 형태의 얼굴 리깅이나, 물리 기반 변형이 적용된 페이셜 리깅 모델에는 적용되기 어렵다는 한계점이 있다. 본 연구를 통하여 실존 인물을 3D 스캔한 데이터로부터 손쉽게 애니메이션이 가능한 형태의 얼굴을 획득할 수 있으며, 이를 바탕으로 영화, 애니메이션 등 전통적 디지털 콘텐츠 분야뿐 아니라 VR, AR, 뉴미디어 콘텐츠 등 다양한 분야에서 신속하게 페이셜 리깅을 제작할 수 있어 그 활용가치가 높다.
References
- F.I. Parke, "Computer Generated Animation of Faces," Proceedings of the ACM annual conference, Vol. 1, pp. 451-457, 1972.
- L. Hao, T. Weise, and M. Pauly, "ExampleBased Facial Rigging," ACM Transactions on Graphics, Vol. 29, Issue 4, pp. 1-6, 2010.
- Z. Gaspard, et al. "Data-driven Extraction and Composition of Secondary Dynamics in Facial Performance Capture," ACM Transactions on Graphics, Vol. 39, Issue 4, 107-1, 2020.
- J.P. Lewis, et al. "Practice and Theory of Blendshape Facial Models," Eurographics State of the Art Reports, Vol 1, No. 8, pp. 199-218, 2014.
- R.W. Sumner and J. Popovic. "Deformation Transfer for Triangle Meshes," ACM Transactions on Graphics Vol. 23, Issue 4, 399-405, 2004. https://doi.org/10.1145/1015706.1015736
- P. Ekman. What the Face Reveals: Basic and Applied Studies of Spontaneous Expression using the Facial Action Coding System, 1997.
- H. Byun, "Real-time Facial Modeling and Animation based on High Resolution Capture," Journal of Korea Multimedia Society, Vol. 11, No. 8, pp. 1138-1145, 2008.
- C. Lee, I. Kim, and S. Cho, "Designing and Implementing 3D Virtual Face Aesthetic Surgery System Based on Korean Standard Facial Data," Journal of Korea Multimedia Society, Vol. 12, No. 5, pp. 737-744, 2009.
- T. Cho, J. Jung, and S. Choi, "3D Emotional Avatar Creation and Animation using Facial Expression Recognition," Journal of Korea Multimedia Society, Vol. 17, No. 9, pp. 1076-1083, 2008. https://doi.org/10.9717/kmms.2014.17.9.1076
- T. Igarashi, T. Moscovich, and J. F. Hughes, "As-rigid-as-possible Shape Manipulation," ACM Transaction on Graphics, Vol. 24, Issue 3, pp. 1134-1141, 2005. https://doi.org/10.1145/1073204.1073323
- C. Cao, et al. "FaceWarehouse: A 3D Facial Expression Database for Visual Computing," IEEE Transactions on Visualization and Computer Graphics, Vol. 20, Issue 3, pp. 413-425, 2013. https://doi.org/10.1109/TVCG.2013.249