Makeup transfer by applying a loss function based on facial segmentation combining edge with color information

Lim, So-hyun;Chun, Jun-chul;

doi:10.7472/jksii.2022.23.4.35

Journal of Internet Computing and Services (인터넷정보학회논문지)

Volume 23 Issue 4
/
Pages.35-43
/
2022
/
1598-0170(pISSN)
/
2287-1136(eISSN)

Korean Society for Internet Information (한국인터넷정보학회)

DOI QR Code

Makeup transfer by applying a loss function based on facial segmentation combining edge with color information

에지와 컬러 정보를 결합한 안면 분할 기반의 손실 함수를 적용한 메이크업 변환

Lim, So-hyun (Department of Computer Science, Kyonggi University) ;
Chun, Jun-chul (Department of Computer Science, Kyonggi University)

임소현 ;
전준철

Received : 2022.06.03
Accepted : 2022.06.20
Published : 2022.08.31

https://doi.org/10.7472/jksii.2022.23.4.35 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Makeup is the most common way to improve a person's appearance. However, since makeup styles are very diverse, there are many time and cost problems for an individual to apply makeup directly to himself/herself.. Accordingly, the need for makeup automation is increasing. Makeup transfer is being studied for makeup automation. Makeup transfer is a field of applying makeup style to a face image without makeup. Makeup transfer can be divided into a traditional image processing-based method and a deep learning-based method. In particular, in deep learning-based methods, many studies based on Generative Adversarial Networks have been performed. However, both methods have disadvantages in that the resulting image is unnatural, the result of makeup conversion is not clear, and it is smeared or heavily influenced by the makeup style face image. In order to express the clear boundary of makeup and to alleviate the influence of makeup style facial images, this study divides the makeup area and calculates the loss function using HoG (Histogram of Gradient). HoG is a method of extracting image features through the size and directionality of edges present in the image. Through this, we propose a makeup transfer network that performs robust learning on edges.By comparing the image generated through the proposed model with the image generated through BeautyGAN used as the base model, it was confirmed that the performance of the model proposed in this study was superior, and the method of using facial information that can be additionally presented as a future study.

메이크업은 사람의 외모를 개선하는 가장 보편적인 방법이다. 하지만 메이크업의 스타일이 매우 다양하기 때문에 한 개인이 본인에게 직접 메이크업을 하는 것에는 많은 시간적, 비용적 문제점이 존재한다. 이에 따라 메이크업 자동화에 대한 필요성이 증가하고 있다. 메이크업의 자동화를 위해 메이크업 변환(Makeup Transfer)가 연구되고 있다. 메이크업 변환은 메이크업이 없는 얼굴 영상에 메이크업 스타일을 적용시키는 분야이다. 메이크업 변환은 전통적인 영상 처리 기반의 방법과 딥러닝 기반의 방법으로 나눌 수 있다. 특히 딥러닝 기반의 방법에서는 적대적 생성 신경망을 기반으로 한 연구가 많이 수행되었다. 하지만 두 가지 방법 모두 결과 영상이 부자연스럽거나 메이크업 변환의 결과가 뚜렷하지 않고 번지거나 메이크업 스타일 얼굴 영상의 영향을 많이 받는다는 단점이 있다. 메이크업의 뚜렷한 경계를 표현하고 메이크업 스타일 얼굴 영상에서 받는 영향을 완화시키기 위해 본 연구에서는 메이크업 영역을 분할하고 HoG(Histogram of Gradient)를 사용해 손실 함수를 계산한다. HoG는 영상 내에 존재하는 에지의 크기와 방향성을 통해 영상의 특징을 추출하는 방법이다. 이를 통해 에지에 대해 강건한 학습을 수행하는 메이크업 변환에 대해 제안한다. 제안한 모델을 통해 생성된 영상과 베이스 모델로 사용하는 BeautyGAN을 통해 생성된 영상을 비교해 본 연구에서 제안한 모델의 성능이 더 뛰어남을 확인하고 추가로 제시할 수 있는 얼굴 정보에 대한 사용 방법을 향후 연구로 제시한다.

Keywords

1. 서론

사람의 외모는 사회에서 매우 중요한 역할을 한다. 사적 혹은 공적인 활동에서 타인에게 호감을 사는 외모를 가진 사람이 더 많은 인정을 받기 때문이다. 이러한 이유로 사회에서는 사람의 외모를 꾸미는 것에 대한 수요가 높다. 메이크업은 외모를 꾸미는 가장 보편적인 방법이다. 하지만 사람의 외모가 각기 다른 만큼 메이크업 또한 다양한 스타일이 존재하며 각자에 맞는 화장법이 존재한다. 하지만 메이크업을 적용하기 위해 사용되는 화장품의 브랜드, 색상, 사용법에 따라 매우 많은 화장법이 존재하기 때문에 한 개인이 본인에게 직접 메이크업을 하는 것에는 시간적, 비용적 문제점이 있어 메이크업 자동화에 대한 필요성이 증가했다. 메이크업 자동화를 서비스하는 대표적인 방법은 가상 메이크업 어플리케이션이다. 하지만 가상 메이크업 어플리케이션은 사용자의 수동적인 조정이 필요하고 어플리케이션 내에서 서비스하는 고정된 메이크업 스타일만을 변환할 수 있기 때문에 사용자가 원하는 메이크업을 완벽하게 적용하는 것에 대한 문제점이 존재한다.

이 문제점을 개선하기 위해 메이크업 변환(Makeup Transfer)이 최근 연구되고 있다. 메이크업 변환은 메이크업이 없는 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상이 주어졌을 때, 비 메이크업 얼굴 영상에 메이크업 스타일이 적용된 영상을 생성하는 분야이다. 메이크업 변환을 위한 방법은 영상 처리 기반의 방법[1,2,3]과 딥러닝을 활용한 방법[4,5]으로 나눌 수 있다. 그 중 딥러닝을 활용한 방법은 최근 적대적 생성 신경망(Generative Adversarial Network, GAN)[6]을 기반으로 한 연구가 수행되어 왔다[7,8,9]. 적대적 생성 신경망은 고해상도의 사실적인 이미지를 생성하는데 널리 사용되었다[10,11]. 때문에 메이크업을 적용한 새로운 얼굴 영상을 생성하기에 적합하다. 본 논문에서는 BeautyGAN[7] 기반의 안면 분할을 사용한 손실 함수를 적용한 메이크업 변환을 사용해 메이크업을 적용하고 Base model과 결과를 비교함으로써 HoG를 통해 손실 함수를 계산하는 것이 메이크업 변환 모델에 어떤 영향을 미치는 지에 대해 분석하였다. 사용한 데이터 셋은 MT(Makeup Transfer) 데이터 셋[7]으로 1,100여 장의 비 메이크업 얼굴 영상과 2,700여 장의 메이크업 스타일 얼굴 영상으로 구성되어 있다.

2. 관련 연구

2.1 적대적 생성 신경망

적대적 생성 신경망[6]은 영상을 생성하는 생성기와 생성기에서 생성한 영상과 정답 영상을 비교해 생성된 영상이 진짜인지, 가짜인지를 구분하는 판별기가 적대적으로 상호 작용을 하며 판별기가 진짜와 가짜를 구분할 수 없는 영상을 만드는 것을 목표로 생성기를 학습하는 네트워크이다. 최근 적대적 생성 신경망은 고해상도의 사실적인 이미지를 생성하는데 사용되고 있다. [10]은 얼굴인식 문제에서 폐색 문제를 해결하고 얼굴 인식 성능을 향상시키기 위해 사람 얼굴의 대부분 혹은 판별 영역을 자동으로 폐색을 지우는 GAN 기반의 네트워크를 두 단계로 나눠 사용했다. [11]은 적외성 기능과 가시적 디테일을 가지고 있는 이미지를 얻기 위해 라플라이산 피라미드(Laplacian pyramid)와 적대적 생성 신경망을 융합한 새로운 네트워크 Laplacian-GAN을 제안한다. 적대적 생성신경망은 영상을 새로 생성하는 분야 외에도 영상 압축시스템[12], 자연 언어 처리[13]와 같이 다른 분야에도 널리 사용된다.

2.2 메이크업 변환

2.2.1 영상 처리 기반 방법

메이크업 변환은 전통적으로 영상 처리 기반의 방식을 사용해 연구되었다. [1]은 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상을 정렬을 통해 비슷한 얼굴 위치를 만든 후 얼굴 구조 레이어, 피부 디테일 레이어, 색상레이어로 분행한다. 이후 각각에 그레디언트 편집, 가중치 덧셈, 알파 블렌딩을 사용해 채널들을 합성하고, 이 채널들을 합쳐 최종 출력 영상을 생성한다. [2]는 메이크업 변환에 동일한 사람으로 이루어진 비 메이크업 얼굴 영상과 메이크업 스타일이 적용된 얼굴 영상의 데이터가 필요한 프레임워크를 제안한다. [3]은 피부색을 사용해 GMM을 사용한 얼굴 분할을 통해 얼굴에 있는 랜드마크 (Landmark)를 조정함으로써 메이크업을 변환한다. 하지만 이러한 전통적인 영상 처리 기반 방법들은 메이크업을 단순한 조합으로 바라보고 문제를 해결했기 때문에 변환을 통해 나온 결과 영상이 매우 부자연스럽다.

2.2.2 딥러닝 기반 방법

메이크업 변환은 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상이 주어졌을 때 메이크업 스타일 얼굴 영상에 있는 메이크업 스타일을 비 메이크업 얼굴 영상에 적용시켜 메이크업 변환 얼굴 영상을 만드는 분야이다. BeautyGlow[5]는 Glow 프레임워크를 기반으로 새로운 네트워크를 제안하고 메이크업 스타일 영상의 구성요소와 비 메이크업 영상의 구성 요소를 분해해 메이크업의 진하고 옅음을 조절할 수 있도록 했다. LADN[14]은 메이크업 중에서도 특별한 요소인 페이스 페인팅, 쥬얼리와 같은 요소가 존재하는 메이크업을 변환하기 위해 여러 개의 판별기를 추가한 네트워크를 제안했다. 적대적생성 신경망은 메이크업 변환에도 널리 사용되었다[7,8,9,15,16]. PairedCycleGAN[15]은 메이크업 스타일 얼굴영상에 있는 얼굴을 비 메이크업 얼굴 영상에 있는 얼굴에 맞게 왜곡시킴으로써 메이크업을 변환하고, 그를 위해 판별기를 추가해 네트워크를 학습시킨다. BeautyGAN[7]은 메이크업 변환과 제거를 동시에 수행하는 이중 입출력 구조의 적대적 생성 신경망을 제안하고 새로운 데이터 셋을 만들었다. PSGAN[8]은 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상 간의 포즈와 각도가 다를 때 떨어지는 메이크업 변환의 성능을 향상하기 위해 얼굴 랜드마크를 사용한다. RAMT-GAN[16]은 사실적이고 정확한 메이크업 변환을 위한 비지도 적대적 생성 신경망을 제안한다.

3. HoG를 사용한 안면 분할 기반의 손실 함수를 적용한 메이크업 변환

본 논문에서는 Histogram of Gradient(HoG)[17]을 사용해 분할된 안면에 대한 손실 함수를 계산하고 그를 통해 적대적 생성 신경망 기반의 네트워크에 있는 생성기를 학습시키고자 한다. 메이크업은 피부 메이크업, 눈 메이크업, 입술 메이크업 등 다수의 영역에 대한 부분 메이크업 과 부분 메이크업들이 합쳐서 이루는 전체 메이크업에 대한 자연스러움이 존재해야 한다. 본 연구에서는 메이크업을 피부/눈/입술로 나누어 학습시키고, 이를 위해 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상, 메이크업 변환 얼굴 영상에 대해 안면 분할(face-parsing)을 수행한다. 그리고 분할된 피부/눈/입술에 대해 히스토그램 매칭(Histogram matching)을 사용한 색상 비교와 HoG를 사용한 형태를 비교해 손실 함수를 학습시킨다. 전체적인 구조는 (그림 1)과 같으며 기본적인 구조는 BeautyGAN[7]을 따른다.

OTJBCD_2022_v23n4_35_f0001.png 이미지

(그림 1) HoG를 사용한 안면 분할 기반의 손실 함수를 적용한 메이크업 변환의 구조

(Figure 1) Structure of makeup transfer with loss function based on facial segmentation using HoG

3.1 안면 분할 네트워크

메이크업 변환은 전체 메이크업의 자연스러움은 물론 피부, 눈, 입술 영역에 대한 부분적인 디테일이 중요하다. 본 연구에서는 부분 메이크업에 대한 학습을 강조하기 위해 메이크업을 피부 메이크업, 눈 메이크업, 입술 메이크업으로 분할하고 그에 따라 각각의 손실 함수를 계산한다. 메이크업을 분할하기 위해서 먼저 주어진 영상을 분할해야 한다. 주어진 영상을 분할하기 위해 사용되는 모델은 BiSeNet[18]이다. BiSeNet은 semantic segmentation을 수행하기 위해 제안된 모델로 사진에 있는 모든 픽셀을 지정된 클래스로 분류하는 모델이다. 비 메이크업 얼굴 영상, 메이크업 스타일 얼굴 영상, 메이크업 변환 얼굴영상에 BiSeNet을 적용시켜 얻을 수 있는 클래스는 왼쪽/오른쪽 귀, 왼쪽/오른쪽 눈섭, 왼쪽/오른쪽 눈, 코, 얼굴, 위/아래 입술, 입 안, 머리, 목, 옷, 배경으로 총 15개이다. 이렇게 분류된 15개의 클래스에서 왼쪽/오른쪽 눈, 코, 얼굴, 위/아래 입술 클래스를 사용해 안면을 분할한다.

안면을 분할하는 과정은 (그림 2)와 같다. BiSeNet을 통해 분류된 얼굴 클래스와 코 클래스를 합쳐 피부 마스크를 만들고, 왼쪽/오른쪽 눈 클래스의 위치 좌표를 사용해 눈 메이크업에 해당하는 바운딩 박스(Bounding box)를 만들어 눈 마스크를 만든다. 마지막으로 위/아래 입술 클래스를 합쳐 입술 마스크를 만든다. 이렇게 나온 마스크를 분할하기 전 얼굴 영상에 적용해 피부 메이크업, 눈 메이크업, 입술 메이크업에 해당하는 영역을 추출해낸다.

OTJBCD_2022_v23n4_35_f0002.png 이미지

(그림 2) BiSeNet을 사용한 안면 분할 과정. (a) 분할 마스크, (b) 추출된 메이크업 영역

(Figure 2) Facial segmentation process using BiSeNet. (a) Sementation mask, (b) Extracted makeup area

3.2 Histogram of Gradient

기존의 메이크업 변환 연구들은 비 메이크업 얼굴 영상을 제대로 유지하지 못하거나 메이크업 스타일 얼굴 영상에 존재하는 메이크업을 제외한 다른 특징들의 영향을 받곤 했다. 그 결과 진한 메이크업의 경우 입술 라인의 흐려지거나 눈매가 또렷하지 않는 나타났고, 메이크업 스타일 얼굴 영상에서의 배경에 영향을 받는 결과를 보이기도 했다. 본 연구에서는 이러한 단점을 개선하기 위해 비 메이크업 얼굴 영상과 메이크업 변환 얼굴 영상의 형태를 비교함으로써 얼굴 영역에 대한 경계를 뚜렷하게 나타내고, 그로 인한 메이크업의 번짐 현상 혹은 메이크업 스타일 얼굴 영상의 배경에서 받는 영향을 완화시키고자 한다. HoG(Histogram of Gradient)는 주어진 영상을 같은 크기의 셀(cell)로 분할하고, 분할된 셀마다 에지(edge)의 방향과 크기를 계산해 히스토그램 형식으로 나타낸 영상 특징 중 하나이다. HoG는 에지가 가지는 기울기의 크기를 구하는 수식 (1)과 에지의 방향을 구하는 수식 (2)를 통해 구할 수 있다. HoG는 다른 영상 특징들에 비해 밝기 변화, 조명 변화에 덜 민감한 에지를 사용하기 때문에 각기 다른 환경에서 찍힌 얼굴 영상으로 이뤄진 MT 데이터 셋에 사용하기 적합하다.

\(\begin{aligned}\operatorname{Magnitude}(x, y)=\sqrt{f_{x}(x, y)^{2}+f_{y}(x, y)^{2}}\end{aligned}\)

(수식 1) 에지의 기울기의 크기

\(\begin{aligned}\operatorname{Orientation}(x, y)=\arctan \frac{f_{y}(x, y)}{f_{x}(x, y)}\\\end{aligned}\)

(수식 2) 에지의 방향성

비 메이크업 얼굴 영상에서 추출한 피부 메이크업 영역과 메이크업 변환 얼굴 영상에서 추출한 피부 메이크업 영역에 대한 HoG 결과는 (그림 3)과 같다. 비 메이크업 얼굴 영상과 메이크업 변환 얼굴 영상에서 분할된 피부 메이크업, 눈 메이크업, 입술 메이크업 영역에 HoG를 적용해 나온 값들을 L1 손실 함수로 계산해 비교한다. 각 영역에서 나온 손실을 더해 L_hog를 계산하고 이를 생성기의 학습에 사용한다. L_hog의 수식은 수식 (3)과 같으며 본 연구에서 제안한 최종 손실 함수 수식은 수식 (4)와 같다.

OTJBCD_2022_v23n4_35_f0004.png 이미지

(그림 3) HoG 결과

(Figure 3) Result of HoG

L_hog = ( L_{non - face - hog} * L_{res - face - hog} )

+ ( L_{non - eyes - hog} * L_{res - eyes - hog} )

+ ( L_{non - lip - hog} * L_{res - lip - hog} )

(수식 3) HoG를 사용한 손실 함수 식

*: L1 loss, non: 비 메이크업 얼굴 영상, res: 메이크업 변환 영상, hog: HoG 적용 결과

L = L_hog + L_clr

(수식 4) 전체 손실 함수 식

*hog: HoG 적용 결과, clr: 색상 히스토그램 매칭 결과

4. 실험

4.1 실험 환경 및 데이터 셋

본 연구에서 제안하는 안면 분할 손실 함수를 사용한 메이크업 변환을 위한 실험 및 구현 환경을 다음과 같다. Pytorch 프레임워크를 기반으로 16.04 LTS 운영체제에서 실험을 구현 및 진행하였다. 가중치 최적화 모델로는 Adams를 사용하고 학습 데이터의 크기는 256x256, Epoch은 200으로 설정했다. 사용한 데이터 셋은 T(MakeupTransfer) 데이터 셋[7]으로 비 메이크업 얼굴 영상 1,100 여장, 메이크업 스타일 얼굴 영상 2,700여 장으로 이루어져 있다.

4.2 실험 결과

4.2.1 정성적 비교 실험

(그림 4)는 입력으로 사용하는 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상, 베이스 모델로 사용한 BeautyGAN의 메이크업 변환 결과와 본 연구에서 제안한 메이크업 변환의 결과를 나타낸 것이다. (그림 5)와 (그림 6)은 변환 결과에 대해 상세한 차이를 보기 위해 (그림 4)의 결과를 확대한 것이다. (그림 5)의 (a)를 보면 진한 메이크업의 경우 입술 메이크업이 번지거나 눈 메이크업이 흐려지는 문제점이 나타나는 베이스 모델과 달리 제안한 모델의 변환 결과에서는 비 메이크업 얼굴 영상에 있던 입술의 경계선에 맞게 끝까지 입술 메이크업이 잘 변환되거나 영역이 줄어드는 입술의 끝 부분에서 경계가 흐려지던 현상이 사라진 것을 확인할 수 있다. (그림 5)의 (b)를 통해 메이크업 스타일 얼굴 영상에 있던 반짝이는 효과가 입술 형태에 맞게 변환이 잘 이뤄진 것을 확인할 수 있다. 또한 (그림 6)을 보면 메이크업 스타일 얼굴 영상에 있는 배경의 영향을 받아 피부가 어둡게 변환된 베이스 모델과 달리 제안한 모델의 결과에서는 그런 것이 없는 것을 확인할 수 있다. 이는 메이크업 변환에서 메이크업 스타일 얼굴 영상에서 받는 영향을 완화시켰다고 볼 수 있다. 이 두 가지 개선점을 통해 본 연구에서 제안한 분할된 안면에 HoG를 사용한 손실 함수를 적용한 메이크업 변환이 메이크업의 부분에 해당하는 피부/눈/입술 메이크업에 대한 변환을 뚜렷하게 하고, 비 메이크업 얼굴 영상의 아이덴티티(Identity)를 더 잘 유지하고 메이크업 스타일 얼굴 영상에서 메이크업을 제외한 다른 요소들의 영향을 줄인 것을 확인할 수 있다.

OTJBCD_2022_v23n4_35_f0003.png 이미지

(그림 4) 베이스 모델(BeautyGAN)과 제안 네트워크의 메이크업 변환 결과. (a) 비 메이크업 얼굴 영상, (b) 메이크업 스타일 얼굴 영상, (c) 베이스 모델의 결과, (d) 제안 네트워크의 결과

(Figure 4) Makeup transfer results of the base model(BeautyGAN) and the proposal network. (a) non-makeup face image, (b) makeup style face image, (c) base model result, (d) proposed network result

OTJBCD_2022_v23n4_35_f0005.png 이미지

(그림 5) 입술 메이크업에 대한 베이스 모델과 제안 네트워크의 비교

(Figure 5) Comparison of base model and proposed network for lip makeup

OTJBCD_2022_v23n4_35_f0006.png 이미지

(그림 6) 배경의 영향에 대한 베이스 모델과 제안 네트워크의 비교

(Figure 6) Comparison of base model and proposed network on the influence of the background

4.2.2 정량적 비교 실험

제안하는 모델의 정량적 성능 평가를 위해 사용하는 지표는 FID(Frechet Inception Distance)[19]를 사용하였다. FID는 생성된 영상과 정답 영상 간의 특징을 거리를 측정함으로써 그 특징을 비교하는 방식으로 그 수식은 수식 (5)과 같다.

\(\begin{aligned} F I D=\| \mu_{X}-\mu_{Y} & \|^{2} \\ & +\operatorname{Tr}\left(\sum X+\sum Y-2 \sqrt{\sum X \sum Y}\right.\end{aligned}\)

(수식 5) FID. X와 Y에 대한 평균과 공분산의 합.

* X; 비교한 영상 그룹, Y: 생성한 영상 그룹,

Tr: 대각선 요소의 합,

FID의 값이 작을수록 비교한 두 영상의 차이가 덜 하다는 뜻이기 때문에 FID를 통해 비 메이크업 얼굴 영상의 특징이 잘 유지되었는지, 메이크업의 스타일이 잘 변환되었는지 확인할 수 있다. (표 1)은 베이스 모델과 제안한 모델의 메이크업 변환 결과를 FID로 비교한 값이며 소수점 4자리까지 표기했다. 각 25장의 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상을 사용해 메이크업 변환 영상을 생성하였고, 두 가지 모델 모두 메이크업 변환 얼굴 영상-메이크업 스타일 얼굴 영상, 메이크업 변환 얼굴 영상-비 메이크업 얼굴 영상을 비교해 평균값을 계산했다. (표 1)을 보면 메이크업 스타일 영상과 생성 영상을 비교했을 때 제안 네트워크가 5.7067, 비 메이크업 영상과 생성 영상을 비교했을 때 20.0458의 차이가 나며 제안한 네트워크의 FID 값이 더 낮은 것을 확인할 수 있다. 이는 베이스 모델보다 제안한 방법이 비 메이크업 영상의 얼굴을 유지하면서 메이크업 변환을 잘 수행했다고 볼 수 있다. 이를 통해 본 연구에서 제안한 HoG를 사용한 안면 분할 기반의 손실 함수를 적용하는 것이 메이크업 변환을 개선했다고 판단할 수 있다.

(표 1) 베이스 모델과 제안 네트워크의 FID 값

OTJBCD_2022_v23n4_35_t0001.png 이미지

(Table 1) FID comparison of the base model and the proposed network

5. 결론

본 논문에서는 HoG를 사용한 안면 분할 기반의 손실 함수를 적용한 메이크업 변환을 제안하고 성능을 평가하였다. 기존의 메이크업 변환 연구에서는 진한 화장에서의 메이크업 번짐 현상, 메이크업 스타일 얼굴 영상에서 메이크업 외적인 요소의 영향을 받아 변환 결과가 뚜렷하지 않는 단점이 있었다. 이를 개선하기 위해 메이크업에 해당하는 피부, 눈, 입술로 나눈 뒤, 분할된 안면에 HoG를 적용해 손실 함수를 계산하고 이를 통해 네트워크의 생성기를 학습시켰다. 그 결과 제안한 모델이 베이스 모델에 비해 메이크업에 해당하는 요소에 대해 더 뚜렷하고 온전한 변환을 이끌어냈으며, 메이크업 스타일 얼굴 영상에서 받는 메이크업 외 다른 요소들의 영향을 완화시켰다. 또한, FID를 통해 제안한 모델이 비 메이크업 얼굴 영상의 요소를 유지시키며 메이크업 변환을 수행했다는 것을 확인할 수 있다. 향후 연구에서는 비 메이크업 얼굴 영상과 메이크업 스타일 얼굴 영상의 얼굴의 각도나 표정이 많이 다를 때 나타나는 불완전한 현상을 줄이기 위해 얼굴 랜드마크를 활용해 표정과 각도에 강건한 메이크업 변환에 대한 연구를 수행하고자 한다.

References

Dong Guo and T. Sim, "Digital face makeup by example", 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, Jun-2009. https://doi.org/10.1109/cvpr.2009.5206833
A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. "Image analogies", In SIGGRAPH, pages 327-340, 2001. https://doi.org/10.1145/383259.383295
L. Xu, Y. Du, and Y. Zhang, "An automatic framework for example-based virtual makeup," 2013 IEEE International Conference on Image Processing. IEEE, Sep-2013. https://doi.org/10.1109/icip.2013.6738660
S. Liu, X. Ou, R. Qian, W. Wang, and X. Cao, "Makeup like a superstar: Deep localized makeup transfer network", In the Association for the Advance of Artificial Intelligence. AAAI Press, 2568-2575. https://arxiv.org/pdf/1604.07102.pdf
H.-J. Chen, K.-M. Hui, S.-Y. Wang, L.-W. Tsao, H.-H. Shuai, and W.-H. Cheng, "BeautyGlow: On-Demand Makeup Transfer Framework With Reversible Generative Network", 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, Jun-2019. https://doi.org/10.1109/cvpr.2019.01028
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio, "Generative Adversarial Networks", In NIPS, arXiv preprint arXiv:1406.2661, 2014 https://arxiv.org/pdf/1406.2661.pdf
Li et al., "BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversarial Network", Proceedings of the 26th ACM international conference on Multimedia. ACM, 15-Oct-2018. https://doi.org/10.1145/3240508.3240618
W. Jiang et al., "PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer", 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, Jun-2020. https://doi.org/10.1109/cvpr42600.2020.00524
R. Kips, P. Gori, M. Perrot, and I. Bloch, "CA-GAN: Weakly Supervised Color Aware GAN for Controllable Makeup Transfer", Computer Vision - ECCV 2020 Workshops. Springer International Publishing, pp. 280-296, 2020. https://doi.org/10.1007/978-3-030-67070-2_17
A. Jabbar, X. Li, M. M. Iqbal and A. J. Malik, "FD-StackGAN: Face De-occlusion Using Stacked Generative Adversarial Networks", KSII Transactions on Internet and Information Systems, vol. 15, no. 7, pp. 2547-2567, 2021. https://doi.org/10.3837/tiis.2021.07.014
J. Wang, C. Ke, M. Wu, M. Liu and C. Zeng, "Infrared and visible image fusion based on Laplacian pyramid and generative adversarial network," KSII Transactions on Internet and Information Systems, vol. 15, no. 5, pp. 1761-1777, 2021. https://doi.org/10.3837/tiis.2021.05.010
Eirikur Agustsson, Michael Tschannen, Fabian Mentzer, Radu Timofte, Luc Van Gool, "Generative Adversarial Networks for Extreme Learned Image Compression", The IEEE International Conference on Computer Vision (ICCV), pp. 221-231, 2019. https://arxiv.org/pdf/1804.02958.pdf
Liqun Chen, Yizhe Zhang, Ruiyi Zhang, Chenyang Tao, Zhe Gan, Haichao Zhang, Bai Li, Dinghan Shen, Changyou Chen, Lawrence Carin, "Improving Sequence-to-Sequence Learning via Optimal Transport", In ICLR, 2019 https://arxiv.org/pdf/1901.06283.pdf
Q. Gu, G. Wang, M. T. Chiu, Y.-W. Tai, and C.-K. Tang, "LADN: Local Adversarial Disentangling Network for Facial Makeup and De-Makeup", 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, Oct-2019. https://doi.org/10.1109/iccv.2019.01058
H. Chang, J. Lu, F. Yu, and A. Finkelstein, "PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup", 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, Jun-2018. https://doi.org/10.1109/cvpr.2018.00012
Q.-L. Yuan and H.-L. Zhang, "RAMT-GAN: Realistic and accurate makeup transfer with generative adversarial network", Image and Vision Computing, vol. 120. Elsevier BV, p. 104400, Apr-2022. https://doi.org/10.1016/j.imavis.2022.104400
N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection", 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE. https://doi.org/10.1109/cvpr.2005.177
C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, "BiSeNet: Bilateral Segmentation Network for Real-Time Semantic Segmentation", Computer Vision- ECCV 2018. Springer International Publishing, pp. 334-349, 2018. https://doi.org/10.1007/978-3-030-01261-8_20
M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, "GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium," arXiv, 2017. https://doi.org/10.48550/arXiv.1706.08500

Journal of Internet Computing and Services (인터넷정보학회논문지)

Makeup transfer by applying a loss function based on facial segmentation combining edge with color information

에지와 컬러 정보를 결합한 안면 분할 기반의 손실 함수를 적용한 메이크업 변환

Abstract

Keywords

1. 서론

2. 관련 연구

2.1 적대적 생성 신경망

2.2 메이크업 변환

2.2.1 영상 처리 기반 방법

2.2.2 딥러닝 기반 방법

3. HoG를 사용한 안면 분할 기반의 손실 함수를 적용한 메이크업 변환

3.1 안면 분할 네트워크

3.2 Histogram of Gradient

4. 실험

4.1 실험 환경 및 데이터 셋

4.2 실험 결과

4.2.1 정성적 비교 실험

4.2.2 정량적 비교 실험

5. 결론

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)