1. 서론
딥페이크는 인공지능 기술 중 하나인 딥러닝 (Deep Learning)과 가짜(Fake)라는 의미가 결합된합성어로, 한 사람의 얼굴을 딥러닝 기술을 사용하여 다른 사람의 신체와 합성함으로써 조작된 비디오를 생성하는 기술이다[1]. 특히 최근 GAN(Generative Adversarial Network)과 같은 딥러닝 기반의 비디오기술이 발전되면서 정교한 딥페이크 생성이 가능해졌다[2]. 정교하게 생성된 딥페이크 비디오가 소셜네트워크 서비스 및 비디오 플랫폼을 통해 빠르게 전파되면서, 사회적, 경제적, 정치적 측면으로 피해가 확산되고 있다[3].
딥페이크 기술로 발생하는 문제를 해결하기 위해, 최근 딥페이크 탐지를 위한 다양한 연구가 진행되고 있다. FaceSwap, GAN과 같은 딥페이크 생성 기술을 바탕으로 Celeb-DF[4], FaceForensics++(FF++) [5], DFDC[6] 등 다양한 딥페이크 비디오 데이터 세트가 공개되었으며, 해당 데이터 세트를 바탕으로 다양한 딥러닝 네트워크 구조가 효과적인 딥페이크 탐지를 위해 제안되었다. 최근 딥페이크 탐지 연구에 따르면, 현재 딥러닝 기반의 딥페이크 탐지 기술이 대략 72% 정도의 탐지 정확도를 보인다고 발표되었다[4]. 비디오 촬영 환경, 해상도, 생성 기술에 따른 다양한 변수가 존재하는 딥페이크의 특성상, 현재까지 발표된 딥페이크 탐지 기술은 탐지 정확도와 일반화에 있어서 제한적인 성능을 보였다.
일반적으로 이미지 혹은 비디오의 분석은 두 가지 색상 모델인 RGB 채널과 Grayscale(이하 Gray) 채널로 접근 가능하며, 지금까지 대다수의 딥러닝 기반의 딥페이크 탐지 연구는 RGB 채널 분석을 기반으로 수행되었다. 하지만 최근 연구에 따르면, RGB 채널 분석은 Gray 채널 분석에 비해 딥페이크 탐지에서 항상 앞선 성능을 보이는 것은 아니며, 오히려 Gray 채널 기반의 분석이 딥페이크 비디오 탐지에서 높은 성능을 보이는 경우가 다수 보고되었다[7-8]. 또한, 딥페이크 탐지뿐만 아니라, 일반적인 이미지 경계 탐지 및 분류에서도 Gray 채널이 빠르고 높은 성능을 보이는 경우가 관찰되었다[9-10]. 하지만 이러한 가능성에도 불구하고, Gray 채널 기반의 딥페이크 탐지 성능에 대한 정량적인 평가는 아직까지수행되지 않았다. 현재 제한적인 성능을 보이는 딥페이크 탐지 기술의 고도화를 위해서는, Gray 채널 기반의 딥페이크 탐지 성능에 대한 유효성 검증이 필요한 상황이다. 특히 다양한 형태의 네트워크 구조 및 변수가 존재하는 딥러닝 기반 딥페이크 탐지 기술의 특성상, 정량적인 실험 및 평가를 통해, Gray 채널 기반의 딥페이크 탐지 성능에 대한 유효성 검증이 필요하다.
본 연구에서는 RGB 채널 기반과 Gray 채널 기반의 딥페이크 탐지 성능 비교 및 분석 연구를 수행하였다. 기존 딥페이크 탐지 연구에서 주로 사용되고 있는 딥페이크 비디오 데이터 세트와 CNN 기반의 딥러닝 네트워크 구조를 선별하여, 색상 모델 간의 딥페이크 탐지 성능 비교 및 분석에 사용하였다. 본연구에서는 딥페이크 탐지 연구에서 가장 많이 사용되고 있는 Celeb-DF[4], FF++[5], DFDC[6] 데이터 세트를 선별하여 딥러닝 네트워크 구조의 학습과 평가에 사용하였다. 또한, 대표적인 CNN 기반의 딥러닝 네트워크 구조인 XceptionV1[11], InceptionRes NetV2[12], ResNet152[13], VGG16[14], DenseNet 121[15], AlexNet[16]을 선별하여 타깃 네트워크 구조로 사용하였다.
본 연구에서의 공헌점은 다음과 같다. 기존 딥페이크 탐지 연구에서 주로 사용되었던 RGB 채널 기반이 아닌, Gray 채널 기반의 딥페이크 탐지 성능을 다양한 평가 지표를 사용하여 정량적으로 평가함으로써, 딥페이크 탐지 연구의 새로운 가능성과 확장성을 제시한다.
본 논문의 구성은 다음과 같다. 2장에서는 딥페이크 생성 기술과 딥페이크 탐지 기술에 관해 설명하였다. 3장에서는 본 연구에서 수행한 실험 프로세스 및 평가 지표를 기술하였다. 4장에서는 선별된 데이터 세트, 네트워크 구조, 평가 지표를 바탕으로 수행한 실험 결과 및 결과에 대한 분석을 기술하였으며, 마지막으로 5장에서는 결론을 기술하였다.
2. 배경 연구
딥페이크 기술은 일반적으로 딥페이크 생성 기술과 딥페이크 탐지 기술로 분류된다.
2.1 딥페이크 생성
딥페이크 생성 기술은 딥러닝 네트워크 구조 중 하나인 오토인코더(Autoencoder)와 생성적 적대 신경망(GAN; Generative Adversarial Network)을 기반으로 발전되었다. 오토인코더는 입력과 출력이 같은 구조를 가진 인코더와 디코더로 구성된 딥러닝 네트워크 구조이다. 인코더에서는 입력된 부분을 요약하며, 디코더에서는 요약한 부분을 학습한 결과물로 재구성하여 출력한다. 딥페이크 생성 시, 인코더에서는 얼굴 이미지의 잠재적 특징을 추출하고, 디코더에서는 얼굴 이미지를 재구성하는 원리를 가진다 [17]. GAN은 생성 네트워크와 식별 네트워크로 구성된 딥러닝 네트워크 구조이다. 학습 기간 동안 생성네트워크에서는 실제와 구분이 어려운 딥페이크를 생성하며, 식별 네트워크에서는 생성 네트워크에 의해 생성된 딥페이크를 식별한다. 따라서 각 네트워크는 서로 적대적으로 경쟁하면서 학습을 각자 반복하여, 생성 네트워크는 딥페이크 생성의 성능을, 식별네트워크는 딥페이크 탐지의 성능을 향상한다[2]. Chen 외 4명은 머리와 옷의 변화에 따른 정교한 딥페이크를 생성하기 위해, 실제 얼굴과 매우 흡사한 가짜 얼굴을 생성하는 딥페이크 생성 기술인 얼굴 스와핑 알고리즘을 발표하였다[18]. Mokhayeri 외 2명은 GAN의 변형 네트워크 구조인 통제 가능한 생성적적대 신경망(C-GAN; Controllable GAN)을 사용하는 딥페이크 생성 기술인 교차 도메인 얼굴 합성 접근법을 발표하였다[19]. Zhou 외 4명은 음성 클립에 입술의 움직임을 맞춘 딥페이크 생성 연구를 발표하였다[20]. Thies 외 2명은 장면을 캡처하여 정보를 학습하는 방법인 Neural Textures를 제안하여, 얼굴을 재연하는 딥페이크 생성 기술인 지연 신경 렌더링을 발표하였다[21]. 이렇게 다양한 형태의 딥페이크 생성 기술이 제안되었으며, 결과적으로 높은 수준의 현실성을 제공하는 딥페이크 비디오 생성이 가능하게 되었다.
2.2 딥페이크 탐지
딥페이크 탐지 기술은 주로 딥러닝 네트워크 구조 중 하나인 합성곱 신경망(CNN; Convolutional Neural Network)을 기반으로 발전되었다. 최근에는 CNN뿐만 아니라, 장단기 메모리(LSTM; Long Short-Term Memory), 양방향 순환 신경망(RNN; Recurrent Neural Network) 등 다양한 딥러닝 네트워크 구조를 기반으로 하는 딥페이크 탐지 기술이 다수 발표되었다[22-25]. Rana 외 1명은 앙상블 학습기반의 딥페이크 탐지 기술인 DeepfakeStack을 제안하여, FF++ 데이터 세트에서의 높은 딥페이크 탐지 성능을 확보하였다[22]. Rössler 외 5명은 FF++ 데이터 세트를 제안하여, 기존에 발표된 딥페이크 탐지 네트워크 구조를 비교 및 분석하였으며, Xception Net이 가장 높은 딥페이크 탐지 성능을 보인다고 발표하였다[5]. Li 외 1명은 UADFV[26], TIMIT[27] 데이터 세트를 사용하여, 딥페이크 탐지 네트워크 구조인 ResNet과 VGG16을 비교 및 분석하였으며, ResNet50이 가장 높은 딥페이크 탐지 성능을 보인다고 발표하였다[28]. Leeuwen은 Celeb-DF, FF++, DeeperForensics1.0[29] 데이터 세트를 사용하여, 해당 연구에서 자체 개발되어 4개의 컨볼루션 계층만을 포함하는 Shallow 네트워크 구조와 기존에 발표된 딥페이크 탐지 네트워크 구조를 비교 및 분석하였으며, Shallow와 VGG16이 가장 높은 딥페이크 탐지성능을 보인다고 발표하였다[23]. Li는 비디오 정보 외에, 생리적 신호, 얼굴 랜드 마크 위치를 사용하였으며, Celeb-DF, UADFV, TIMIT, FF++, DFD[30], DFDC 데이터 세트를 사용하여, 기존에 발표된 딥페이크 탐지 네트워크 구조를 비교 및 분석하였으며, DSP-FWA가 가장 높은 딥페이크 탐지 성능을 보인다고 발표하였다[24]. 하지만 기존의 딥페이크 탐지연구는 주로 RGB 채널 기반의 분석에 집중되어 있으며, Gray 채널을 기반으로 하는 딥페이크 탐지 연구는 아직까지 활발하게 이루어지지 않았다.
3. 제안한 방법
다중 채널의 특성상, RGB 채널은 Gray 채널보다 더 많은 비디오 정보를 포함하고 있으며, 이는 다수의 딥페이크 탐지 연구가 RGB 채널 분석을 기반으로 하는 근거가 되었다. 하지만 최근 연구에서 Gray 채널 기반 딥페이크 탐지의 가능성이 제시되고 있다 [7-8]. McCloskey 외 1명은 컬러 히스토그램 기반의 분석은 단순히 리터치한 이미지를(예. 포토샵) GAN 이 생성한 이미지로 오탐지 할 가능성이 있지만, Grayscale 히스토그램을 사용하는 경우에는 GAN으로 생성한 이미지를 보다 효과적으로 구분할 수 있는 가능성이 있다고 서술하였다[7]. 또한 Pishori 외 4명은 딥페이크 탐지에 있어서 Grayscale 히스토그램을 사용한 모델이 CNN+RNN 기반 모델 및 Eye Blink Detection 기반 모델에 비해 높은 탐지 성능을 보임을 확인하였다[8]. 그 외에도 Gray 채널은 이미지 경계 탐지에 활용되고 있으며[9], 특정 이미지 분류에서는 상대적으로 빠르고 정확한 성능을 보이기 때문에(예. 의료 이미지 분석), 이미지 분류에서도 적극 활용되고 있다[10]. 기본적으로 RGB 채널은 Gray 채널에 비해 색상 외에는 유의미한 정보를 추가 적으로 제공하지 않으므로, 색상이 중요한 분류 요인이 아닌 이상, Gray 채널에 포함된 정보로도 충분한 성능의 이미지 분석이 가능하다고 볼 수 있다[10].
이처럼 딥페이크 탐지에 있어서 Gray 채널 기반분석의 가능성이 제시되었지만, 아직까지 Gray 채널 기반 분석의 효용성에 대한 정량적인 평가가 이루어지지 않았다. 또한, 한정적인 타입의 네트워크 구조 형태, 데이터 세트, 혹은 평가 지표를 기반으로 가능성을 제시하였기 때문에, 실제로 다양한 상황에서 Gray 채널이 딥페이크 탐지에 효과적인지에 대한 검증이 이루어지지 않았다. 따라서 본 논문에서는 다양한 6가지 네트워크 구조, 3가지 데이터 세트, 평가지표(AUROC, Confusion Matrix(Accuracy, Preci- sion, Recall, F1-score), Elapsed Time)를 사용하여, RGB 채널과 Gray 채널 간의 딥페이크 탐지 성능에 대해 객관적으로 비교 및 분석을 수행하였다. 이는 다양한 변수를 고려하여 Gray 채널 기반 분석의 효용성을 정량적으로 평가했다는 점에서 연구적 의의가 있다.
본 연구의 진행 프로세스는 다음과 같다(Fig. 1): (Step 1) 객관적인 평가 지표를 구성하기 위해, 먼저 최근 딥페이크 탐지 연구에서 주로 사용되는 딥페이크 비디오 데이터 세트(Celeb-DF, FF++, DFDC)를선별하였다; (Step 2) 딥페이크 탐지에 주로 사용되는 딥러닝 네트워크 구조 6개를 선별하였다; (Step 3) 딥페이크 비디오 데이터 세트에서 얼굴을 추출하고, RGB 채널에서 Gray 채널로 이미지를 변환하는 등의 전처리 작업을 수행하였다; (Step 4) 정량적인 평가 지표를 사용하여 RGB 채널과 Gray 채널의 딥페이크 탐지 성능을 측정하고, 비교 및 분석을 수행하였다. 각 단계에 대한 자세한 설명은 다음과 같다.
Fig. 1. An Overall Process of Our Study.
. Step 1: Choose Dataset
본 단계에서는 공개된 10개의 딥페이크 비디오 데이터 세트(예. UADFV 등[4-6, 26-27, 29-33]) 중, 최근 3년 이내에 공개되었고, 최근 딥페이크 탐지 연구에 주로 사용되는 1메가바이트 이상의 데이터 세트를 선별하였다. 그 결과, 총 3개의 데이터 세트 (Celeb-DF[4], FF++[5], DFDC[6])가 선정되었다. Celeb-DF 데이터 세트는 890개의 유튜브(YouTube) 비디오와 기존에 공유된 딥페이크 데이터 세트 (UADFV[26], TIMIT[27] 등)를 기반으로, 낮은 해상도와 색상 불일치 등을 개선하여 제작된 5, 639개의 딥페이크 비디오로 구성되어 있다[4]. FF++ 데이터 세트는 1, 000개의 유튜브 비디오와 3, 000개의 Face2 Face, FaceSwap, DeepFakes, NeuralTextures 기술로 제작된 딥페이크 비디오로 구성되어 있다[5]. DFDC 데이터 세트는 페이스북(Facebook)에 의해 제작되었으며, 1, 131개의 자체 촬영된 비디오와 4, 113 개의 딥페이크 오토인코더(DFAE; Deepfake Au- toencoder), MM/NN face swap, GAN 기반 기술로 제작된 딥페이크 비디오로 구성되어 있다[6].
. Step 2: Choose Network
본 단계에서는 이미지 처리와 비디오 처리에 가장 많이 사용되는 CNN 기반의 딥러닝 네트워크 구조 중, 네트워크 구조별 객체 탐지 및 이미지 분류 성능을 평가하는 ILSVRC(The ImageNet Large Scale Visual Recognition Challenge)[34]에서 우수한 성능을 보인 네트워크 구조를 선별하였다[13-14, 16]. 또한, 최근 발표된 딥페이크 탐지 연구 문헌을 분석하여, 딥페이크 탐지에 주로 사용되는 네트워크 구조를 선별하였다[11-12, 15]. 그 결과, 총 6개의 딥러닝 네트워크 구조가 선정되었다. 선별된 네트워크 구조 각각의 전체 파라미터(Total Parameter)는 Table 1과 같다.
Table 1. Architectural Information of Selected Deep-learning Networks.
(1) XceptionNet(XcepV1): 정보와 이미지의 특징을 추출하는 필터 간의 정보를 독립적으로 학습할 수 있는 네트워크 구조이다. 또한, 입력 값을 출력값에 더하여 연결해주는 잔여 연결(Residual Block) 을 사용하였다. 이를 통해 깊은 구조로 학습이 잘 되지 않는 기울기 소실 문제(Vanishing gradient)를 최소화할 수 있다. 해당 구조로 이미지 분류에 높은 성능을 제공하는 XcepV1을 타깃 네트워크 구조로 선정하였다[11].
(2) InceptionResNetV2(InResV2): 네트워크 안의 네트워크 구조(NIN; Network In Network)로 구성된 Inception 구조에[35], 잔여 연결을 사용한 네트워크 구조이다. 이를 통해 기울기 소실 문제를 최소화할 수 있고, 학습 시간을 단축할 수 있다. 다양한 InceptionResNet 구조 중에서, 필터 개수를 증가 시켜 이미지 분류에 높은 성능을 제공하는 InResV2를타깃 네트워크 구조로 선정하였다[12].
(3) ResNet152(Res152): 잔여 연결을 사용하여, 기울기 소실 문제를 최소화할 수 있고, 학습 시간을 단축할 수 있는 네트워크 구조이다. 다양한 ResNet 구조 중에서, 152개의 계층을 사용하여 이미지 분류에 높은 성능을 제공하는 Res152를 타깃 네트워크 구조로 선정하였다[13].
(4) VGG16: VGGNet은 네트워크 구조의 깊이가 성능에 미치는 영향에 주목하여 파라미터 개수를 고정하고, 3×3 크기의 컨볼루션 필터를 네트워크가 11 개에서 19개의 깊이를 가질 때까지 반복적으로 추가한 네트워크 구조이다. 다양한 VGGNet 구조 중에서, 16개의 계층을 사용하여 이미지 분류에 높은 성능을 제공하는 VGG16을 타깃 네트워크 구조로 선정하였다[14].
(5) DenseNet121(Den121): DenseNet은 각 계층에서의 값을 누적하여 전달하는 방식인 Feed-For- ward를 사용한 네트워크 구조이다. 이를 통해 각 계층 사이에서 학습된 정보의 전파를 강화하여, 기울 기소실 문제를 최소화할 수 있다. 다양한 DenseNet 구조 중에서, 121개의 계층을 사용하여 이미지 분류에 높은 성능을 제공하는 Den121을 타깃 네트워크 구조로 선정하였다[15].
(6) AlexNet: AlexNet은 컨볼루션 계층 5개와 완전 연결 계층 3개로 구성되어 있는 네트워크 구조이다. 또한, 학습 시간을 단축하기 위해 병렬 구조를 사용하였다. 해당 구조로 이미지 분류에 높은 성능을 제공하는 AlexNet을 타깃 네트워크 구조로 선정하였다[16].
. Step 3: Perform Experiments
본 단계에서는 선별한 데이터 세트와 네트워크 구조를 사용하여, 데이터 전처리 및 성능 평가 실험을 수행하였다. 모든 실험은 4개의 RTXTI2080 GPU 환경에서 진행하였으며, Python 3.8.3 버전, Tensor flow 2.3.1 버전의 Keras, Pandas, Numpy, Matplot- lib을 사용하였다.
본 실험의 세부적인 진행 프로세스는 다음과 같다 (Fig. 1): (Step 3-A) 각 데이터 세트 속 얼굴의 연속적인 움직임을 나타내기 위해, 1개의 비디오를 50프레임의 이미지로 분할하였다. 이때, 얼굴 영역을 중심으로 이미지를 추출할 수 있는 크기인 300×300으로 비디오를 잘라내었다; (Step 3-B) 잘라낸 Real 및 Fake 이미지를 무작위로 7 : 3(학습 및 평가)의 비율로 분할하였다. 이때, 분할된 이미지는 Table 2와 같이 구성된다; (Step 3-C): 네트워크 구조 사용의 편의성을 위해, 모든 이미지의 크기를 128×128로 조정하였다; (Step 3-D): Python OpenCV 패키지를 사용하여, 각각의 이미지를 RGB 채널에서 Gray 채널의 이미지로 변환하였다; (Step 3-E, 3-F) 전처리가 완료된 이미지 데이터 세트를 바탕으로, 선별된 네트워크 구조의 학습 및 평가를 수행하였다. 이때, 최적화 함수는 Adam을 사용하고, 학습률은 1e-55로, Batch size는 128로, 최대 Epoch은 20으로 설정하였다. 또한, 정확한 성능 측정 및 평가를 위해, 각 네트워크 구조별로 총 3번씩 측정하고 평균을 산출하였다.
. Step (4): Analyze Results
Table 2. Preprocessed Image Dataset.
본 단계에서는 AUROC, Confusion Matrix(Acc- uracy, Precision, Recall, F1-score), Elapsed Time 을 평가 지표로 선별하고, 해당 지표에 따라 딥페이크 탐지 성능을 비교 및 분석하였다.
(1) AUROC(Area Under the Receiver Operating Characteristics): 딥러닝 네트워크 구조의 양성 (Positive) 사례와 음성(Negative) 사례의 분류 정확도 평가에 주로 사용되는 지표이다. 분리성의 정도를 나타내는 AUC와 확률 곡선인 ROC로 구성되어 있으며, 딥러닝 네트워크 구조의 성능 평가에 주로 사용된다[36].
(2) Confusion Matrix: 딥러닝 네트워크 구조의 예측 값과 실제 값 사이의 관계성 평가에 주로 사용되는 지표이다. Table 3과 같이 TP(True Positive), FP(False Positive), FN(False Negative), TN(True Negative)을 사용한 지표인 Accuracy, Precision, Recall, F1-score로 구성되어 있으며, 딥러닝 네트워크 구조의 성능 평가에 주로 사용된다[37].
Table 3. The Characteristics of Confusion Matrix.
(3) Elapsed Time: 요청을 보낸 시작 시간부터 응답을 받는 종료 시간까지 소요되는 시간을 의미하는지 표이며, 딥러닝 네트워크 구조의 평가 시간 측정에 주로 사용된다[38].
4. 실험 결과 및 분석
4.1 RGB 채널과 Gray 채널 간의 성능 비교 및 분석
본 섹션에서는 앞서 설명한 프로세스를 기반으로 수행한 실험 결과를 기술하고, 이를 바탕으로 색상 모델 간의 딥페이크 탐지 성능을 비교 및 분석하였다. 실험 결과는 선별된 평가 지표(AUROC, Confusion Matrix, Elapsed Time)별로 나누어 기술하였다.
4.1.1 AUROC
Table 4는 AUROC 지표를 사용하여, 네트워크 구조별 RGB 채널과 Gray 채널의 딥페이크 탐지 성능을 측정한 결과이다. Celeb-DF 데이터 세트에서는 AUROC 지표 기준, RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하다(붉은색 박스 : 회색 박스 = 2 : 2). 한편, FF+데이터 세트에서는 AUROC 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 2 : 4). 반면에 DFDC 데이터 세트에서는 AUROC 지표 기준, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 5 : 0).
Table 4. The Results of AUROC Analysis.
* Red box : RGB channel > Gray channel; * Gray box : Gray channel > RGB channel; * Purple box : RGB == Gray
Fig. 2는 AUROC 지표를 사용하여 측정한 네트워크 구조별 딥페이크 탐지 성능을 평균으로 나타낸 것이다((a): RGB 채널과 Gray 채널별 평균 성능 테이블, (b): Celeb-DF 데이터 세트에 대한 네트워크 구조별 탐지 성능, (c): FF++ 데이터 세트에 대한 네트워크 구조별 탐지 성능, (d): DFDC 데이터 세트에 대한 네트워크 구조별 탐지 성능). Fig. 2에서 볼 수 있듯이, Celeb-DF 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 90.2 : 89.7로, AUROC 지표에서 RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하다. 한편, FF++ 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 47.6 : 49.0으로, AUROC 지표에서 Gray 채널이 RGB 채널보다 딥페이크 탐지성능이 더 우수하다. 반면에 DFDC 데이터 세트에서는, RGB Avg. 대 Gray Avg.의 비율이 83.8 : 81.6으로, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다.
Fig. 2. The Results of AUROC Analysis. (a) Average Table of AUROC, (b) Celeb-DF, (c) FF++, and (d) DFDC.
결과를 종합해보면, AUROC 지표에서는 RGB 채널과 Gray 채널의 딥페이크 탐지 평균 성능의 비율이 75.5 : 73.5로, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 조금 더 높은 것으로 관찰되었다.
4.1.2 Confusion Matrix
. Accuracy
Table 5는 Accuracy 지표를 사용하여, 네트워크 구조별 RGB 채널과 Gray 채널의 딥페이크 탐지 성능을 측정한 결과이다. Celeb-DF 데이터 세트에서는 Accuracy 지표 기준, RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하다(붉은색 박스 : 회색 박스 = 2 : 2). 한편, FF++ 데이터 세트에서는 Accuracy 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 1 : 4). 반면에 DFDC 데이터 세트에서는 Accuracy 지표 기준, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 5 : 0).
Table 5. The Results of Accuracy Analysis.
* Red box : RGB channel > Gray channel; * Gray box : Gray channel > RGB channel; * Purple box : RGB == Gray
Fig. 3은 Accuracy 지표를 사용하여 측정한 네트워크 구조별 딥페이크 탐지 성능을 평균으로 나타낸 것이다((a): RGB 채널과 Gray 채널별 평균 성능 테이블, (b): Celeb-DF 데이터 세트에 대한 네트워크 구조별 탐지 성능, (c): FF++ 데이터 세트에 대한 네트워크 구조별 탐지 성능, (d): DFDC 데이터 세트에 대한 네트워크 구조별 탐지 성능). Fig. 3에서 볼 수 있듯이, Celeb-DF 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 91.9 : 91.5로, Accuracy 지표에서 RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하다. 한편, FF++ 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 65.2 : 68.4로, Accuracy 지표에서 Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다. 반면에 DFDC 데이터 세트에서는, RGB Avg. 대 Gray Avg.의 비율이 87.4 : 85.9로, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다.
Fig. 3. The Results of Accuracy Analysis. (a) Average Table of Accuracy, (b) Celeb-DF, (c) FF++, and (d) DFDC.
결과를 종합해보면, Accuracy 지표에서는 RGB 채널과 Gray 채널의 딥페이크 탐지 평균 성능의 비율이 81.5 : 82.3으로, RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사한 것으로 관찰되었다.
. Precision
Table 6은 Precision 지표를 사용하여, 네트워크 구조별 RGB 채널과 Gray 채널의 딥페이크 탐지 성능을 측정한 결과이다. Celeb-DF 데이터 세트에서는 Precision 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 1 : 3). 또한, FF++ 데이터 세트에서는 Precision 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스: 회색 박스= 0 : 4). 반면에 DFDC 데이터 세트에서는 Precision 지표 기준, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 3 : 2).
Table 6. The Results of Precision Analysis.
* Red box : RGB channel > Gray channel; * Gray box : Gray channel > RGB channel; * Purple box : RGB == Gray
Fig. 4는 Precision 지표를 사용하여 측정한 네트워크 구조별 딥페이크 탐지 성능을 평균으로 나타낸 것이다((a): RGB 채널과 Gray 채널별 평균 성능 테이블, (b): Celeb-DF 데이터 세트에 대한 네트워크 구조별 탐지 성능, (c): FF++ 데이터 세트에 대한 네트워크 구조별 탐지 성능, (d): DFDC 데이터 세트에 대한 네트워크 구조별 탐지 성능). Fig. 4에서 볼 수 있듯이, Celeb-DF 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 92.7 : 93.0으로, Precision 지표에서 RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하다. 또한, FF++ 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 78.2 : 78.9로, Precision 지표에서 RGB 채널과 Gray 채널의 딥페이크 탐지성능이 유사하다. 반면에 DFDC 데이터 세트에서는, RGB Avg. 대 Gray Avg.의 비율이 90.1 : 89.0으로, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다.
Fig. 4. The Results of Precision Analysis. (a) Average Table of Precision, (b) Celeb-DF, (c) FF++, and (d) DFDC.
결과를 종합해보면, Precision 지표에서는 RGB 채널과 Gray 채널의 딥페이크 탐지 평균 성능의 비율이 87.0 : 87.0으로, RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사한 것으로 관찰되었다.
. Recall
Table 7은 Recall 지표를 사용하여, 네트워크 구조별 RGB 채널과 Gray 채널의 딥페이크 탐지 성능을 측정한 결과이다. Celeb-DF 데이터 세트에서는 Recall 지표 기준, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 3 : 0). 한편, FF++ 데이터 세트에서는 Recall 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 2 : 4). 반면에 DFDC 데이터 세트에서는 Recall 지표 기준, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 4 : 2).
Table 7. The Results of Recall Analysis.
* Red box : RGB channel > Gray channel; * Gray box : Gray channel > RGB channel; * Purple box : RGB == Gray
Fig. 5는 Recall 지표를 사용하여 측정한 네트워크 구조별 딥페이크 탐지 성능을 평균으로 나타낸 것이다((a): RGB 채널과 Gray 채널별 평균 성능 테이블, (b): Celeb-DF 데이터 세트에 대한 네트워크 구조별 탐지 성능, (c): FF++ 데이터 세트에 대한 네트워크 구조별 탐지 성능, (d): DFDC 데이터 세트에 대한 네트워크 구조별 탐지 성능). Fig. 5에서 볼 수 있듯이, Celeb-DF 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 98.1 : 97.3으로, Recall 지표에서 RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하다. 한편, FF++ 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 78.3 : 82.6으로, Recall 지표에서 Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다. 반면에 DFDC 데이터 세트에서는, RGB Avg. 대 Gray Avg.의 비율이 95.9 : 94.7로, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다.
Fig. 5. The Results of Recall Analysis. (a) Average Table of Recall, (b) Celeb-DF, (c) FF++, and (d) DFDC.
결과를 종합해보면, Recall 지표에서는 RGB 채널과 Gray 채널의 딥페이크 탐지 평균 성능의 비율이 90.8 : 91.5로, RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사한 것으로 관찰되었다.
. F1-score
Table 8은 F1-score 지표를 사용하여, 네트워크 구조별 RGB 채널과 Gray 채널의 딥페이크 탐지 성능을 측정한 결과이다. Celeb-DF 데이터 세트에서는 F1-score 지표 기준, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 2 : 1). 한편, FF++ 데이터 세트에서는 F1- score 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 1 : 4). 반면에 DFDC 데이터 세트에서는 F1-score 지표 기준, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다(붉은색 박스 : 회색 박스 = 5 : 0).
Table 8. The Results of F1-score Analysis.
* Red box : RGB channel > Gray channel; * Gray box : Gray channel > RGB channel; * Purple box : RGB == Gray
Fig. 6은 F1-score 지표를 사용하여 측정한 네트워크 구조별 딥페이크 탐지 성능을 평균으로 나타낸 것이다((a): RGB 채널과 Gray 채널별 평균 성능 테이블, (b): Celeb-DF 데이터 세트에 대한 네트워크 구조별 탐지 성능, (c): FF++ 데이터 세트에 대한 네트워크 구조별 탐지 성능, (d): DFDC 데이터 세트에 대한 네트워크 구조별 탐지 성능). Fig. 6에서 볼 수 있듯이, Celeb-DF 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 95.4 : 95.2로, F1-score 지표에서 RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하다. 한편, FF++ 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 78.3 : 80.5로, F1-score 지표에서 Gray 채널이 RGB 채널보다 딥페이크 탐지 성능이 더 우수하다. 반면에 DFDC 데이터 세트에서는, RGB Avg. 대 Gray Avg.의 비율이 92.8 : 91.8로, RGB 채널이 Gray 채널보다 딥페이크 탐지 성능이 더 우수하다.
Fig. 6. The Results of F1-score Analysis. (a) Average Table of F1-score, (b) Celeb-DF, (c) FF++, and (d) DFDC.
결과를 종합해보면, F1-score 지표에서는 RGB 채널과 Gray 채널의 딥페이크 탐지 평균 성능의 비율이 88.8 : 89.2로, RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사한 것으로 관찰되었다.
4.1.3 Elapsed Time
Elapsed Time은 이미지 입력, 추론, 결과 출력에 소요되는 전체 평가 시간을 기준으로 측정하였다. Table 9는 Elapsed Time 지표로 RGB 채널과 Gray 채널의 평가 시간을 비교 및 분석한 결과이다. Celeb-DF 데이터 세트에서는 Elapsed Time 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 평가 시간이 더 적게 소요된다(붉은색 박스 : 회색 박스 = 1 : 5). 또한, FF++ 데이터 세트에서도 Elapsed Time 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 평가 시간이 더 적게 소요된다(붉은색 박스 : 회색 박스 = 1 : 5). 마찬가지로 DFDC 데이터 세트에서도 Elapsed Time 지표 기준, Gray 채널이 RGB 채널보다 딥페이크 탐지 평가 시간이 더 적게 소요된다(붉은색 박스 : 회색 박스 = 1 : 5).
Table 9. The Results of Elapsed Time Analysis.
* Red box : RGB channel > Gray channel; * Gray box : Gray channel > RGB channel;
* ms is millisecond.
Fig. 7은 Elapsed Time 지표를 사용하여 측정한 네트워크 구조별 딥페이크 탐지 평가 시간을 평균으로 나타낸 것이다((a): RGB 채널과 Gray 채널별 평균 평가 시간 테이블, (b): RGB 채널과 Gray 채널의 평균 평가 시간). Fig. 7에서 볼 수 있듯이, Celeb-DF 데이터 세트에서는 RGB Avg. 대 Gray Avg.의 비율이 72, 044.8 : 54, 078.8로, Elapsed Time 지표에서 Gray 채널이 RGB 채널보다 딥페이크 탐지 평가 시간이 더 적게 소요된다. 또한, FF++ 데이터 세트에서도 RGB Avg. 대 Gray Avg.의 비율이 51, 689.7 : 39, 096.7로, Elapsed Time 지표에서 Gray 채널이 RGB 채널보다 딥페이크 탐지 평가 시간이 더 적게 소요된다. 마찬가지로 DFDC 데이터 세트에서도, RGB Avg. 대 Gray Avg.의 비율이 46, 313.5 : 36, 287.7로, Gray 채널이 RGB 채널보다 딥페이크 탐지 평가 시간이 더 적게 소요된다.
Fig. 7. The Results of Elapsed Time Analysis. (a) Average Table of Elapsed Time and (b) Total Average of Elapsed Time.
결과를 종합해보면, Elapsed Time 지표에서는 RGB 채널과 Gray 채널의 딥페이크 탐지 평균 평가 시간의 비율이 56, 682.7 : 43, 154.4로, Gray 채널이 RGB 채널보다 딥페이크 탐지 평가 시간이 더 적게 소요되는 것으로 관찰되었다.
4.2 결과 분석
본 연구의 실험 결과, 주로 저해상도(480p) 비디오로 구성된 FF++ 데이터 세트에서는, Gray 기반 분석이 성능 우위를 보였다. Recall 지표에서 Gray 채널이 평균 4.3% 정도의 최대 성능 차이가 측정되었으며, Precision 지표에서 평균 0.7% 정도의 최저 성능 차이가 측정되었다. 종합적으로 모든 평가 지표에서의 성능 차이를 평균으로 산출하면, 평균 2.4% 정도로 Gray 채널이 RGB 채널보다 딥페이크 탐지 성능에 있어서 우위에 있음을 확인할 수 있다.
주로 고해상도(1080p) 비디오로 구성된 DFDC 데이터 세트에서는, RGB 채널 기반이 Gray 채널 기반보다 다소 성능 우위를 보였지만, 그 차이는 크지 않았다. AUROC 지표에서 Gray 채널이 평균 2.2% 정도의 최대 성능 차이가 측정되었으며, F1-score 지표에서 평균 1% 정도의 최저 성능 차이가 측정되었다. 종합적으로 모든 평가 지표에서의 성능 차이를 평균으로 산출하면, 평균 1.4% 정도로 RGB 채널이 Gray 채널보다 다소 탐지 성능에 있어서 우위에 있음을 확인 할 수 있다.
실험에 사용한 데이터 세트 중 가장 최신의 데이터 세트로서, 기존의 데이터 세트보다 개선된 해상도의 비디오로 구성된 Celeb-DF 데이터 세트에서는, RGB 채널과 Gray 채널의 딥페이크 탐지 성능이 유사하게 측정되었다. Recall 지표에서 Gray 채널이 평균 0.8% 정도의 최대 성능 차이가 측정되었으며, F1-score 지표에서 평균 0.2% 정도의 최저 성능 차이가 측정되었다. 종합적으로 모든 평가 지표에서의 성능 차이를 평균으로 산출하면, 평균 0.4% 정도로 RGB 채널과 Gray 채널이 유사한 탐지 성능을 보임을 확인할 수 있다. 본 실험에서 사용한 모든 데이터 세트의 특성을 고려했을 때, 저해상도 비디오에서는 Gray 채널이 2% 내외의 성능 차이로 다소 강점을 보이며, 고해상도 비디오에서는 1% 내외의 성능 차이로 두 채널이 유사 성능을 보인다고 판단할 수 있다.
Gray 채널 기반 분석이 저해상도에서 다소 우위 성능을 보이는 이유로는 다음과 같은 특징들을 고려해볼 수 있다. 딥페이크 생성 시, 주로 이미지 합성 경계에서 해상도 저하가 발생한다[39]. 예를 들어, 더욱 사실적인 합성을 위해 타깃 얼굴 영역을 가짜 얼굴 영역의 크기로 늘리는 경우가 있으며, 이때, 얼굴 경계 부분의 해상도 저하가 발생한다[40]. 따라서 이미지 경계 부분 탐지에 강점이 있는 Gray 채널 기반분석의 특성상[9], Gray 채널 기반 분석이 이러한 저해상도의 이미지 경계 부분을 잘 탐지했다고 볼 수 있다. 또한, 본 연구는 얼굴 영역을 중심으로 추출한 이미지에 대해 딥페이크 탐지를 수행하였기 때문에, Gray 채널 기반의 분석이 얼굴 중심의 분석에서 우수한 성능을 보인다고 판단할 수 있으며, 이는 기존연구에서 일부 증명된 바 있다[7].
이렇게 딥페이크 탐지 정확도에서는 Gray 채널 기반의 분석이 RGB 채널 기반의 분석과 유사 혹은 일부 우위 성능을 보인 반면, 딥페이크 탐지 평가 시간에서는 Gray 채널 기반의 분석이 RGB 채널 기반의 분석보다 훨씬 앞선 성능을 보였다. 네트워크 구조별 딥페이크 탐지 평가 시간을 평균으로 환산하였을 때, Gray 채널 기반의 분석이 RGB 채널 기반의 분석보다 31~33% 정도 더 적은 평가 시간이 소요되는 것으로 관찰되었다. RGB 채널에서 Gray 채널로의 평균 변환 소요 시간을 포함한 경우에도, Gray 채널 기반의 분석이 RGB 채널 기반의 분석보다 11~28% 정도 더 적은 시간이 소요되는 것으로 관찰되었다.
결과를 종합해보면, Gray 채널 기반의 분석이 RGB 채널 기반의 분석과 유사 혹은 일부 우위에 있는 딥페이크 탐지 정확도를 제공하면서도, 훨씬 더 적은 시간으로 딥페이크를 탐지하였다. 따라서 Gray 채널 기반의 분석이 딥페이크 탐지에 효과적인 접근 방법임을 확인할 수 있다.
또한, AUROC, Confusion Matrix 평가 지표로 네트워크 구조별 딥페이크 탐지 성능을 누적하여 평균을 산출하였을 때, 6가지 네트워크 구조 중 VGG 16이 가장 높은 딥페이크 탐지 성능을 보였다. 네트워크 구조의 딥페이크 탐지 누적 평균 성능 순위는 VGG16 > AlexNet > XcepV1 > InResV2 > Den121 > Res152 순이다.
5. 결론
최근 딥러닝 기술의 발전으로 정교한 딥페이크 생성이 가능해지면서, 이로 인한 피해 사례가 증가하였다. 이러한 문제를 해결하기 위해 딥러닝 기반의 딥페이크 탐지 기술이 다수 제안되었지만, Gray 채널 기반의 분석보다는 RGB 채널 기반의 분석이 주류를 이루었으며, 아직까지 제한적인 탐지 성능을 제공하고 있다. 본 연구에서는 아직까지 정량적으로 검증된 적이 없었던 Gray 채널 기반 딥페이크 탐지의 효율성에 주목하여, RGB 채널 기반 분석과 Gray 채널 기반 분석의 딥페이크 탐지 성능을 비교 및 분석하였다. 이를 위해, 기존 연구에 주로 사용되는 딥페이크 데이터 세트 3종을 선별하여, 각 색상 모델별 전처리를 수행하였다. 또한, 이미지분류 및 분석 연구에 주로 사용되는 CNN 네트워크 구조 6종을 선별하여, 전처리된 데이터에 대해 학습을 하고, 다양한 평가지표를 사용하여 각 색상 모델별 딥페이크 탐지 정확도와 딥페이크 탐지 평가 시간을 분석하였다. 결과에 따르면, 딥페이크 탐지 정확도에서는 Gray 채널 기반의 분석과 RGB 채널 기반의 분석은 유사한 성능을 보인 반면, 딥페이크 탐지평가 시간에서는 Gray 채널 기반의 분석이 RGB 채널 기반의 분석보다 우위 성능을 보여주었다. 따라서 Gray 채널 기반의 분석은 RGB 채널 기반의 분석에 비해 딥페이크 탐지에 더욱 효과적인 방법이라고 결론 내릴 수 있으며, 이는 향후 딥페이크 탐지 기술의 개선에 중요한 기반이 될 것으로 사료된다. 향후 연구로는 Gray 채널 기반의 딥페이크 탐지에 최적화된 딥러닝 네트워크 구조 연구 및 Gray 채널의 명도 변화에 따른 딥페이크 탐지 성능 분석 연구, Gray 채널의 해상도 변화에 따른 딥페이크 탐지 성능 분석 연구 등을 진행할 계획이다.
참고문헌
- Law Commission, Abusive and Offensive Online Communications: A Scoping Report, The Law Commission, London, 2018.
- I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, et al., "Generative Adversarial Nets," arXiv preprint, arXiv:1406.2661, 2014.
- M. Westerlund, "The Emergence of Deepfake Technology: A Review," Technology Innovation Management Review, Vol. 9, No. 11, pp. 39-52, 2019. https://doi.org/10.22215/timreview/1282
- Y. Li, X. Yang, P. Sun, H. Qi, and S. Lyu, "Celeb-DF: A Large-Scale Challenging Dataset for DeepFake Forensics," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3207- 3216, 2020.
- A. Rossler, D. Cozzolino, L. Verdoliva, C. Riess, J. Thies, and M. Niessner, "FaceForensics++: Learning to Detect Manipulated Facial Images," Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 1-11, 2019.
- B. Dolhansky, J. Bitton, B. Pflaum, J. Lu, R. Howes, M. Wang, et al., "The DeepFake Detection Challenge (DFDC) Dataset," arXiv preprint, arXiv:1910.08854, 2019.
- S. McCloskey and M. Albright, "Detecting GAN-generated Imagery using Color Cues," IEEE International Conference on Image Processing, pp. 4584-4588, 2019.
- A. Pishori, B. Rollins, N. van Houten, N. Chatwani, and O. Uraimov, "Detecting Deep-fake Videos: An Analysis of Three Techniques," arXiv preprint, arXiv:2007.08517, 2020.
- I. Ahmad, I. Moon, and S.J. Shin, "Color- to-Grayscale Algorithms Effect on Edge Detection - A Comparative Study," International Conference on Electronics, Information, and Communication. IEEE, pp. 1-4, 2018.
- Y. Xie and D. Richmond, "Pre-training on Grayscale ImageNet Improves Medical Image Classification," Proceedings of the European Conference on Computer Vision Workshops, pp. 476-484, 2018.
- F. Chollet, "Xception: Deep Learning With Depthwise Separable Convolutions," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1251-1258, 2017.
- C. Szegedy, S. Ioffe, V. Vanhoucke, and A.A. Alemi, "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning," Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 31, No. 1, pp. 4278-4284, 2017.
- K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.
- K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-Scale Image Recognition," arXiv preprint, arXiv: 1409.1556, 2015.
- G. Huang, Z. Liu, L.V.D. Maaten, and K.Q. Weinberger, "Densely Connected Convolutional Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4700-4708, 2017.
- A. Krizhevsky, I. Sutskever, and G.E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems, Vol. 25, pp. 1097-1105, 2012.
- Y. Mirsky and W. Lee, "The Creation and Detection of Deepfakes: A Survey," ACM Computing Surveys, Vol. 54, No. 1, pp. 1-41, 2021. https://doi.org/10.1145/3425780
- D. Chen, Q. Chen, J. Wu, X. Yu, and T. Jia, "Face Swapping: Realistic Image Synthesis Based on Facial Landmarks Alignment," Mathematical Problems in Engineering, pp. 1-11, 2019.
- F. Mokhayeri, K. Kamali, and E. Granger, "Cross-Domain Face Synthesis using a Controllable GAN," Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pp. 252-260, 2020.
- H. Zhou, Y. Liu, Z. Liu, P. Luo, and X. Wang, "Talking Face Generation by Adversarially Disentangled Audio-Visual Representation," Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33, No. 1, pp. 9299-9306, 2019.
- J. Thies, M. Zollhofer, and M. Niessner, "Deferred Neural Rendering: Image Synthesis Using Neural Textures," ACM Transactions on Graphics, Vol. 38, No. 4, pp. 1-12, 2019.
- M.S. Rana and A.H. Sung, "DeepfakeStack: A Deep Ensemble-based Learning Technique for Deepfake Detection," IEEE International Conference on Cyber Security and Cloud Computing/IEEE International Conference on Edge Computing and Scalable Cloud. IEEE, pp. 70-75, 2020.
- B. van Leeuwen, Deepfake Detection Using Convolutional Neural Networks: Working Towards Understanding the Effects of Design Choices, Master's Thesis of Delft University of Technology, 2020.
- Y. Li, Detecting and Protecting against AI-Synthesized Faces, Master's Thesis of State University of New York at Albany, 2020.
- J. Kim, S. A. Hong, and H. Kim, "A StyleGAN Image Detection Model Based on Convolutional Neural Network," Journal of Korea Multimedia Society, Vol. 22, No. 12, pp. 1447-1456, 2019. https://doi.org/10.9717/KMMS.2019.22.12.1447
- X. Yang, Y. Li, and S. Lyu, "Exposing Deep Fakes Using Inconsistent Head Poses," ICASSP IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, pp. 8261-8265, 2019.
- P. Korshunov and S. Marcel, "Deepfakes: a New Threat to Face Recognition? Assessment and Detection," arXiv preprint, arXiv: 1812.08685, 2018.
- Y. Li and S. Lyu, "Exposing Deepfake Videos By Detecting Face Warping Artifacts," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 46-52, 2019.
- L. Jiang, R. Li, W. Wu, C. Qian, and C.C. Loy, "DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 2889-2898, 2020.
- Contributing data to Deepfake detection research(2019). https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html (accessed September 29, 2021).
- G. Fox, W. Liu, H. Kim, H.P. Seidel, M. Elgharib, and C. Theobalt, "Videoforensicshq: Detecting High-Quality Manipulated Face Videos," IEEE International Conference on Multimedia and Expo. IEEE, pp. 1-6, 2021.
- B. Zi, M. Chang, J. Chen, X. Ma, and Y.G. Jiang, "WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection," Proceedings of the ACM International Conference on Multimedia, pp. 2382-2390, 2020.
- U.A. Ciftci, I. Demir, and L. Yin, "FakeCatcher: Detection of Synthetic Portrait Videos Using Biological Signals," IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 1-1, 2020.
- O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, et al., "ImageNet Large Scale Visual Recognition Challenge," International Journal of Computer Vision, Vol. 115, No. 3, pp. 211-252, 2015. https://doi.org/10.1007/s11263-015-0816-y
- M. Lin, Q. Chen, and S. Yan, "Network In Network," arXiv preprint, arXiv:1312.4400, 2013.
- S. Narkhede, "Understanding AUC-ROC Curve," Towards Data Science, Vol. 26, pp. 220-227, 2018.
- Z.C. Lipton, C. Elkan, and B. Naryanaswamy, "Optimal Thresholding of Classifiers to Maximize F1 Measure," Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pp. 225-239, 2014.
- I. Kassem and A. Sleit, "Elapsed Time of IoT Application Protocol for ECG: A Comparative Study Between CoAP and MQTT," International Conference on Electrical, Communication, and Computer Engineering. IEEE, pp. 1-6, 2020.
- D. Guera and E.J. Delp, "Deepfake Video Detection Using Recurrent Neural Networks," IEEE International Conference on Advanced Video and Signal Based Surveillance. IEEE, pp. 1-6, 2018.
- C.M. Yu, C.T. Chang, and Y.W. Ti, "Detecting Deepfake-Forged Contents with Separable Convolutional Neural Network and Image Segmentation," arXiv preprint, arXiv:1912.12184, 2019.