Enhanced ACGAN based on Progressive Step Training and Weight Transfer

Jinmo Byeon;Inshil Doh;Dana Yang;

doi:10.9708/jksci.2024.29.03.011

Journal of the Korea Society of Computer and Information (한국컴퓨터정보학회논문지)

Volume 29 Issue 3
/
Pages.11-20
/
2024
/
1598-849X(pISSN)
/
2383-9945(eISSN)

Korean Society of Computer Information (한국컴퓨터정보학회)

DOI QR Code

Enhanced ACGAN based on Progressive Step Training and Weight Transfer

Jinmo Byeon (Department of Computer Software, Korea Bible University) ;
Inshil Doh (Department of Cyber Security, Ewha Womans University) ;
Dana Yang (Department of Computer Software, Korea Bible University)

Received : 2024.01.11
Accepted : 2024.03.15
Published : 2024.03.29

https://doi.org/10.9708/jksci.2024.29.03.011 Citation PDF HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Among the generative models in Artificial Intelligence (AI), especially Generative Adversarial Network (GAN) has been successful in various applications such as image processing, density estimation, and style transfer. While the GAN models including Conditional GAN (CGAN), CycleGAN, BigGAN, have been extended and improved, researchers face challenges in real-world applications in specific domains such as disaster simulation, healthcare, and urban planning due to data scarcity and unstable learning causing Image distortion. This paper proposes a new progressive learning methodology called Progressive Step Training (PST) based on the Auxiliary Classifier GAN (ACGAN) that discriminates class labels, leveraging the progressive learning approach of the Progressive Growing of GAN (PGGAN). The PST model achieves 70.82% faster stabilization, 51.3% lower standard deviation, stable convergence of loss values in the later high resolution stages, and a 94.6% faster loss reduction compared to conventional methods.

AI(Artificial Intelligence)의 다양한 모델 중 생성 모델, 특히 GAN(Generative Adversarial Network)은 이미지 처리, 밀도 추정, 스타일 전이 등 다양한 응용 분야에서 성공을 거두었다. 이러한 GAN은 CGAN(Conditional GAN), CycleGAN, BigGAN 등의 방식으로 확장 및 개선되었지만 재난 시뮬레이션, 의료 분야, 도시 계획 등 특정 분야에서는 데이터 부족과 불안정한 학습에 의한 이미지 왜곡 문제로 실제 시스템 적용에 문제가 되고 있다. 본 논문에서는 클래스 항목을 판별하는 ACGAN(Auxiliary Classifier GAN) 구조를 기반으로 기존 PGGAN(Progressive Growing of GAN)의 점진적 학습 방식을 활용한 새로운 점진적 단계의 학습 방법론 PST(Progressive Step Training)를 제안한다. PST 모델은 기존 방법 대비 70.82% 빠른 안정화, 51.3% 낮은 표준 편차, 후반 고해상도의 안정적 손실값 수렴 그리고 94.6% 빠른 손실 감소를 달성한다.

Keywords

I. Introduction

최근 생성 모델은 이미지 처리와 인기 밀도 기반 추천, 이미지 스타일 마이그레이션(Image Style Migration) 등의 분야에서 높은 성공을 보였다. 특히 딥러닝(Deep learning) 생성 모델은 컴퓨터 비전(Computer vision), 자연어 처리, 이미지 생성 및 준지도 학습 분야에 성공적으로 적용되었으며 비지도 학습에 대한 다양한 패러다임을 제공한다[1,2]. 이러한 생성 모델 중 GAN(Generative Adversarial Network)[3]은 2014년에 제안되었으며 현재 심층 생성 모델 중에서도 활발하게 연구되고 있는 모델이다. GAN의 특징은 데이터 분포의 밀도 함수를 암시적으로 추정하고 실제 샘플(Sample) 세트의 분포와 유사한 샘플 세트를 생성할 수 있다는 점이다. GAN 모델은 우수한 성능으로 지진 및 재난 시뮬레이션, 안과 이미지, 코로나 판별과 같은 의료 분야 등 다양한 분야의 연구 주제로 큰 주목을 받고 있다[4,5,6,7].

이러한 GAN 기술은 CGAN(Conditional GAN), CycleGAN(Cycle-Consistent GAN), BigGAN(Big GAN) 등과 같이 확장 및 발전되었지만 특정 분야에서는 아직도 실제 애플리케이션(Application) 적용에 다양한 문제점이 거론된다[8]. 그중 범용적으로 특정 분야에서의 데이터 부족 문제가 발생한다. 예를 들어, 의료 분야에서는 다른 분야에 비해 정확한 레이블(Label)이 달린 영상 데이터 세트의 양이 적은 문제가 있다[9]. 또한 불안정한 학습 과정에서 이미지가 왜곡되거나 흐릿해질 수 있으며, GAN이 추구하는 다양하고 현실적인 이미지 생성의 목표와 상반된 결과를 초래한다[10].

위와 같은 문제점을 해결하기 위해 본 연구에서는 아래와 같은 방식으로 제안하여 평가하고자 한다.

⦁ ACGAN(Auxiliary Classifier GAN)의 구조를 활용하여 클래스 항목을 지정하고 분류기로부터 추가 피드백을 받아 클래스 별로 적은 데이터라 할지라도 다양한 이미지를 더 정교하게 생성한다.

⦁ PGGAN 모델의 점진적 학습을 개선한 (Progressive Step Training(PST)를 제안한다. PST는 학습 과정 중 생성자와 판별자의 구조를 단계적으로 변경함으로써, 고해상도 이미지 생성 시 발생하는 안정성 문제를 해결한다. 결과적으로 효율적인 학습을 통한 정확도를 향상시키고 학습 시간과 비용을 줄이며 이미지 왜곡과 흐릿함 문제를 해결한다.

⦁ 고해상도로의 전환 시 이미지 특성의 손실을 감소하며, 모델의 성능을 향상시키는 새로운 가중치 조정 메커니즘을 제시한다.

⦁ 컴퓨터 비전 분야에서 다양한 연구 및 개발 때 사용되는 CIFAR-10 학습 데이터를 통한 실험을 통해 제안한 모델의 성능을 검증한다.

즉, ACGAN 기반 구조, 제안하는 점진적 단계 학습 PST와 가중치 전송 메커니즘으로 안정적인 정확도와 손실값으로 빠르고 원활한 적대적 학습으로 이미지 왜곡 문제를 개선한다.

본 논문의 구성은 다음과 같다. 2장에서 GAN의 문제점을 해결하기 위한 연구를 거론하며 3장에서는 관련 연구로 ACGAN과 PGGAN에 대해 설명하고, 4장에서는 이미지 왜곡 문제를 개선한 점진적 단계 학습과 학습데이터 부족을 개선하는 레이블 조건과 보조 분류기의 구조로 데이터 부족을 보장하는 제안 메커니즘을 설명한다. 5장에서는 실험을 통해 제안 메커니즘의 성능을 분석하였으며, 6장에서 결론으로 마무리한다.

II. Related works

2.1 Image distortion

이미지 왜곡 현상은 이미지 처리, 특히 GAN을 사용한 이미지 생성에서 발생하는 문제점 중 하나이다. 이는 생성된 이미지가 실제 이미지와 비교했을 때 품질이 떨어지거나 비현실적으로 보이는 결과를 포함한다. 이미지 왜곡은 픽셀의 손실, 색상의 부정확한 재현, 구조적 불일치 등 다양한 형태로 나타날 수 있으며 이는 GAN의 활용 및 적용 범위를 제한하는 주요 문제이다. 이미지 왜곡의 주요 원인으로는 GAN 학습 과정에서의 불안정성, 네트워크 아키텍처의 제한, 학습 데이터의 부족이나 불균형이 있다. 특히 고해상도 이미지 생성을 목표로 할 때 이러한 문제는 더욱 심각하게 나타나며 결과물의 품질을 저하시킨다.

최근 연구에서는 이러한 문제를 완화하기 위해 여러 접근 방법이 제안되었다. 특히 다양한 스타일과 텍스처를 조절할 수 있는 StyleGAN, 점진적으로 해상도를 높여가며 학습하는 PGGAN등과 같은 기법들이 이미지 왜곡과 흐릿함을 줄이기 위한 목적으로 개발되었다[11]. 이러한 방법들은 학습 과정의 수정, 네트워크 구조의 개선, 또는 새로운 손실 함수의 도입을 통해 GAN의 데이터 생성 다양성 및 이미지 품질이 증가하는 것을 목표로 한다.

따라서 본 논문에서는 이미지 왜곡 문제를 해결하고자 점진적 단계 학습의 네트워크 구조로 개선한다. 또한 학습 과정을 수정하여 학습 횟수에 따라 모델들이 점진적 단계로 학습되는 PST를 제안한다.

2.2 Data imbalance

데이터 불균형은 특히 클래스의 샘플이 충분하지 않을 때 학습 모델의 성능을 저해한다. 이를 해결하기 위해 GAN 연구에서는 부족한 클래스 데이터를 over-sampling에 사용하며 데이터 세트를 보강한다. 이런 방법으로 모델은 더 균형 잡힌 데이터로부터 학습하여 부족한 클래스에 대한 예측 능력을 향상시킬 수 있다[12]. 또한 전이 학습(Transfer learning)을 통한 GAN 활용은 제한된 데이터로부터 학습하는 능력을 높인다. 하나의 도메인(domain)에서 학습한 데이터를 다른 도메인으로 전이할 수 있게 함으로써 데이터 불균형 문제에 대한 해결 방안을 제공한다[13].

2.3 Synthetic data

데이터 부족은 AI 및 기계 학습 분야에서 널리 직면하는 문제이다. 특히 고품질의 대량 데이터 세트가 필수적인 딥러닝 모델의 학습에 있어서 충분한 양과 다양성을 갖춘 데이터를 확보하는 것은 중요한 문제로 여겨진다. 이러한 문제를 해결하기 위해 최근 연구에서 GAN을 발전 및 활용한다.

조건부 CGAN은 특정 조건 예를 들어 레이블이나 설명을 기반으로 지정된 유형의 데이터를 생성할 수 있다. 이는 특히 레이블된 데이터가 부족한 상황에서 유용하다. 의료 영상, 언어 번역, 감정 분석 등 특정 도메인에 필요한 데이터를 조건부 GAN을 사용하여 효과적으로 생성 및 확장할 수 있으며 이를 통해 모델의 성능과 일반화 능력을 크게 향상시킬 수 있다[14]. Few-shot Learning은 소량의 데이터로부터 모델이 학습할 수 있도록 하는 기법이다. GAN과 결합하여 소량의 데이터만을 사용하여도 다양한 시나리오와 조건에서 사용할 수 있는 합성 데이터를 충분히 생성할 수 있게 한다. 이는 특히 희귀 질병 진단 및 특수 환경 시뮬레이션 등 데이터 확보가 어려운 분야에서 모델의 학습과 검증에 활용된다[15]. CycleGAN은 서로 다른 도메인 간의 스타일 변환 GAN의 한 형태로 실제 세계 이미지와 유사한 합성 이미지를 생성하거나 기존 데이터 세트의 스타일을 변환하여 데이터의 다양성을 증가시킬 수 있다[8].

본 논문에서는 데이터 부족 문제를 해결하고자 분류기 피드백을 통한 특정 이미지 생성이 가능한 조건부 GAN을 활용하는 ACGAN의 구조를 활용한다.

2.4 Generation various data types

GAN은 이미지 생성뿐만 아니라 다른 미디어 형식의 생성에도 활용된다. 비디오 생성 분야에서 GAN은 시간적 일관성을 유지하는 동시에 사실적이며 세부적인 질감을 제공하는 비디오 프레임을 생성하는 데 활용된다. GAN을 사용하여 고정된 장면에서 움직이는 객체를 만들어 내거나 비디오 프레임을 예측하는 모델을 개발하였다[16]. 음성 합성에서도 GAN은 사람의 목소리와 구별할 수 없는 자연스러운 음성을 생성하며 이는 인터랙티브(interactive) AI나 합성 미디어에 활용된다[17].

III. Preliminaries

GAN 구조는 생성자(Generator)와 판별자(Discriminator)로 구성되며, 이들은 적대적 관계를 통해 훈련된다. 생성자는 노이즈 벡터(Noise Vector)에서 랜덤한 값으로 실제와 구별하기 어려운 데이터를 생성하는 반면, 판별자는 이를 실제 데이터와 구별하는 역할을 한다. 이러한 적대적 훈련은 생성자가 현실적인 데이터를 만들어 내고 판별자가 그 차이를 구별하지 못하게 되는 Nash 균형에 도달할 때까지 이어진다.

최근 GAN 기술은 응용 범위가 지속적으로 확장되고 있으며, 이미지 생성, 자연어 처리, 산업적 응용 분야 등 다양한 분야에 연구 및 기술 적용이 되고 있다. 예로 의료 영상 분석, 자율 주행 기술, 기후 변화 시뮬레이션 등이 있다. 의료 분야에서 GAN은 MRI, CT 등의 의료 영상 데이터의 품질을 향상하고 가상의 의료 영상을 생성하여 질병 진단, 치료 계획 수립, 의료 교육에 기여하고 있다. 특히 GAN을 이용한 데이터 보강은 의료 영상 분석 모델의 정확도를 향상하는데 중요한 역할을 한다. 자율 주행 자동차 개발에 있어서 GAN은 실제 도로 환경과 유사한 조건에서 다양한 시나리오를 시뮬레이션하기 위한 데이터를 생성한다. 이를 통해 자율 주행 시스템은 다양한 환경과 상황에서의 대응 능력을 향상할 수 있다[14-18]. GAN은 기후 변화 연구에서 예측 모델의 입력 데이터로 사용될 수 있는 고해상도 기후 데이터를 생성하는 데 활용된다. 이는 기후 모델의 정확도를 높이고 기후 변화의 영향을 더욱 이해하는 데 기여할 수 있다[15-19].

GAN은 현재까지도 다양한 연구를 기반으로 발전되고 있다[20]. 그럼에도 불구하고 GAN은 여전히 의료 영상처리와 재난 시뮬레이션 분야 등과 같은 특정 분야에서의 제약과 함께 다양한 도전과제에 직면해 있다[5][21]. 다음으로 문제 해결을 위해 본 논문에서 제안하는 학습 이론과 그 구현에 활용되는 ACGAN과 PGGAN에 대해 살펴보고자 한다.

3.1 ACGAN(Auxiliary Classifier GAN)

ACGAN은 기존 GAN의 구조를 기반으로 하되, 클래스 항목 피드백의 통합을 통해 클래스별 데이터 생성의 정밀도를 향상한 확장된 모델이다[22]. Fig. 1은 ACGAN의 구조를 나타낸다. Fig. 1에서 볼 수 있는 중요한 특징 중 하나는 생성과 판별 과정에서 레이블 정보가 동시에 활용된다는 점이다. 생성자(G)는 노이즈 벡터(z)와 함께 클래스 항목(c)을 입력으로 받아들인다. 노이즈 벡터는 합성 데이터의 다양성을 증가시키는 반면, 분류기 피드백은 생성자에게 특정 클래스의 특징을 지닌 데이터의 생성을 지정한다. 따라서 생성자는 주어진 레이블에 따라 맞춤형 이미지 데이터(G(z))를 생성하게 된다.

CPTSCQ_2024_v29n3_11_4_f0001.png 이미지

Fig. 1. ACGAN Architecture[23]

ACGAN의 판별자(D)는 전통적인 GAN의 판별자와 다른 동작 방식을 가진다. 입력 데이터의 진위 여부(real, fake)를 판별하는 기본 기능 외에도, 분류기(Q)를 통해 해당 데이터가 어느 클래스에 속하는지를 동시에 판별한다. 이러한 이중 역할로 인해, 판별자는 더욱 세밀한 판별 경계를 학습한다. 이것은 생성자에게 향상된 피드백을 제공하는데, 기존의 GAN에서는 판별자가 생성자에게 단순한 진위 판별 피드백만 전달하는 반면, ACGAN에서는 특정 클래스의 특징이 누락되었거나 어떠한 부분이 개선되어야 하는 지에 대한 피드백을 추가로 제공한다.

본 논문에서는 ACGAN 구조를 사용하여 단순한 진위 여부뿐만 아니라 분류기로부터의 추가적인 피드백을 활용함으로써, 생성자가 분류기를 통한 학습을 기반으로 더욱 다양하고 정교한 이미지를 생성할 수 있도록 한다.

CPTSCQ_2024_v29n3_11_4_f0002.png 이미지

Fig. 2. PGGAN Architecture[25]

3.2 PGGAN(Progressive Growing GAN)

PGGAN은 이미지의 해상도를 점진적으로 증가시키는 학습인 점진적 학습을 제안한다[24]. 이 학습 방법은 초기 단계에서는 잠재 벡터(Latent)에서 무작위로 샘플링한 벡터를 사용해 4x4 해상도의 이미지를 생성한다. 학습이 진행되면서, 생성자와 판별자에 새로운 레이어(Layer) 8x8이 추가되고, 이를 통해 해상도를 점차 두 배씩 높여간다. 낮은 해상도의 출력에는 높은 가중치를, 높은 해상도의 출력에는 낮은 가중치를 초기에 부여한 후, 이 가중치를 점진적으로 조정하며 선형적으로 혼합한다. 이러한 방식으로 모델은 가중치의 부드러운 전환(soft transition)을 보장하며 원하는 해상도인 1024x1024에 도달할 때까지 이 과정을 반복한다. 점진적 학습 방식은 모델이 각 단계에서 필요한 특징들을 점진적으로 학습하여 고해상도 이미지의 세밀한 텍스처를 모델링하여 학습의 안정성을 향상시킨다. 또한 초기 단계에서 저해상도 이미지에 집중함으로써 필요 이상의 계산 비용을 줄이고 빠른 학습을 하여 계산적 효율성 측면에서도 큰 장점을 가진다. 결과적으로 모델은 다양한 패턴과 스타일을 가진 고해상도 이미지를 효과적으로 생성한다.

본 논문에서는 PGGAN의 점진적 학습을 변형한다. 초기 레이어(4x4)부터 레이어가 추가되는 점진적 학습이 아닌 기존 모델에서 조금 더 복잡한 모델로 학습하는 점진적 단계 학습 PST를 제안한다.

IV. The Proposed Scheme

4.1 Progressive Step Training

본 논문에서는 Figs. 3, 4에서 볼 수 있는 바와 같이 ACGAN의 분류기(Q)를 활용하여 클래스 정보(c)의 진위여부 구조를 기반으로 하는 새로운 점진적 단계 학습 방법 PST를 제안한다. PGGAN은 초기 레이어에서 새로운 레이어를 추가하는 점진적 학습을 하였다. 그러나 고해상도 이미지를 생성할수록 이후 학습이 안정적이지 않다. 또한 총 학습의 시간이 기존 GAN들과 달리 오래 걸리는 문제가 존재한다. 제안하는 기법에서는 기존 PGGAN과 다르게 더 빠른 안정적인 학습의 효율성을 보장하기 위해서 일정 학습 횟수(epoch)에 도달할 때마다 생성자(G)와 판별자(D)의 구조를 점진적으로 변경하여 학습을 계속 진행한다. 제안하는 PST는 Figs. 3, 4를 참고하여 다음과 같은 방식으로 진행된다. 초기에는 간단한 모델 생성자(G0)와 판별자(D0)를 사용하여 학습을 시작한다. 일정 학습 횟수에 도달하면 초기에 사용한 모델보다 조금 더 복잡한 생성자(G1)와 판별자(D1) 모델로 변경된다. 후에 다시 일정 학습 횟수에 도달하면 이전 모델보다 더 복잡한 생성자(G2)와 판별자(D2)로 변경하여 더 복잡한 학습을 진행할 수 있는 점진적 단계 학습을 거치게 된다. 각각의 모델 G0, G1, G2, D0, D1, D2의 레이어 해상도는 학습하는 데이터에 따라 달라질 수 있다.

CPTSCQ_2024_v29n3_11_5_f0001.png 이미지

Fig. 3. Progressive Stages Training in the Generator Structure

CPTSCQ_2024_v29n3_11_5_f0002.png 이미지

Fig. 4. Progressive Stages Training in the Discriminator Structure

즉, PGGAN은 이미지의 해상도를 점차 높여가며 새로운 계층을 추가하는 방식으로 점진적 학습을 수행한다. 그러나 PST는 이와 달리, 일정 학습 횟수에 도달할 때마다 생성자와 판별자의 구조를 점진적으로 변경하여 학습을 진행한다. 또한 ACGAN의 분류기를 활용하여 레이블의 진위여부에 기반한 추가적인 학습을 한다. 논문에서는 초기 단계 모델(G0, D0)의 가장 큰 레이어를 각각 128x128, 64x128로 구성한다. 중간 단계 모델(G1, D1)은 가장 큰 레이어가 256x256, 128x256 마지막 단계 모델(G2, D2)은 512x512, 256x512를 가장 큰 레이어로 구성했다. 이러한 레이어 구성은 초기에 비교적 저해상도 이미지 특징을 추출하기 위함이며 단계적으로 고해상도의 특징까지 학습할 수 있다.

이러한 과정은 ACGAN 구조를 활용하여 레이블이 지정된 데이터를 사용하여 분류기가 추가적인 레이블 판별을 수행하고 결과를 생성자에게 피드백으로 제공할 수 있도록 한다. 이를 통해 다양한 특정 이미지를 효과적으로 생성함으로써 데이터 부족 문제에 대응한다. 또한 저해상도 부터 학습하여 복잡한 고해상도까지 PST를 통한 안정적인 정확도와 손실 값으로 빠르고 서로 원활하게 학습되는 적대적 훈련으로 기존 GAN에서 문제점으로 지적되는 이미지 왜곡 문제를 효과적으로 해결한다.

4.2 Weight Transfer Mechanism

앞서 언급한 기존 PGGAN의 점진적 학습에서는 초기 레이어에서 새로운 레이어를 추가하여 해상도를 점차 높일 때 가중치를 선형적으로 혼합하였다. 본 논문에서 제안하는 PST는 단계적으로 추가되는 레이어의 점진적 학습이 아닌 일정 학습 횟수가 지남에 따라 기존 모델과 비슷한 레이어 구조를 유지하며 더 복잡한 모델 점진적 단계로 모델을 변형하는 학습 방식이다. 이는 기존 모델과 더 복잡한 모델로 점진적 단계 학습으로 저해상도의 이미지 특징부터 학습하게 된다. 복잡한 모델로 점진적 단계 학습 시 기존에 학습된 저해상도 이미지 특징의 데이터를 보존하기 위하여 이전 가중치 정보를 조절하며 비중을 두는 “MIX_WEIGHTS” 함수를 사용하였다.

Table 1에서는 가중치 전송 메커니즘을 구현하는 방법을 설명한다. 먼저 이전 모델(old_model)과 제안 모델(new_model)의 가중치를 각각 old_weight와 new_weights에 저장한다. 이어서, 모든 가중치에 대해 이전 모델의 가중치(old_weight)와 새 모델의 가중치(new_weights)를 혼합하여 m.weights(mix weights)를 생성한다. Table 1에서 a는 GAN 모델의 학습 가중치를 조절하는 하이퍼파라미터(Hyperparameters)로 이전 모델과 이후 모델의 가중치 혼합 비율을 a로 조절할 수 있으며 a 값은 0과 1 사이의 값으로 설정한다. 마지막으로 혼합된 가중치를 새 모델에 불러서 업그레이드된 모델을 반환한다.

Table 1. Weight Transfer Mechanism

CPTSCQ_2024_v29n3_11_6_t0001.png 이미지

본 논문에서는 a 값을 0.1로 하여 이전 초기 모델의 저해상도 이미지 특징을 더 크게 활용하는 안정적인 학습을 통해 이미지 해상도 향상과 기존 GAN 문제로 여겨지는 이미지 왜곡 문제를 해결하고자 하였다.

V. Evaluation

5.1 Experimental Environment

본 실험은 두 가지 주요 구성, 즉 원래 데이터를 사용한 훈련과 새로운 데이터 구성을 사용한 훈련으로 구성되었다. 모든 실험은 NVIDIA GeForce RTX 3080 Ti, 128GB의 동일한 컴퓨팅 환경에서 python으로 수행되었으며, 훈련은 1000번의 학습(Epoch)으로 진행하여 기존 모델과 제안된 모델의 훈련 성능을 분석하였다.

본 실험에서 사용된 데이터 세트는 CIFAR-10이며, 해당 데이터는 캐나다의 토론토 대학에서 수집 및 배포되었다[26]. 이 데이터 세트는 32x32 픽셀 크기의 60,000개의 작은 컬러 이미지들을 포함하고 있으며, 이는 10개의 클래스로 나뉘어져 있다. 다음으로 ACGAN의 기존 모델(Traditional)과 제안 모델(Proposed)에 대한 판별자의 정확도(Accuracy)를 비교하고 기존 모델들과 생성자와 판별자의 손실(Loss)을 평가한다.

5.2 Discriminator Accuracy

Fig. 5에서는 ACGAN의 기존 모델(Traditional)과 제안 모델(Proposed)에 대한 판별자의 정확도(Accuracy)를 시각화한다. 판별자의 정확도는 GAN 모델의 전체적인 성능을 평가함에 있어 결정적인 지표로 간주된다. 특히 GAN 학습 과정에서 생성자와 판별자는 지속적인 적대적 학습을 통해 서로를 개선해 나가는 동작을 보이는데 이러한 과정에서 판별자의 정확도는 그 성능의 향상을 직접적으로 반영하는 중요한 척도가 된다[27]. 본 논문에서 제안된 모델의 실험 결과는 기존 모델의 경우, 956번째 학습에서 50%의 정확도에 도달한 반면, 제안된 모델은 279번째 학습에서 50%의 정확도를 달성했다. 이는 제안된 모델이 이미지 생성에 있어서 더욱 효율적인 학습 구조를 가지고 있음을 보여준다[28]. 이는 불균형한 경쟁 구조로 인한 이미지 왜곡 문제를 해결할 수 있음을 증명한다.

CPTSCQ_2024_v29n3_11_6_f0001.png 이미지

Fig. 5. Discriminator Accuracy

5.3 Average Generator and Discriminator Loss

생성자와 판별자의 손실값은 GAN 학습 과정에서 중요한 지표로, 모델이 얼마나 효과적으로 학습되고 있는지를 반영한다[23]. Figs. 6, 7, 8은 PGGAN, ACGAN, PST의 각각 1000번의 학습에 대한 평균 손실값을 시각화한다. Fig. 6에서 PGGAN은 점진적 해상도 증가 방식을 사용하여 초기에 안정적인 학습을 보이나, 손실값의 표준 편차가 10.419에 이르는데, 이는 Fig. 8에 해당하는 PST(0.445)와 비교하여 현저히 높다. 이는 PGGAN이 고해상도로 전환되며 겪는 학습 불안정성을 나타낸다. 또한, PGGAN의 판별자 손실 표준 편차는 6.960으로, PST와 비교할 때 상대적으로 높아, 학습 과정에서 더 많은 변동성을 보인다. 이 변동성은 안정적인 학습을 어렵게 하며 결과 이미지의 왜곡 현상 문제를 야기한다[29].

CPTSCQ_2024_v29n3_11_7_f0001.png 이미지

Fig. 6. PGGAN Average Loss

CPTSCQ_2024_v29n3_11_7_f0002.png 이미지

Fig. 7. ACGAN Average Loss

CPTSCQ_2024_v29n3_11_7_f0003.png 이미지

Fig. 8. PST Average Loss

다음으로 Fig. 7의 ACGAN과 PST 모델 Fig. 8를 비교한다. 제안된 PST 모델은 초기 학습 단계에서부터 ACGAN과 비교하여 생성자와 판별자의 표준 편차가 각각 0.916에서 0.445로 줄어든다. ACGAN은 초기에 더 복잡한 레이어 구성으로 인해 약 5.3이라는 높은 손실값을 보였으나, PST 모델은 초기부터 비교적 덜 복잡한 모델 학습으로 낮은 손실값을 보여준다. 이는 약 51.3%의 감소율을 나타내며, 학습의 빠른 진전을 보여준다. 특히, PST 모델의 생성자는 54번째 학습에서 ACGAN이 1000번째 학습에 도달한 손실 수준에 이미 도달하여, ACGAN보다 약 94.6% 더 빠른 속도로 손실을 줄였다. 이 결과는 PST 모델이 학습 데이터를 더 효과적으로 학습하며, 생성자와 판별자 간의 적대적 학습이 잘 조절되어 안정적이면서도 빠른 학습을 달성함을 보여준다[30].

결과적으로 제안된 PST 모델과 기존의 PGGAN 및 ACGAN 모델들을 비교하였을 때, 학습 과정에서의 효율성이 개선되었고, 이미지 왜곡 현상, 이미지의 흐릿함 등의 문제 해결에 기여하는 빠르고 안정적인 학습이 가능함을 증명한다.

또한 Table 2는 1000번의 학습에 걸린 시간 비용과 안정적인 loss 값에 도달하는 시간 비용을 보여준다. 제안하는 PST 모델은 점진적 학습 구조로 PGGAN 보다 시간 비용 측면에서 더 효율적이다. 그리고 생성자와 판별자의 손실값 차이가 0.5라면 안정적인 학습에 도달했다고 평가되기 때문에 본 논문에서는 0.5라는 기준에 도달하는 시간을 측정한다. 기존 ACGAN은 1000번의 학습에도 손실값 차이가 0.5에 도달하지 못하였으며 PGGAN은 21분 34초가 걸렸다. 하지만 제안하는 모델인 PST는 처음부터 손실값 차이의 값을 0.5 이하로 안정적인 학습을 보여준다.

Table 2. Time cost versus stable loss value arrival time

CPTSCQ_2024_v29n3_11_7_t0001.png 이미지

5.4 Generator and Discriminator Performance

다음 Figs. 9, 10은 각각 기존 GAN과 제안된 GAN의 성능 값을 그래프를 통하여 시각화한다. GAN의 성능 즉, 성능 값은 판별자는 얼마나 실제와 가짜 이미지를 잘 판별하는지 생성자는 얼마나 진짜 같은 이미지를 생성하는지에 대한 값이다. 본 논문에서는 판별자의 학습 오차율을 통하여 생성자와 판별자의 성능을 계산하였다. 이 성능 값은 50%에 가까울수록 가장 안정적인 경쟁 구도를 이루며 학습함을 증명한다[23].

CPTSCQ_2024_v29n3_11_8_f0001.png 이미지

Fig. 9. Average Traditional GAN performance

CPTSCQ_2024_v29n3_11_8_f0002.png 이미지

Fig. 10. Average PST performance

Fig. 10을 보면 제안된 PST 모델이 기존 모델보다 더 학습이 진행됨에 따라 진위 여부 성능의 이상적인 수치인 0.5에 수렴함을 볼 수 있다. 이는 제안된 모델이 더욱 진짜와 같은 이미지를 생성함을 나타낸다.

다음 Table 3는 퍼포먼스를 정량적으로 비교하기 위한 각각의 생성자와 판별자의 평균을 나타낸다. 평균적 수치를 비교하면 PST를 적용한 GAN이 판별자는 진위 여부가 약 8.29% 더 어려워졌음을 볼 수 있다. 또한 생성자는 실제와 같은 이미지 생성이 약 23.10% 향상된다. 이는 PST를 적용한 GAN 학습에 대한 성능 향상을 증명한다.

Table 3. Average performance of traditional GAN and PST

CPTSCQ_2024_v29n3_11_8_t0001.png 이미지

5.5 Comparison of GAN-generated images

Fig. 9에서는 각각 (a) ACGAN과 (b) PGGAN의 생성 이미지와 (c) PST를 통해 생성된 이미지를 비교한다. PST를 통해 생성된 이미지와 ACGAN과 PGGAN의 생성된 이미지를 비교하여 보면 이미지 왜곡 현상이 완화된 것을 볼 수 있다. ACGAN은 전체적으로 이미지가 흐릿하다. 또한 자동차, 강아지, 비행기 클래스의 이미지가 특히 왜곡됨을 볼 수 있다. PGGAN은 해상도가 ACGAN에 비하여 높아졌지만 이미지 왜곡 현상이 발생하였음을 볼 수 있다. 예를 들어 강아지는 눈이 한쪽만 생성되며 얼굴에 왜곡 현상이 발생하였다. 자동차는 범퍼 및 천장이 일그러져 있으며 새는 윤곽이 불완전하다. 하지만 PST는 해상도가 매우 뛰어나진 않아도 생성된 이미지의 형태는 물론 이미지 왜곡 현상이 거의 없음을 볼 수 있다.

CPTSCQ_2024_v29n3_11_8_f0003.png 이미지

Fig. 11. Generated images on CIFAR10[22] dataset.

VI. Conclusions

GAN은 CGAN, CycleGAN, BigGAN 등과 같이 확장 및 개선되었다. 하지만, 실제 시스템 적용에서의 특정 데이터 부족과 불안정한 학습으로 인한 이미지 왜곡 문제는 여전히 주요한 도전 과제로 남아있다. 이러한 문제를 해결하기 위해 본 논문에서는 ACGAN과 PGGAN의 점진적 학습을 활용하여 점진적 학습 방법론인 PST를 제안한다. 실험 결과에 따르면 제안된 PST 모델은 초기 학습 단계에서 안정적인 학습 성능을 기존 ACGAN 모델보다 약 70.82% 향상했다. 또한 PGGAN이 후반 고해상도 학습에서 보인 불안정한 손실값과 달리 PST는 고해상도에서도 안정적인 손실값을 보였다. 그리고 기존 ACGAN 모델에 비해 표준 편차가 약 51.3% 더 낮아지며 약 94.6% 더 빠른 속도로 손실을 줄였다. 제안한 메커니즘은 더 빠른 수렴 및 낮은 손실값을 보였고 결과적으로, 특정 데이터 부족과 불안정한 학습으로 인한 이미지 왜곡 현상 문제점을 ACGAN모델 구조와 새로운 접근 방식인 점진적 학습 방법론 PST로 해결하였음을 증명한다.

본 논문에서 제안한 기법은 학습 데이터 부족과 이미지 생성 시 문제가 되는 이미지 왜곡 문제를 해결하고자 하였다. 제안한 모델은 재난 시뮬레이션, 안과 외과와 같은 이미지 중심의 의료 분야, 건축 디자인 설계 등 다양한 특정 분야에서 GAN의 실용적 적용을 가능하게 하며, 이는 향후 이러한 분야에서 GAN의 성공적인 애플리케이션 사례로 이어질 것으로 기대된다. 향후 Diffusion 등 다른 생성 모델에도 PST 학습 구조를 적용하여 생성 능력을 높이는 연구를 진행하고자 한다.

ACKNOWLEDGEMENT

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government (MSIT) (NRF-2023R1A2C1005712)

References

Y. Liao and Y. Huang. "Deep Learning-Based Application of Image Style Transfer." Mathematical Problems in Engineering, Vol. 2022, No. 1693892, pp. 1-2, Aug 2022. DOI: 10.1155/2022/1693892.
F. Ahmed, M. S. B. Alam, M. Hassan, M. R. Rozbu, T. Ishtiak, N. Rafa, ..., A. H. Gandomi, "Deep Learning Modelling Techniques: Current Progress, Applications, Advantages, and Challenges," Artificial Intelligence Review, Vol. 56, pp. 13521-13617, Apr 2023. DOI: 10.1007/s10462-023-10466-8.
I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio, "Generative Adversarial Networks," Advances in Neural Information Processing Systems, Vol. 27, Jun 2014. DOI: 10.48550/arXiv.1406.2661
G. C. Marano, M. M. Rosso, A. Aloisio, G. Cirrincione, "Generative Adversarial Networks Review in Earthquake-Related Engineering Fields," Bulletin of Earthquake Engineering, pp. 1-52, Feb 2023. DOI: 10.1007/s10518-023-01645-7
A. You, J. K. Kim, I. H. Ryu, T. K. Yoo, "Application of Generative Adversarial Networks (GAN) for Ophthalmology Image Domains: A Survey," Eye and Vision, Vol. 9, No. 1, pp. 1-19, Feb 2022.
A. Waheed, M. Goyal, D. Gupta, A. Khanna, F. Al-Turjman, P. R. Pinheiro, "CovidGAN: Data Augmentation Using Auxiliary Classifier GAN for Improved COVID-19 Detection," IEEE Access, Vol. 8, pp. 91916-91923, Mar 2020. DOI: 10.1109/ACCESS.2020.2994764
S. Fedorova, "Generative Adversarial Networks for Urban Block Design," in SimAUD 2021: A Symposium on Simulation for Architecture and Urban Design, pp. 1-10, May 2021. DOI: 10.48550/arXiv.2105.01727
S. Wang, J. Li, and M. Yang, "A review of Generative Adversarial Networks (GANs) and its applications in a wide variety of disciplines - From Medical to Remote Sensing," ar5iv.org, Oct 2021. DOI: 10.21105/astro.2110.01442.
J. Deng, W. Dong, R. Socher, L. J. Li, K. Li, L. Fei-Fei, "ImageNet: A Large-Scale Hierarchical Image Database," in 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 248-255, IEEE, Jun 2009, pp. 248-255.
Y. Shoham, K. Leyton-Brown, "Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations," Cambridge University Press, 2008.
A. Jabbar, X. Li, B. Omar, "A Survey on Generative Adversarial Networks: Variants, Applications, and Training," ACM Computing Surveys, Vol. 54, No. 8, pp. 1-49, Oct 2021. DOI: 10.1145/3463475
Priyanka Rana, Arcot Sowmya, Erik Meijering, Yang Song, "Data augmentation with improved regularisation and sampling for imbalanced blood cell image classification," Scientific Reports, Vol. 12, No. 1, p. 18101, Oct 2022. DOI: 10.1038/s41598-022-22325-z
Nagwa Elaraby, Sherif Barakat, Amira Rezk, "A conditional GAN-based approach for enhancing transfer learning performance in few-shot HCR tasks," Scientific Reports, Vol. 12, No. 1, p. 16271, Sep 2022. DOI: 10.1038/s41598-022-20613-2
Skandarani, P.-M. Jodoin, A. Lalande, "GANs for Medical Image Synthesis: An Empirical Study," Journal of Imaging, Vol. 9, No. 3, 69, Mar 2023. DOI: 10.3390/jimaging9030069
Y. Chen, X. Guo, Y. Pan, Y. Xia, Y. Yuan, "Dynamic Feature Splicing for Few-Shot Rare Disease Diagnosis," Medical Image Analysis, Vol. 90, 102959, Dec 2023. DOI: 10.1016/j.media.2023.102959
Nishtha Jatana, Deepali Wadhwa, Navkiran Kaur Singh, Osama A. Hassen, Chetna Gupta, Sherif M. Darwish, ... Ali A. Abdulhussein, "Future Frame Prediction using Generative Adversarial Networks," Karbala International Journal of Modern Science, Vol. 10, No. 1, p. 2, Dec 2023. DOI: 10.33640/2405-609X.3338
Andreas Triantafyllopoulos, Bjorn W. Schuller, Gokce Iymen, Metin Sezgin, Xiangheng He, Zijiang Yang, Panagiotis Tzirakis, Shuo Liu, Silvan Mertes, Elisabeth Andre, Ruibo Fu, Jianhua Tao, "An overview of affective speech synthesis and conversion in the deep learning era," Proceedings of the IEEE, Vol. 111, No. 10, pp. 1355-1381, Mar 2023. DOI: 10.1109/JPROC.2023.3250266
T. Chakraborty, U. Reddy KS, S. M. Naik, M. Panja, B. Manvitha, "Ten Years of Generative Adversarial Nets (GANs): A Survey of the State-of-the-Art," Machine Learning: Science and Technology, 2023. arXiv:2308.16316v1 [cs.LG] 30 Aug 2023.
X. Rui, Y. Cao, X. Yuan, Y. Kang, W. Song, "DisasterGAN: Generative Adversarial Networks for Remote Sensing Disaster Image Generation," Remote Sensing, Vol. 13, No. 21, 4284, Oct 2021. DOI: 10.3390/rs13214284
A. Odena, C. Olah, J. Shlens, "Conditional Image Synthesis with Auxiliary Classifier GANs," in International Conference on Machine Learning, pp. 2642-2651, PMLR, Jul 2017. DOI: 10.48550/arXiv.1610.09585
H. Yang, J. Xu, Y. Xiao, L. Hu, "SPE-ACGAN: A Resampling Approach for Class Imbalance Problem in Network Intrusion Detection Systems," Electronics, Vol. 12, No. 15, 3323, Aug 2023. DOI: 10.3390/electronics12153323
T. Karras, T. Aila, S. Laine, J. Lehtinen, "Progressive Growing of GANs for Improved Quality, Stability, and Variation," arXiv preprint, arXiv:1710.10196, Oct 2017. DOI: 10.48550/arXiv.1710.10196
C. Han, L. Rundo, R. Araki, Y. Furukawa, G. Mauri, H. Nakayama, H. Hayashi, "Infinite Brain MR Images: PGGAN-based Data Augmentation for Tumor Detection," in Neural Approaches to Dynamics of Signal Exchanges, pp. 291-303, 2020. DOI: 10.48550/arXiv.1903.12564
A. Krizhevsky, G. Hinton et al., "Learning Multiple Layers of Features from Tiny Images", [Online]. Available: https://www.cs.toronto.edu/~kriz/cifar.html. [Accessed: date].
J. Gui, Z. Sun, Y. Wen, D. Tao, J. Ye, "A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications," IEEE Transactions on Knowledge and Data Engineering, Vol. 35, No. 4, pp. 3313-3332, Jan 2021. DOI: 10.48550/arXiv.2001.06937
M. Mohebbi Moghaddam, B. Boroomand, M. Jalali, A. Zareian, A. Daeijavad, M. H. Manshaei, M. Krunz, "Games of GANs: Game-theoretical Models for Generative Adversarial Networks," Artificial Intelligence Review, Vol. 56, pp. 9771-9807, Feb 2023.
K. Kokomoto, R. Okawa, K. Nakano, K. Nozaki, "Intraoral Image Generation by Progressive Growing of Generative Adversarial Network and Evaluation of Generated Image Quality by Dentists," Scientific Reports, Vol. 11, No. 1, Article No. 18517, Sep 2021. DOI: 10.1038/s41598-021-97978-1
T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, X. Chen, "Improved Techniques for Training GANs," Advances in Neural Information Processing Systems, Vol. 29, jun 2016. DOI: 10.48550/arXiv.1606.03498

Journal of the Korea Society of Computer and Information (한국컴퓨터정보학회논문지)

Enhanced ACGAN based on Progressive Step Training and Weight Transfer

Abstract

Keywords

I. Introduction

II. Related works

2.1 Image distortion

2.2 Data imbalance

2.3 Synthetic data

2.4 Generation various data types

III. Preliminaries

3.1 ACGAN(Auxiliary Classifier GAN)

3.2 PGGAN(Progressive Growing GAN)

IV. The Proposed Scheme

4.1 Progressive Step Training

4.2 Weight Transfer Mechanism

V. Evaluation

5.1 Experimental Environment

5.2 Discriminator Accuracy

5.3 Average Generator and Discriminator Loss

5.4 Generator and Discriminator Performance

5.5 Comparison of GAN-generated images

VI. Conclusions

ACKNOWLEDGEMENT

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)