• 제목/요약/키워드: Generative Adversarial Networks

검색결과 157건 처리시간 0.028초

다중 스케일 그라디언트 조건부 적대적 생성 신경망을 활용한 문장 기반 영상 생성 기법 (Text-to-Face Generation Using Multi-Scale Gradients Conditional Generative Adversarial Networks)

  • ;;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.764-767
    • /
    • 2021
  • While Generative Adversarial Networks (GANs) have seen huge success in image synthesis tasks, synthesizing high-quality images from text descriptions is a challenging problem in computer vision. This paper proposes a method named Text-to-Face Generation Using Multi-Scale Gradients for Conditional Generative Adversarial Networks (T2F-MSGGANs) that combines GANs and a natural language processing model to create human faces has features found in the input text. The proposed method addresses two problems of GANs: model collapse and training instability by investigating how gradients at multiple scales can be used to generate high-resolution images. We show that T2F-MSGGANs converge stably and generate good-quality images.

ESRGAN의 성능 향상을 위한 판별자 설계 공간 재검토에 관한 연구 (A Research on Re-examining Discriminator Design Space for Performance Improvement of ESRGAN)

  • 박성욱;김준영;박준;정세훈;심춘보
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.513-514
    • /
    • 2023
  • 초해상은 저해상도의 영상을 고해상도 영상으로 합성하는 기술이다. 이 기술에 딥러닝이 적용되어, 2014년에는 SRCNN(Super Resolution Convolutional Neural Network) 모델이 발표됐다. 이후에는 SRCAE(Super Resolution Convolutional Autoencoders)와 GAN(Generative Adversarial Networks)을 기반으로 한 SRGAN(Super Resolution Generative Adversarial Networks) 등, SRCNN의 성능을 능가하는 모델들이 발표됐다. ESRGAN(Enhanced Super Resolution Generative Adversarial Networks)은 SRGAN 모델의 성능을 개선했지만, 완벽한 성능을 내지 못하는 문제점이 있다. 이에 본 논문에서는 판별자(Discriminator) 구조를 변경하여 ESRGAN의 성능을 개선한다. 실험 결과, 제안하는 모델이 ESRGAN보다 더 높은 성능을 보일 것으로 기대된다.

Single Image Dehazing: An Analysis on Generative Adversarial Network

  • Amina Khatun;Mohammad Reduanul Haque;Rabeya Basri;Mohammad Shorif Uddin
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.136-142
    • /
    • 2024
  • Haze is a very common phenomenon that degrades or reduces the visibility. It causes various problems where high quality images are required such as traffic and security monitoring. So haze removal from images receives great attention for clear vision. Due to its huge impact, significant advances have been achieved but the task yet remains a challenging one. Recently, different types of deep generative adversarial networks (GAN) are applied to suppress the noise and improve the dehazing performance. But it is unclear how these algorithms would perform on hazy images acquired "in the wild" and how we could gauge the progress in the field. This paper aims to bridge this gap. We present a comprehensive study and experimental evaluation on diverse GAN models in single image dehazing through benchmark datasets.

다수 화자 한국어 음성 변환 실험 (Many-to-many voice conversion experiments using a Korean speech corpus)

  • 육동석;서형진;고봉구;유인철
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.351-358
    • /
    • 2022
  • 심층 생성 모델의 일종인 Generative Adversarial Network(GAN)과 Variational AutoEncoder(VAE)는 비병렬 학습 데이터를 사용한 음성 변환에 새로운 방법론을 제시하고 있다. 특히, Conditional Cycle-Consistent Generative Adversarial Network(CC-GAN)과 Cycle-Consistent Variational AutoEncoder(CycleVAE)는 다수 화자 사이의 음성 변환에 우수한 성능을 보이고 있다. 그러나, CC-GAN과 CycleVAE는 비교적 적은 수의 화자를 대상으로 연구가 진행되어왔다. 본 논문에서는 100 명의 한국어 화자 데이터를 사용하여 CC-GAN과 CycleVAE의 음성 변환 성능과 확장 가능성을 실험적으로 분석하였다. 실험 결과 소규모 화자의 경우 CC-GAN이 Mel-Cepstral Distortion(MCD) 기준으로 4.5 % 우수한 성능을 보이지만 대규모 화자의 경우 CycleVAE가 제한된 학습 시간 안에 12.7 % 우수한 성능을 보였다.

적대적 생성 모델을 활용한 사용자 행위 이상 탐지 방법 (Anomaly Detection for User Action with Generative Adversarial Networks)

  • 최남웅;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.43-62
    • /
    • 2019
  • 한때, 이상 탐지 분야는 특정 데이터로부터 도출한 기초 통계량을 기반으로 이상 유무를 판단하는 방법이 지배적이었다. 이와 같은 방법론이 가능했던 이유는 과거엔 데이터의 차원이 단순하여 고전적 통계 방법이 효과적으로 작용할 수 있었기 때문이다. 하지만 빅데이터 시대에 접어들며 데이터의 속성이 복잡하게 변화함에 따라 더는 기존의 방식으로 산업 전반에 발생하는 데이터를 정확하게 분석, 예측하기 어렵게 되었다. 따라서 기계 학습 방법을 접목한 SVM, Decision Tree와 같은 모형을 활용하게 되었다. 하지만 지도 학습 기반의 모형은 훈련 데이터의 이상과 정상의 클래스 수가 비슷할 때만 테스트 과정에서 정확한 예측을 할 수 있다는 특수성이 있고 산업에서 생성되는 데이터는 대부분 정답 클래스가 불균형하기에 지도 학습 모형을 적용할 경우, 항상 예측되는 결과의 타당성이 부족하다는 문제점이 있다. 이러한 단점을 극복하고자 현재는 클래스 분포에 영향을 받지 않는 비지도 학습 기반의 모델을 바탕으로 이상 탐지 모형을 구성하여 실제 산업에 적용하기 위해 시행착오를 거치고 있다. 본 연구는 이러한 추세에 발맞춰 적대적 생성 신경망을 활용하여 이상 탐지하는 방법을 제안하고자 한다. 시퀀스 데이터를 학습시키기 위해 적대적 생성 신경망의 구조를 LSTM으로 구성하고 생성자의 LSTM은 2개의 층으로 각각 32차원과 64차원의 은닉유닛으로 구성, 판별자의 LSTM은 64차원의 은닉유닛으로 구성된 1개의 층을 사용하였다. 기존 시퀀스 데이터의 이상 탐지 논문에서는 이상 점수를 도출하는 과정에서 판별자가 실제데이터일 확률의 엔트로피 값을 사용하지만 본 논문에서는 자질 매칭 기법을 활용한 함수로 변경하여 이상 점수를 도출하였다. 또한, 잠재 변수를 최적화하는 과정을 LSTM으로 구성하여 모델 성능을 향상시킬 수 있었다. 변형된 형태의 적대적 생성 모델은 오토인코더의 비해 모든 실험의 경우에서 정밀도가 우세하였고 정확도 측면에서는 대략 7% 정도 높음을 확인할 수 있었다.

불균형 데이터 분류를 위한 딥러닝 기반 오버샘플링 기법 (A Deep Learning Based Over-Sampling Scheme for Imbalanced Data Classification)

  • 손민재;정승원;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권7호
    • /
    • pp.311-316
    • /
    • 2019
  • 분류 문제는 주어진 입력 데이터에 대해 해당 데이터의 클래스를 예측하는 문제로, 자주 쓰이는 방법 중의 하나는 주어진 데이터셋을 사용하여 기계학습 알고리즘을 학습시키는 것이다. 이런 경우 분류하고자 하는 클래스에 따른 데이터의 분포가 균일한 데이터셋이 이상적이지만, 불균형한 분포를 가지고 경우 제대로 분류하지 못하는 문제가 발생한다. 이러한 문제를 해결하기 위해 본 논문에서는 Conditional Generative Adversarial Networks(CGAN)을 활용하여 데이터 수의 균형을 맞추는 오버샘플링 기법을 제안한다. CGAN은 Generative Adversarial Networks(GAN)에서 파생된 생성 모델로, 데이터의 특징을 학습하여 실제 데이터와 유사한 데이터를 생성할 수 있다. 따라서 CGAN이 데이터 수가 적은 클래스의 데이터를 학습하고 생성함으로써 불균형한 클래스 비율을 맞추어 줄 수 있으며, 그에 따라 분류 성능을 높일 수 있다. 실제 수집된 데이터를 이용한 실험을 통해 CGAN을 활용한 오버샘플링 기법이 효과가 있음을 보이고 기존 오버샘플링 기법들과 비교하여 기존 기법들보다 우수함을 입증하였다.

생성적 적대 신경망을 활용한 부분 위변조 이미지 생성에 관한 연구 (A Study on Image Creation and Modification Techniques Using Generative Adversarial Neural Networks)

  • 송성헌;최봉준;문미경
    • 한국전자통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.291-298
    • /
    • 2022
  • 생성적 적대 신경망(Generative Adversarial Networks, GAN)은 내부의 두 신경망(생성망, 판별망)이 상호 경쟁하면서 학습하는 네트워크이다. 생성자는 현실과 가까운 이미지를 만들고, 구분자는 생성자의 이미지를 더 잘 감별하도록 프로그래밍 되어있다. 이 기술은 전체 이미지 X를 다른 이미지 Y로 생성, 변환 및 복원하기 위해 다양하게 활용되고 있다. 본 논문에서는 원본 이미지에서 부분 이미지만 추출한 후, 이를 자연스럽게 다른 객체로 위변조할 수 있는 방법에 관해 기술한다. 먼저 원본 이미지에서 부분 이미지만 추출한 후, 기존에 학습시켜놓은 DCGAN 모델을 통해 새로운 이미지를 생성하고, 이를 전체적 스타일 전이(overall style transfer) 기술을 사용하여 원본 이미지의 질감과 크기에 어울리도록 리스타일링(re-styling) 한 후, 원본 이미지에 자연스럽게 결합하는 과정을 거친다. 본 연구를 통해 원본 이미지의 특정 부분에 사용자가 원하는 객체 이미지를 자연스럽게 추가/변형할 수 있음으로써 가짜 이미지 생성의 또 다른 활용 분야로 사용될 수 있을 것이다.

딥러닝 기반 단일 이미지 생성적 적대 신경망 기법 비교 분석 (Deep Learning-based Single Image Generative Adversarial Network: Performance Comparison and Trends)

  • 정성훈;공경보
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.437-450
    • /
    • 2022
  • 생성적 적대 신경망(GAN, Generative Adversarial Networks)는 이미지 생성 분야에서 주목할 만한 발전을 이루었다. 하지만 큰 데이터 셋에서 불안정한 모습을 보인다는 한계 때문에 다양한 응용 분야에 쉽게 적용하기 어렵다. 단일 이미지 생성적 적대 신경망은 한장의 이미지의 내부 분포를 잘 학습하여 다양한 영상을 생성하는 분야이다. 큰 데이터셋이 아닌 단 한장만 학습함으로써 안정적인 학습이 가능하며 이미지 리타겟팅, 이미지 조작, super resolution 등 다양한 분야에 활용 가능하다. 본 논문에서는 SinGAN, ConSinGAN, InGAN, DeepSIM, 그리고 One-Shot GAN 총 다섯 개의 단일 이미지 생성적 적대 신경망을 살펴본다. 우리는 각각의 단일 이미지 생성적 적대 신경망 모델들의 성능을 비교하고 장단점을 분석한다.

생성적 적대 신경망을 이용한 함정전투체계 획득 영상의 초고해상도 영상 복원 연구 (A Study on Super Resolution Image Reconstruction for Acquired Images from Naval Combat System using Generative Adversarial Networks)

  • 김동영
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권6호
    • /
    • pp.1197-1205
    • /
    • 2018
  • 본 논문에서는 함정전투체계의 EOTS나 IRST에서 획득한 영상을 초고해상도 영상으로 복원한다. 저해상도에서 초고해상도의 영상을 생성하는 생성 모델과 이를 판별하는 판별 모델로 구성된 생성적 적대 신경망을 이용하고, 다양한 학습 파라미터의 변화를 통한 최적의 값을 제안한다. 실험에 사용되는 학습 파라미터는 crop size와 sub-pixel layer depth, 학습 이미지 종류로 구성되며, 평가는 일반적인 영상 품질 평가 지표에 추가적으로 특징점 추출 알고리즘을 함께 사용하였다. 그 결과, Crop size가 클수록, Sub-pixel layer depth가 깊을수록, 고해상도의 학습이미지를 사용할수록 더 좋은 품질의 영상을 생성한다.

Generative Adversarial Networks for single image with high quality image

  • Zhao, Liquan;Zhang, Yupeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4326-4344
    • /
    • 2021
  • The SinGAN is one of generative adversarial networks that can be trained on a single nature image. It has poor ability to learn more global features from nature image, and losses much local detail information when it generates arbitrary size image sample. To solve the problem, a non-linear function is firstly proposed to control downsampling ratio that is ratio between the size of current image and the size of next downsampled image, to increase the ratio with increase of the number of downsampling. This makes the low-resolution images obtained by downsampling have higher proportion in all downsampled images. The low-resolution images usually contain much global information. Therefore, it can help the model to learn more global feature information from downsampled images. Secondly, the attention mechanism is introduced to the generative network to increase the weight of effective image information. This can make the network learn more local details. Besides, in order to make the output image more natural, the TVLoss function is introduced to the loss function of SinGAN, to reduce the difference between adjacent pixels and smear phenomenon for the output image. A large number of experimental results show that our proposed model has better performance than other methods in generating random samples with fixed size and arbitrary size, image harmonization and editing.