• 제목/요약/키워드: Wasserstein Distance

검색결과 14건 처리시간 0.019초

PG-GAN을 이용한 패션이미지 데이터 자동 생성 (Automaitc Generation of Fashion Image Dataset by Using Progressive Growing GAN)

  • 김양희;이찬희;황태선;김경민;임희석
    • 사물인터넷융복합논문지
    • /
    • 제4권2호
    • /
    • pp.1-6
    • /
    • 2018
  • 이미지와 같은 고차원 데이터로부터 새로운 샘플 데이터를 생성하는 기술은 음성 합성, 이미지 변환 및 이미지 복원 등에 다양하게 활용되고 있다. 본 논문은 고해상도의 이미지들을 생성하는 것과 생성한 이미지들의 variation을 높이기 위한 방안으로 Progressive Growing of Generative Adversarial Networks(PG-GANs)을 구현 모델로 채택하였고, 이를 패션 이미지 데이터에 적용하였다. PG-GANs은 생성자(Generator)와 판별자(discriminator)를 동시에 점진적으로 학습하도록 하는데, 저해상도의 이미지에서부터 계속해서 새로운 레이어들을 추가하여 결과적으로 고해상도의 이미지를 생성할 수 있게끔 하는 방식이다. 또한 생성 데이터의 다양성을 높이기 위하여 미니배치 표준편차 방법을 제안하였고 GAN 모델을 평가하기 위한 기존의 MS-SSIM이 아닌 Sliced Wasserstein Distance(SWD) 평가 방법을 제안하였다.

Face Recognition Research Based on Multi-Layers Residual Unit CNN Model

  • Zhang, Ruyang;Lee, Eung-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제25권11호
    • /
    • pp.1582-1590
    • /
    • 2022
  • Due to the situation of the widespread of the coronavirus, which causes the problem of lack of face image data occluded by masks at recent time, in order to solve the related problems, this paper proposes a method to generate face images with masks using a combination of generative adversarial networks and spatial transformation networks based on CNN model. The system we proposed in this paper is based on the GAN, combined with multi-scale convolution kernels to extract features at different details of the human face images, and used Wasserstein divergence as the measure of the distance between real samples and synthetic samples in order to optimize Generator performance. Experiments show that the proposed method can effectively put masks on face images with high efficiency and fast reaction time and the synthesized human face images are pretty natural and real.

원격 탐사 영상을 활용한 CNN 기반의 초해상화 기법 연구 (A Study of CNN-based Super-Resolution Method for Remote Sensing Image)

  • 최연주;김민식;김용우;한상혁
    • 대한원격탐사학회지
    • /
    • 제36권3호
    • /
    • pp.449-460
    • /
    • 2020
  • 초해상화 기법은 저해상도 영상을 고해상도 영상으로 변환하는 기법이다. 최근에는 딥러닝 기술을 활용한 초해상화 방법이 주류를 이루고 있으며, 원격 탐사 분야에서도 이를 응용한 연구가 증가하고 있다. 본 연구에서는 위성 영상의 4배 해상도 향상을 위하여 deep back-projection network (DBPN) 네트워크에 기반한 초해상화 기법을 제안하였다. 또한, 복원된 영상의 디테일 및 윤곽선 부분에서의 고품질 영상 획득을 위해 윤곽선 손실 함수를 제안하고, 효과적이고 안정적인 학습을 위하여 Wasserstein distance 손실 함수를 사용한 GAN 기법을 적용하였다. 또한, 자연스러운 저해상도 훈련 영상을 획득하기 위한 detail preserving image downscaling (DPID) 기법을 적용하였다. 마지막으로 전정 영상의 특징을 추출하여 훈련의 마지막 단계에 적용 시킴으로써 출력 영상의 세부적인 특징을 효과적으로 생성하였다. 그 결과 실험에 사용된 WorldView-3 영상 및 KOMPSAT-2 영상에서 해상도 향상 효과를 확인하였고, 다른 초해상화 모델에 대비하여 윤곽선 보존력이나 영상의 선명도가 향상 되었음을 확인하였다

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

  • 박보경;박소민;홍현기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권7호
    • /
    • pp.303-314
    • /
    • 2023
  • 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.