• 제목/요약/키워드: generative learning

검색결과 285건 처리시간 0.03초

Dog-Species Classification through CycleGAN and Standard Data Augmentation

  • Chan, Park;Nammee, Moon
    • Journal of Information Processing Systems
    • /
    • 제19권1호
    • /
    • pp.67-79
    • /
    • 2023
  • In the image field, data augmentation refers to increasing the amount of data through an editing method such as rotating or cropping a photo. In this study, a generative adversarial network (GAN) image was created using CycleGAN, and various colors of dogs were reflected through data augmentation. In particular, dog data from the Stanford Dogs Dataset and Oxford-IIIT Pet Dataset were used, and 10 breeds of dog, corresponding to 300 images each, were selected. Subsequently, a GAN image was generated using CycleGAN, and four learning groups were established: 2,000 original photos (group I); 2,000 original photos + 1,000 GAN images (group II); 3,000 original photos (group III); and 3,000 original photos + 1,000 GAN images (group IV). The amount of data in each learning group was augmented using existing data augmentation methods such as rotating, cropping, erasing, and distorting. The augmented photo data were used to train the MobileNet_v3_Large, ResNet-152, InceptionResNet_v2, and NASNet_Large frameworks to evaluate the classification accuracy and loss. The top-3 accuracy for each deep neural network model was as follows: MobileNet_v3_Large of 86.4% (group I), 85.4% (group II), 90.4% (group III), and 89.2% (group IV); ResNet-152 of 82.4% (group I), 83.7% (group II), 84.7% (group III), and 84.9% (group IV); InceptionResNet_v2 of 90.7% (group I), 88.4% (group II), 93.3% (group III), and 93.1% (group IV); and NASNet_Large of 85% (group I), 88.1% (group II), 91.8% (group III), and 92% (group IV). The InceptionResNet_v2 model exhibited the highest image classification accuracy, and the NASNet_Large model exhibited the highest increase in the accuracy owing to data augmentation.

RAPGAN와 RRDB를 이용한 Image-to-Image Translation의 성능 개선 (Performance Improvement of Image-to-Image Translation with RAPGAN and RRDB)

  • 윤동식;곽노윤
    • 사물인터넷융복합논문지
    • /
    • 제9권1호
    • /
    • pp.131-138
    • /
    • 2023
  • 본 논문은 RAPGAN(Relativistic Average Patch GAN)과 RRDB(Residual in Residual Dense Block)을 이용한 Image-to-Image 변환의 성능 개선에 관한 것이다. 본 논문은 Image-to-Image 변환의 일종인 기존의 pix2pix의 결점을 보완하기 위해 세 가지 측면의 기술적 개선을 통한 성능 향상을 도모함에 그 목적이 있다. 첫째, 기존의 pix2pix 생성자와 달리 입력 이미지를 인코딩하는 부분에서 RRDB를 이용함으로써 더욱 더 깊은 학습을 가능하게 한다. 둘째, RAPGAN 기반의 손실함수를 사용해 원본 이미지가 생성된 이미지에 비해 얼마나 진짜 같은지를 예측하기 때문에 이 두 이미지가 모두 적대적 생성 학습에 영향을 미치게 된다. 마지막으로, 생성자를 사전학습시켜 판별자가 조기에 학습되는 것을 억제하도록 조치한다. 제안된 방법에 따르면, FID 측면에서 기존의 pix2pix보다 평균 13% 이상의 우수한 이미지를 생성할 수 있었다.

기계학습 알고리즘 기반 하자 정보 관리 시스템 개발 - 공동주택 전용부분을 중심으로 - (A Developing a Machine Leaning-Based Defect Data Management System For Multi-Family Housing Unit)

  • 박다슬;차희성
    • 한국건설관리학회논문집
    • /
    • 제24권5호
    • /
    • pp.35-43
    • /
    • 2023
  • 공동주택 하자 분쟁의 증가와 함께, 하자관리의 중요성 또한 커지고 있다. 그러나 기존의 연구는 '공용 부분'에 초점을 맞추어 진행되었다. 또한 하자관리의 주체인 '관리사무소'를 위한 시스템 연구도 부족한 실정이다. 이는 관리사무소의 하자관리 능력의 부족과 관리 품질의 저하를 초래한다. 따라서, 본 논문에서는 관리사무소를 위한 기계학습 기반의 하자 정보 관리 시스템을 제안한다. OCR과 NLP 모듈을 사용하여 관리상의 불편한 점을 해소하는 것을 목표로 한다. OCR을 통해 수기로 작성된 하자 정보를 디지털 문서로 변환한다. 이후 언어모델을 이용하여 사용자가 지정한 양식과 함께 하자 정보를 재생성한다. 최종적으로 생성된 텍스트를 데이터베이스에 저장하고 이를 기반으로 통계적 분석을 실행한다. 이러한 일련의 과정을 통해, 관리사무소의 하자관리 역량을 향상할 수 있도록 돕고, 의사결정을 지원할 수 있을 것으로 기대한다.

Generation of He I 1083 nm Images from SDO/AIA 19.3 and 30.4 nm Images by Deep Learning

  • Son, Jihyeon;Cha, Junghun;Moon, Yong-Jae;Lee, Harim;Park, Eunsu;Shin, Gyungin;Jeong, Hyun-Jin
    • 천문학회보
    • /
    • 제46권1호
    • /
    • pp.41.2-41.2
    • /
    • 2021
  • In this study, we generate He I 1083 nm images from Solar Dynamic Observatory (SDO)/Atmospheric Imaging Assembly (AIA) images using a novel deep learning method (pix2pixHD) based on conditional Generative Adversarial Networks (cGAN). He I 1083 nm images from National Solar Observatory (NSO)/Synoptic Optical Long-term Investigations of the Sun (SOLIS) are used as target data. We make three models: single input SDO/AIA 19.3 nm image for Model I, single input 30.4 nm image for Model II, and double input (19.3 and 30.4 nm) images for Model III. We use data from 2010 October to 2015 July except for June and December for training and the remaining one for test. Major results of our study are as follows. First, the models successfully generate He I 1083 nm images with high correlations. Second, the model with two input images shows better results than those with one input image in terms of metrics such as correlation coefficient (CC) and root mean squared error (RMSE). CC and RMSE between real and AI-generated ones for the model III with 4 by 4 binnings are 0.84 and 11.80, respectively. Third, AI-generated images show well observational features such as active regions, filaments, and coronal holes. This work is meaningful in that our model can produce He I 1083 nm images with higher cadence without data gaps, which would be useful for studying the time evolution of chromosphere and coronal holes.

  • PDF

Deep survey using deep learning: generative adversarial network

  • Park, Youngjun;Choi, Yun-Young;Moon, Yong-Jae;Park, Eunsu;Lim, Beomdu;Kim, Taeyoung
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.78.1-78.1
    • /
    • 2019
  • There are a huge number of faint objects that have not been observed due to the lack of large and deep surveys. In this study, we demonstrate that a deep learning approach can produce a better quality deep image from a single pass imaging so that could be an alternative of conventional image stacking technique or the expensive large and deep surveys. Using data from the Sloan Digital Sky Survey (SDSS) stripe 82 which provide repeatedly scanned imaging data, a training data set is constructed: g-, r-, and i-band images of single pass data as an input and r-band co-added image as a target. Out of 151 SDSS fields that have been repeatedly scanned 34 times, 120 fields were used for training and 31 fields for validation. The size of a frame selected for the training is 1k by 1k pixel scale. To avoid possible problems caused by the small number of training sets, frames are randomly selected within that field each iteration of training. Every 5000 iterations of training, the performance were evaluated with RMSE, peak signal-to-noise ratio which is given on logarithmic scale, structural symmetry index (SSIM) and difference in SSIM. We continued the training until a GAN model with the best performance is found. We apply the best GAN-model to NGC0941 located in SDSS stripe 82. By comparing the radial surface brightness and photometry error of images, we found the possibility that this technique could generate a deep image with statistics close to the stacked image from a single-pass image.

  • PDF

학습 데이터가 없는 모델 탈취 방법에 대한 분석 (Analysis of methods for the model extraction without training data)

  • 권현;김용기;이준
    • 융합보안논문지
    • /
    • 제23권5호
    • /
    • pp.57-64
    • /
    • 2023
  • 딥뉴럴네트워크 모델의 취약점으로 모델 탈취 방법이 있다. 이 방법은 대상 모델에 대하여 여러번의 반복된 쿼리를 통해서 유사 모델을 생성하여 대상 모델의 예측값과 동일하게 내는 유사 모델을 생성하는 것이다. 본 연구에서, 학습 데이터가 없이 대상 모델을 탈취하는 방법에 대해서 분석을 하였다. 생성 모델을 이용하여 입력 데이터를 생성하고 대상 모델과 유사 모델의 예측값이 서로 가까워지도록 손실함수를 정의하여 유사 모델을 생성한다. 이 방법에서 대상 모델의 입력 데이터에 대한 각 클래스의 logit(로직) 값을 이용하여 경사하강법으로 유사 모델이 그것과 유사하도록 학습하는 과정을 갖는다. 실험 환경으로 pytorch 머신러닝 라이브러리를 이용하였으며, 데이터셋으로 CIFAR10과 SVHN을 사용하였다. 대상 모델로 ResNet 모델을 이용하였다. 실험 결과로써, 모델 탈취 방법은 CIFAR10에 대해서 86.18%이고 SVHN에 대해서 96.02% 정확도로 대상 모델과 유사한 예측값을 내는 유사 모델을 생성하는 것을 볼 수가 있었다. 추가적으로 모델 탈취 방법에 대한 고려사항와 한계점에 대한 고찰도 분석하였다.

지식내용, 사회문제, 개인흥미 중심의 통합과학교육 접근법을 적용한 '에너지' 주제의 교수.학습 방안 개발(II) (Three Teaching-Learning Plans for Integrated Science Teaching of 'Energy' Applying Knowledge-, Social Problem-, and Individual Interest-Centered Approaches)

  • 이미혜;손연아;;최돈형
    • 한국과학교육학회지
    • /
    • 제21권2호
    • /
    • pp.357-384
    • /
    • 2001
  • 본 논문에서는 통합과학교육에 관한 이론적 방향과 실제적 교수 학습방안을 연계성 있게 제시하여 과학교사들의 통합과학교육에 관한 이해를 도움과 동시에 통합과학 수업 보조자료를 개발하여 실제수업에 활용할 수 있도록 하였다. 이를 위해 공통과학 교과내용 중 통합 과학적 성격이 특히 강한 에너지 단원을 대상으로 통합과학 교수 학습 방안을 모색하였는데, 이것은 이전 논문에서 구성한 '통합과학교육의 방향별 에너지 교수 학습 전략' 을 바탕으로 하고 여기에 각 방향별 특징에 적합한 수업 모형을 적용한 것이다. 즉, 지식내용중심의 통합은 물리, 화학, 생물, 지구과학의 지식을 통합하기 위해서 '에너지의 여행' 을 주제로 선정하고 ' 개방된 발견학습' 수업모형을 적용하여 개념과 탐구관련 중심으로 모색하였다. 사회문제중심의 통합은 과학관련 사회문제를 해결하기 위하여 '에너지의 미래'를 주제로 선정하고 '발생학습' 수업모형을 적용하여 학습자의 인지과정을 중심으로 모색하였다. 개인흥미중심의 통합은 과학과 개인흥미의 통합을 위하여 '에너지의 변신' 을 주제로 선정하고 '프로젝트' 수업모형을 적용하여 학습자의 흥미나 관심분야를 중심으로 모색하였다. 이상과 같은 방향에 따른 통합과학 교수 학습 방안은 다음과 같은 순서에 의해 모색되었다. 먼저, 각 주제별로 다루어야할 통합과학적 교수 학습 내용을 구성하고, 이를 바탕으로 각각의 주제를 통합적으로 수업하기 위한 통합과학적 수업 절차를 설계하였다. 그리고 작성한 수업 절차에 따라 실제 통합과학 수업에서 적용할 수 있는 통합과학적 수업 지도안을 작성하였다. 이상의 연구는 21세기를 대비한 통합과학교육의 방향정립과 교재, 교사, 학생을 고려한 종합적인 통합과학교육 프로그램 개발에 활용될 수 있을 것으로 생각된다.

  • PDF

딥 러닝 기반 코로나19 흉부 X선 판독 기법 (A COVID-19 Chest X-ray Reading Technique based on Deep Learning)

  • 안경희;엄성용
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.789-795
    • /
    • 2020
  • 전 세계적으로 유행하는 코로나19로 인해 많은 사망자가 보고되고 있다. 코로나19의 추가 확산을 막기 위해서는 의심 환자에 대해 신속하고 정확한 영상판독을 한 후, 적절한 조치를 취해야 한다. 이를 위해 본 논문은 환자의 감염 여부를 의료진에게 제공해 영상판독을 보조할 수 있는 딥 러닝 기반 코로나19 흉부 X선 판독 기법을 소개한다. 우선 판독모델을 학습하기 위해서는 충분한 데이터셋이 확보되어야 하는데, 현재 제공하는 코로나19 오픈 데이터셋은 학습의 정확도를 보장하기에 그 영상 데이터 수가 충분하지 않다. 따라서 누적 적대적 생성 신경망(StackGAN++)을 사용해 인공지능 학습 성능을 저하하는 영상 데이터 수적 불균형 문제를 해결하였다. 다음으로 판독모델 개발을 위해 증강된 데이터셋을 사용하여 DenseNet 기반 분류모델 학습을 진행하였다. 해당 분류모델은 정상 흉부 X선과 코로나 19 흉부 X선 영상을 이진 분류하는 모델로, 실제 영상 데이터 일부를 테스트데이터로 사용하여 모델의 성능을 평가하였다. 마지막으로 설명 가능한 인공지능(eXplainable AI, XAI) 중 하나인 Grad-CAM을 사용해 입력 영상의 질환유무를 판단하는 근거를 제시하여 모델의 신뢰성을 확보하였다.

R2와 어텐션을 적용한 유넷 기반의 영상 간 변환에 관한 연구 (Image-to-Image Translation Based on U-Net with R2 and Attention)

  • 임소현;전준철
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.9-16
    • /
    • 2020
  • 영상 처리 및 컴퓨터 비전 분야에서 하나의 영상을 통해 다른 영상으로 재구성하거나 새로운 영상을 생성하는 문제는 하드웨어의 발전에 따라 꾸준히 주목받고 있다. 그러나 컴퓨터를 통해 생성한 이미지를 사람의 눈으로 바라봤을 때 자연스럽지 않다는 문제 또한 계속해서 대두되고 있다. 최근 딥러닝 분야에 대한 연구가 활발히 진행됨에 따라 이를 활용한 영상 생성 및 개선 문제 또한 활발히 연구되고 있으며 그 중에서도 적대적 생성 신경망(Generative Adversarial Network)이라는 네트워크가 영상 생성 분야에 있어 좋은 결과를 보이고 있다. 적대적 생성 신경망이 제안된 이후 이를 기반으로 하는 다양한 네트워크가 제시됨에 따라 영상 생성 분야에서 더 자연스러운 영상을 생성하는 것이 가능해졌다. 그 중 pix2pix은 조건 적대적 생성 신경망 모델로 다양한 데이터셋에서도 좋은 성능을 보이는 범용적인 네트워크이다. pix2pix는 U-Net을 기반으로 두고 있으나 U-Net을 기반으로 하는 네트워크 중에서는 더 좋은 성능을 보이는 네트워크가 다수 존재한다. 때문에 본 연구에서는 pix2pix의 U-Net에 다양한 네트워크를 적용해 영상을 생성하고 그 결과를 상호 비교 평가한다. 각 네트워크를 통해 생성된 영상을 통해 기존의 U-Net을 사용한 pix2pix 모델보다 어텐션, R2, 어텐션-R2 네트워크를 적용한 pix2pix 모델이 더 좋은 성능을 보이는 것을 확인하고 그 중 가장 성능이 뛰어난 네트워크의 한계점을 향후 연구로 제시한다.

Spine Computed Tomography to Magnetic Resonance Image Synthesis Using Generative Adversarial Networks : A Preliminary Study

  • Lee, Jung Hwan;Han, In Ho;Kim, Dong Hwan;Yu, Seunghan;Lee, In Sook;Song, You Seon;Joo, Seongsu;Jin, Cheng-Bin;Kim, Hakil
    • Journal of Korean Neurosurgical Society
    • /
    • 제63권3호
    • /
    • pp.386-396
    • /
    • 2020
  • Objective : To generate synthetic spine magnetic resonance (MR) images from spine computed tomography (CT) using generative adversarial networks (GANs), as well as to determine the similarities between synthesized and real MR images. Methods : GANs were trained to transform spine CT image slices into spine magnetic resonance T2 weighted (MRT2) axial image slices by combining adversarial loss and voxel-wise loss. Experiments were performed using 280 pairs of lumbar spine CT scans and MRT2 images. The MRT2 images were then synthesized from 15 other spine CT scans. To evaluate whether the synthetic MR images were realistic, two radiologists, two spine surgeons, and two residents blindly classified the real and synthetic MRT2 images. Two experienced radiologists then evaluated the similarities between subdivisions of the real and synthetic MRT2 images. Quantitative analysis of the synthetic MRT2 images was performed using the mean absolute error (MAE) and peak signal-to-noise ratio (PSNR). Results : The mean overall similarity of the synthetic MRT2 images evaluated by radiologists was 80.2%. In the blind classification of the real MRT2 images, the failure rate ranged from 0% to 40%. The MAE value of each image ranged from 13.75 to 34.24 pixels (mean, 21.19 pixels), and the PSNR of each image ranged from 61.96 to 68.16 dB (mean, 64.92 dB). Conclusion : This was the first study to apply GANs to synthesize spine MR images from CT images. Despite the small dataset of 280 pairs, the synthetic MR images were relatively well implemented. Synthesis of medical images using GANs is a new paradigm of artificial intelligence application in medical imaging. We expect that synthesis of MR images from spine CT images using GANs will improve the diagnostic usefulness of CT. To better inform the clinical applications of this technique, further studies are needed involving a large dataset, a variety of pathologies, and other MR sequence of the lumbar spine.