• 제목/요약/키워드: generative learning

검색결과 294건 처리시간 0.038초

젠더보존에 기반한 얼굴 합성 모델 탐구 (Exploring the Aged Face Synthesize Model Based on Gender Preservation)

  • 이소려;이효종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.653-655
    • /
    • 2022
  • Face aging aims to synthesize future face images by reflecting the age factor on given faces. In recent years, deep learning-based approaches have made outstanding progress in simulating the aging process of the human face. However, generating accurate and high-quality aging faces is still intrinsically difficult. We propose a new method that incorporates gender information into the model, which achieves comparable and stable performance. Experimental results demonstrate that our method can preserve the identity well and generate diverse aged faces.

객체 탐지 성능 향상을 위한 생성형 인공지능 기반 데이터 증강 기법 연구 (A Study on Generative Artificial Intelligence-Based Data Augmentation Techniques for Enhancing Object Detection Performance)

  • 김도희;김명호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.51-54
    • /
    • 2023
  • 최근 딥러닝 기술의 발달로 물체 탐지를 위한 객체 인식 분야가 기계학습을 접목한 연구가 급격히 증가하고 있다. 하지만, 탐지하려는 물체가 다른 객체에 가려진 경우와 같이 특수한 상황에 대한 데이터의 수량이 부족하여 성능 저하를 야기한다는 점과, 객체 탐지 수행 과정에서 작은 객체의 탐지가 어렵다는 한계점이 있다. 본 연구는 전술한 문제점을 보완할 방법을 제안한다. 데이터 증강 기법을 이용하여 클래스가 부족한 데이터의 양을 늘려 학습 데이터를 증강시켰다. 한편, SRGAN을 사용하여 작은 객체를 확대시킨 뒤 이미지를 합성시켜 데이터를 구성하였다. 제안된 방법은 PyTorch 환경에서 YOLOv5를 수행한 결과, 객체 탐지 성능이 향상되는 것을 확인할 수 있었다.

  • PDF

Robust Lane Detection Algorithm for Autonomous Trucks in Container Terminal

  • Ngo Quang Vinh;Sam-Sang You;Le Ngoc Bao Long;Hwan-Seong Kim
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2023년도 춘계학술대회
    • /
    • pp.252-253
    • /
    • 2023
  • Container terminal automation might offer many potential benefits, such as increased productivity, reduced cost, and improved safety. Autonomous trucks can lead to more efficient container transport. A robust lane detection method is proposed using score-based generative modeling through stochastic differential equations for image-to-image translation. Image processing techniques are combined with Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Genetic Algorithm (GA) to ensure lane positioning robustness. The proposed method is validated by a dataset collected from the port terminals under different environmental conditions and tested the robustness of the lane detection method with stochastic noise.

  • PDF

Variational autoencoder for prosody-based speaker recognition

  • Starlet Ben Alex;Leena Mary
    • ETRI Journal
    • /
    • 제45권4호
    • /
    • pp.678-689
    • /
    • 2023
  • This paper describes a novel end-to-end deep generative model-based speaker recognition system using prosodic features. The usefulness of variational autoencoders (VAE) in learning the speaker-specific prosody representations for the speaker recognition task is examined herein for the first time. The speech signal is first automatically segmented into syllable-like units using vowel onset points (VOP) and energy valleys. Prosodic features, such as the dynamics of duration, energy, and fundamental frequency (F0), are then extracted at the syllable level and used to train/adapt a speaker-dependent VAE from a universal VAE. The initial comparative studies on VAEs and traditional autoencoders (AE) suggest that the former can efficiently learn speaker representations. Investigations on the impact of gender information in speaker recognition also point out that gender-dependent impostor banks lead to higher accuracies. Finally, the evaluation on the NIST SRE 2010 dataset demonstrates the usefulness of the proposed approach for speaker recognition.

생성형 인공지능을 활용한 외국어 작문 자가 학습 시스템 (Foreign Language Self Study Learning System Using Generative Artificial Intelligence)

  • 김지웅;이정준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.587-588
    • /
    • 2023
  • 최근 텍스트 생성형 인공지능인 ChatGPT가 화두가 되면서 생성형 인공지능을 이용한 서비스에 사람들의 관심이 높아졌다. 이를 활용하여 시간과 비용이 많이 드는 분야인 외국어 작문 학습을 자기 주도적으로 학습할 수 있을 것이라 조망하였다. 따라서 텍스트 생성형 인공지능인 ChatGPT API를 활용하여 사용자가 자기 주도적으로 외국어를 학습할 수 있는 방향성을 제시하고 더욱 쉽고 저렴한 비용으로 외국어를 익힐 수 있도록 하는 시스템을 개발한다.

Multiple Mixed Modes: Single-Channel Blind Image Separation

  • Tiantian Yin;Yina Guo;Ningning Zhang
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.858-869
    • /
    • 2023
  • As one of the pivotal techniques of image restoration, single-channel blind source separation (SCBSS) is capable of converting a visual-only image into multi-source images. However, image degradation often results from multiple mixing methods. Therefore, this paper introduces an innovative SCBSS algorithm to effectively separate source images from a composite image in various mixed modes. The cornerstone of this approach is a novel triple generative adversarial network (TriGAN), designed based on dual learning principles. The TriGAN redefines the discriminator's function to optimize the separation process. Extensive experiments have demonstrated the algorithm's capability to distinctly separate source images from a composite image in diverse mixed modes and to facilitate effective image restoration. The effectiveness of the proposed method is quantitatively supported by achieving an average peak signal-to-noise ratio exceeding 30 dB, and the average structural similarity index surpassing 0.95 across multiple datasets.

물체 파지점 검출 향상을 위한 분할 기반 깊이 지도 조정 (Segmentation-Based Depth Map Adjustment for Improved Grasping Pose Detection)

  • 신현수;무하마드 라힐 아파잘;이성온
    • 로봇학회논문지
    • /
    • 제19권1호
    • /
    • pp.16-22
    • /
    • 2024
  • Robotic grasping in unstructured environments poses a significant challenge, demanding precise estimation of gripping positions for diverse and unknown objects. Generative Grasping Convolution Neural Network (GG-CNN) can estimate the position and direction that can be gripped by a robot gripper for an unknown object based on a three-dimensional depth map. Since GG-CNN uses only a depth map as an input, the precision of the depth map is the most critical factor affecting the result. To address the challenge of depth map precision, we integrate the Segment Anything Model renowned for its robust zero-shot performance across various segmentation tasks. We adjust the components corresponding to the segmented areas in the depth map aligned through external calibration. The proposed method was validated on the Cornell dataset and SurgicalKit dataset. Quantitative analysis compared to existing methods showed a 49.8% improvement with the dataset including surgical instruments. The results highlight the practical importance of our approach, especially in scenarios involving thin and metallic objects.

주목 메커니즘 기반의 멀티 스케일 조건부 적대적 생성 신경망을 활용한 고해상도 흉부 X선 영상 생성 기법 (Generation of High-Resolution Chest X-rays using Multi-scale Conditional Generative Adversarial Network with Attention)

  • 안경진;장영걸;하성민;전병환;홍영택;심학준;장혁재
    • 방송공학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-12
    • /
    • 2020
  • 의료분야에서 질환별 유병률 차이로 인한 데이터 수적 불균형은 흔하게 발생되는 문제로 인공지능 학습 성능을 저하시켜 개발의 어려움을 초래한다. 최근 이러한 데이터 수적 불균형문제를 해결하기 위한 한 방법으로 적대적 생성 신경망(GAN) 기술이 도입되었고 다양한 분야에 성공적으로 적용되어왔다. 그러나 수적 불균형에 의해 저하된 성능 문제를 해결하는데 있어서 기존 연구들의 영상 해상도가 아직 충분하지 않고 영상 내 구조가 전역적으로 일관성 있게 모델링 되지 않아 좋은 결과를 얻기 어렵다. 본 논문에서는, 흉부 X선 영상 데이터의 수적 불균형문제를 해결하기 위하여 고해상도 영상을 생성할 수 있는 주목 메커니즘 기반 멀티 스케일 조건부 적대적 생성 네트워크를 제안한다. 해당 네트워크는 질환제어 조건변수에 의해 하나의 네트워크만으로 다양한 질환 영상을 생성할 수 있어 각 클래스별로 학습을 하는 비효율성을 줄였고, 자기 주목 메커니즘을 통해 영상 내 장거리 종속성 문제를 해결하였다.

사후전산화단층촬영의 법의병리학 분야 활용을 위한 조건부 적대적 생성 신경망을 이용한 CT 영상의 해상도 개선: 팬텀 연구 (Enhancing CT Image Quality Using Conditional Generative Adversarial Networks for Applying Post-mortem Computed Tomography in Forensic Pathology: A Phantom Study)

  • 윤예빈;허진행;김예지;조혜진;윤용수
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제46권4호
    • /
    • pp.315-323
    • /
    • 2023
  • Post-mortem computed tomography (PMCT) is commonly employed in the field of forensic pathology. PMCT was mainly performed using a whole-body scan with a wide field of view (FOV), which lead to a decrease in spatial resolution due to the increased pixel size. This study aims to evaluate the potential for developing a super-resolution model based on conditional generative adversarial networks (CGAN) to enhance the image quality of CT. 1761 low-resolution images were obtained using a whole-body scan with a wide FOV of the head phantom, and 341 high-resolution images were obtained using the appropriate FOV for the head phantom. Of the 150 paired images in the total dataset, which were divided into training set (96 paired images) and validation set (54 paired images). Data augmentation was perform to improve the effectiveness of training by implementing rotations and flips. To evaluate the performance of the proposed model, we used the Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index Measure (SSIM) and Deep Image Structure and Texture Similarity (DISTS). Obtained the PSNR, SSIM, and DISTS values of the entire image and the Medial orbital wall, the zygomatic arch, and the temporal bone, where fractures often occur during head trauma. The proposed method demonstrated improvements in values of PSNR by 13.14%, SSIM by 13.10% and DISTS by 45.45% when compared to low-resolution images. The image quality of the three areas where fractures commonly occur during head trauma has also improved compared to low-resolution images.

A Comparative Study on Data Augmentation Using Generative Models for Robust Solar Irradiance Prediction

  • Jinyeong Oh;Jimin Lee;Daesungjin Kim;Bo-Young Kim;Jihoon Moon
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.29-42
    • /
    • 2023
  • 본 논문은 서울, 부산, 인천과 같은 대한민국의 주요 도시들을 대상으로 일사량 예측 정확도를 향상하기 위한 방법론을 제안한다. 제안한 방법론은 먼저 GAN, CTGAN, Copula GAN, WGANGP, TVAE 등 다섯 가지 생성 모델을 이용하여 기존 학습 데이터와 유사한 독립 변수들을 생성한다. 다음으로 모델 학습에서의 데이터 편향성을 개선하고자, 생성한 독립 변수들에서 각각 랜덤 포레스트와 심층 신경망을 통해 종속 변숫값을 도출하여 학습 데이터 셋을 구축하고, 이를 기존 학습데이터 셋과 결합하여 예측 모델을 구성한다. 실험 결과, 증강된 데이터 셋으로 학습한 모델들은 기존 데이터 셋으로 학습한 모델들보다 향상된 성능을 나타내었다. 특히 CTGAN은 복잡한 다변량 데이터 관계를 효과적으로 다루는 메커니즘으로 인해 우수한 결과를 도출하였으며, 생성된 데이터는 일사량의 다양한 변화와 실제 변동성과 효과적으로 반영하였다. 제안한 방법론은 고품질의 생성 데이터로 학습 데이터를 증강함으로써, 데이터 부족 현상 문제를 다룰 수 있을 뿐만 아니라 지속 가능한 발전을 위한 태양광 발전 시스템 운영에도 이바지할 수 있을 것으로 기대한다.