• 제목/요약/키워드: one-shot learning

검색결과 18건 처리시간 0.032초

이미지 분석을 위한 퓨샷 학습의 최신 연구동향 (Recent advances in few-shot learning for image domain: a survey)

  • 석호식
    • 전기전자학회논문지
    • /
    • 제27권4호
    • /
    • pp.537-547
    • /
    • 2023
  • 퓨삿학습(few-shot learning)은 사전에 확보한 관련 지식과 소규모의 학습데이터를 이용하여 학습데이터의 부족으로 인한 어려움을 해결할 수 있는 가능성을 제시해주어 최근 많은 주목을 받고 있다. 본 논문에서는 퓨삿학습의 개념과 주요 접근방법을 빠르게 파악할 수 있도록 데이터 증강, 임베딩과 측도학습, 메타학습의 세 관점에서 최신연구동향을 설명한다. 또한 퓨샷학습을 적용하려는 연구자들에게 도움을 제공할 수 있도록 주요 벤치마크 데이터셋에 대하여 간략하게 소개하였다. 퓨삿학습은 이미지 분석과 자연어 처리 등 다양한 분야에서 활용되고 있으나, 본 논문은 이미지 처리를 위한 퓨삿학습의 접근법에 집중하였다.

Zero-shot voice conversion with HuBERT

  • Hyelee Chung;Hosung Nam
    • 말소리와 음성과학
    • /
    • 제15권3호
    • /
    • pp.69-74
    • /
    • 2023
  • This study introduces an innovative model for zero-shot voice conversion that utilizes the capabilities of HuBERT. Zero-shot voice conversion models can transform the speech of one speaker to mimic that of another, even when the model has not been exposed to the target speaker's voice during the training phase. Comprising five main components (HuBERT, feature encoder, flow, speaker encoder, and vocoder), the model offers remarkable performance across a range of scenarios. Notably, it excels in the challenging unseen-to-unseen voice-conversion tasks. The effectiveness of the model was assessed based on the mean opinion scores and similarity scores, reflecting high voice quality and similarity to the target speakers. This model demonstrates considerable promise for a range of real-world applications demanding high-quality voice conversion. This study sets a precedent in the exploration of HuBERT-based models for voice conversion, and presents new directions for future research in this domain. Despite its complexities, the robust performance of this model underscores the viability of HuBERT in advancing voice conversion technology, making it a significant contributor to the field.

Weighted Fast Adaptation Prior on Meta-Learning

  • Widhianingsih, Tintrim Dwi Ary;Kang, Dae-Ki
    • International journal of advanced smart convergence
    • /
    • 제8권4호
    • /
    • pp.68-74
    • /
    • 2019
  • Along with the deeper architecture in the deep learning approaches, the need for the data becomes very big. In the real problem, to get huge data in some disciplines is very costly. Therefore, learning on limited data in the recent years turns to be a very appealing area. Meta-learning offers a new perspective to learn a model with this limitation. A state-of-the-art model that is made using a meta-learning framework, Meta-SGD, is proposed with a key idea of learning a hyperparameter or a learning rate of the fast adaptation stage in the outer update. However, this learning rate usually is set to be very small. In consequence, the objective function of SGD will give a little improvement to our weight parameters. In other words, the prior is being a key value of getting a good adaptation. As a goal of meta-learning approaches, learning using a single gradient step in the inner update may lead to a bad performance. Especially if the prior that we use is far from the expected one, or it works in the opposite way that it is very effective to adapt the model. By this reason, we propose to add a weight term to decrease, or increase in some conditions, the effect of this prior. The experiment on few-shot learning shows that emphasizing or weakening the prior can give better performance than using its original value.

딥 러닝에서 Labeling 부담을 줄이기 위한 연구분석 (An Analysis of the methods to alleviate the cost of data labeling in Deep learning)

  • 한석민
    • 문화기술의 융합
    • /
    • 제8권1호
    • /
    • pp.545-550
    • /
    • 2022
  • 딥러닝은 많은 데이터를 필요로 한다는 것은 이미 널리 알려져있다. 이를 통해, 딥러닝에 쓰이는 신경망의 수없이 많은 parameter들을 학습시킨다. 학습과정에는 데이터뿐 아니라, 각 데이터별로 전문가가 입력한 label이 필요한 경우가 대부분인데, 이 label을 얻는 과정은 시간과 자원 소비가 심하다. 이 문제를 완화하기 위해, few-shot learning, self-supervised learning, weak-supervised learning등이 연구되어오고 있다. 본 논문에서는, label을 상대적으로 적은 노력으로 수행하기 위한 연구들의 동향을 살펴보고, 앞으로의 개선 방향을 제시하도록 한다.

딥러닝 기반 단일 이미지 생성적 적대 신경망 기법 비교 분석 (Deep Learning-based Single Image Generative Adversarial Network: Performance Comparison and Trends)

  • 정성훈;공경보
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.437-450
    • /
    • 2022
  • 생성적 적대 신경망(GAN, Generative Adversarial Networks)는 이미지 생성 분야에서 주목할 만한 발전을 이루었다. 하지만 큰 데이터 셋에서 불안정한 모습을 보인다는 한계 때문에 다양한 응용 분야에 쉽게 적용하기 어렵다. 단일 이미지 생성적 적대 신경망은 한장의 이미지의 내부 분포를 잘 학습하여 다양한 영상을 생성하는 분야이다. 큰 데이터셋이 아닌 단 한장만 학습함으로써 안정적인 학습이 가능하며 이미지 리타겟팅, 이미지 조작, super resolution 등 다양한 분야에 활용 가능하다. 본 논문에서는 SinGAN, ConSinGAN, InGAN, DeepSIM, 그리고 One-Shot GAN 총 다섯 개의 단일 이미지 생성적 적대 신경망을 살펴본다. 우리는 각각의 단일 이미지 생성적 적대 신경망 모델들의 성능을 비교하고 장단점을 분석한다.

딥러닝 기반 실시간 손 제스처 인식 (Real-Time Hand Gesture Recognition Based on Deep Learning)

  • 김규민;백중환
    • 한국멀티미디어학회논문지
    • /
    • 제22권4호
    • /
    • pp.424-431
    • /
    • 2019
  • In this paper, we propose a real-time hand gesture recognition algorithm to eliminate the inconvenience of using hand controllers in VR applications. The user's 3D hand coordinate information is detected by leap motion sensor and then the coordinates are generated into two dimensional image. We classify hand gestures in real-time by learning the imaged 3D hand coordinate information through SSD(Single Shot multibox Detector) model which is one of CNN(Convolutional Neural Networks) models. We propose to use all 3 channels rather than only one channel. A sliding window technique is also proposed to recognize the gesture in real time when the user actually makes a gesture. An experiment was conducted to measure the recognition rate and learning performance of the proposed model. Our proposed model showed 99.88% recognition accuracy and showed higher usability than the existing algorithm.

Few-shot Learning을 이용한 격점상세도 분류 시스템 구현 (Implementation of Point detail Classification System using Few-shot Learning)

  • 박진혁;김용현;이국범;이종서;김유두
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1809-1815
    • /
    • 2022
  • 디지털 트윈이란 현실세계와 동일한 가상세계를 만드는 기술이다. 다양한 시물레이션을 통해 현실 세계의 문제를 파악할 수 있어 여러 산업 분야에서 적용하는 추세이다. 디지털 트윈을 적용하기 위해서는 동일하게 만드려는 현실세계의 구조가 설계된 도면을 분석해야 한다. 도면을 분석하는 기술이 연구되고 있지만 도면을 작성하는 규칙이나 기준이 작성자마다 다르기 때문에 적용하기 어려운 추세다. 따라서 본 논문에서는 인공지능을 이용하여 도면 중 하나인 격점상세도를 분석하여 분류하는 시스템을 구현한다. 이를 통해 인공지능을 이용하여 도면을 분석하고 분류할 수 있는 가능성을 확인하고 추후 연구 방향에 대해 소개하고자 한다.

CKFont2: 한글 구성요소를 이용한 개선된 퓨샷 한글 폰트 생성 모델 (CKFont2: An Improved Few-Shot Hangul Font Generation Model Based on Hangul Composability)

  • 박장경;;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권12호
    • /
    • pp.499-508
    • /
    • 2022
  • 딥러닝을 이용한 한글 생성 모델에 대한 연구가 많이 진행되었으며, 최근에는 한글 1벌을 생성하기 위하여 입력되는 글자 수를 얼마나 최소화할 수 있는지(Few-Shot Learning)에 대하여 연구되고 있다. 본 논문은 28개 글자를 사용하는 CKFont (이하 CKFont1) 모델을 분석하고 개선하여 14개 글자만을 사용하는 CKFont2 모델을 제안한다. CKFont2 모델은 28글자로 51개 한글 구성요소를 추출하여 모든 한글을 생성하는 CKFont1 모델을, 24개의 구성요소(자음 14개와 모음 10개)를 포함한 14개의 글자만을 이용하여 모든 한글을 생성하는 모델로 성능을 개선하였으며, 이는 현재 알려진 모델로서는 최소한의 글자를 사용한다. 한글의 기본 자/모음으로부터 쌍자음(5), 복자음(11)/복모음(11) 등 27개를 딥러닝으로 학습하여 생성하고, 생성된 27개 구성요소를 24개의 기본 자/모음과 합한 51개 구성요소로부터 모든 한글을 자동 생성한다. zi2zi, CKFont1, MX-Font 모델 생성 결과와 비교 분석하여 성능의 우수성을 입증하였으며, 구조가 간결하고 시간과 자원이 절약되는 효율적인 모델로 한자나 태국어, 일본어에도 확장 적용이 가능하다.

Denoise of Astronomical Images with Deep Learning

  • Park, Youngjun;Choi, Yun-Young;Moon, Yong-Jae;Park, Eunsu;Lim, Beomdu;Kim, Taeyoung
    • 천문학회보
    • /
    • 제44권1호
    • /
    • pp.54.2-54.2
    • /
    • 2019
  • Removing noise which occurs inevitably when taking image data has been a big concern. There is a way to raise signal-to-noise ratio and it is regarded as the only way, image stacking. Image stacking is averaging or just adding all pixel values of multiple pictures taken of a specific area. Its performance and reliability are unquestioned, but its weaknesses are also evident. Object with fast proper motion can be vanished, and most of all, it takes too long time. So if we can handle single shot image well and achieve similar performance, we can overcome those weaknesses. Recent developments in deep learning have enabled things that were not possible with former algorithm-based programming. One of the things is generating data with more information from data with less information. As a part of that, we reproduced stacked image from single shot image using a kind of deep learning, conditional generative adversarial network (cGAN). r-band camcol2 south data were used from SDSS Stripe 82 data. From all fields, image data which is stacked with only 22 individual images and, as a pair of stacked image, single pass data which were included in all stacked image were used. All used fields are cut in $128{\times}128$ pixel size, so total number of image is 17930. 14234 pairs of all images were used for training cGAN and 3696 pairs were used for verify the result. As a result, RMS error of pixel values between generated data from the best condition and target data were $7.67{\times}10^{-4}$ compared to original input data, $1.24{\times}10^{-3}$. We also applied to a few test galaxy images and generated images were similar to stacked images qualitatively compared to other de-noising methods. In addition, with photometry, The number count of stacked-cGAN matched sources is larger than that of single pass-stacked one, especially for fainter objects. Also, magnitude completeness became better in fainter objects. With this work, it is possible to observe reliably 1 magnitude fainter object.

  • PDF

교사학습공동체 과학 교사의 PCK 요소 간 상호작용 (Interactions among Components of Pedagogical Content Knowledge of Science Teachers in a Teacher Learning Community)

  • 양정은;최애란
    • 대한화학회지
    • /
    • 제66권1호
    • /
    • pp.15-30
    • /
    • 2022
  • 본 연구는 과학 실천 수업을 위한 교사학습공동체 중학교 과학교사들의 PCK 요소 간 상호작용 탐색을 목적으로 한다. 이를 위해 교사학습공동체에 참여하는 5명의 교사를 대상으로 사전·사후 설문과 면담, 교사학습공동체 논의 녹음, 수업계획안, 수업 영상, 수업 일기 등의 자료를 수집하여 질적 분석을 하였다. 교사학습공동체 교사들의 과학 실천 수업 PCK 요소 간 상호작용은 일방적으로 영향을 미치는 단방향 상호작용과 서로 영향을 주기도 하고 받기도 하는 양방향 상호작용의 두 가지 유형으로 나타났다. 상호작용이 일회성으로 그치거나 연쇄적으로 일어나기도 했으며, 양방향 상호작용의 경우에는 교사학습공동체 한 모임에서 동시적으로 상호작용이 이루어지거나, 교사학습공동체 여러 모임을 거쳐 연속적으로 양방향 상호작용이 이루어지기도 했다. 본 연구는 교사학습공동체의 협력적 학습 맥락이 다양한 PCK 요소 및 하위요소 간 여러 가지 상호작용을 복합적으로 촉진하는 환경을 조성할 수 있다는 시사점을 제공한다.