• 제목/요약/키워드: few-shot learning

검색결과 40건 처리시간 0.022초

한글 조합성에 기반한 최소 글자를 사용하는 한글 폰트 생성 모델 (Few-Shot Korean Font Generation based on Hangul Composability)

  • 박장경;;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.473-482
    • /
    • 2021
  • 최근 딥러닝을 이용한 한글 생성 모델이 연구되고 있으나, 한글 폰트의 구조가 복잡하고 많은 폰트 데이터가 필요하여 상당한 시간과 자원을 필요로 할 뿐 아니라 스타일이 제대로 변환되지 않는 경우도 발생한다. 이러한 문제점을 보완하기 위하여, 본 논문에서는 한글의 초성, 중성, 종성의 구성요소를 기반으로 최소 글자를 사용하는 한글 폰트 생성 모델인 CKFont 모델을 제안한다. CKFont 모델은 GAN을 사용하는 한글 자동 생성 모델로, 28개의 글자와 초/중/종성 구성요소를 이용하여 다양한 스타일의 모든 한글을 생성할 수 있다. 구성요소로부터 로컬 스타일 정보를 획득함으로써, 글로벌 정보 획득보다 정확하고 정보 손실을 줄일 수 있다. 실험 결과 스타일을 자연스럽게 변환되지 못하는 경우를 감소시키고 폰트의 품질이 향상되었다. 한글 폰트를 생성하는 다른 모델들과 비교하여, 본 연구에서 제안하는 CKFont는 최소 글자를 사용하는 모델로, 모델의 구조가 간결하여 폰트를 생성하는 시간과 자원이 절약되는 효율적인 모델이다. 구성요소를 이용하는 방법은 다른 언어 폰트의 변환은 물론 다양한 이미지 변환과 합성에도 사용될 수 있다.

프롬프트 기반 퓨샷 러닝을 통한 한국어 대화형 텍스트 기반 이미지 생성 (Image Generation from Korean Dialogue Text via Prompt-based Few-shot Learning)

  • 이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.447-451
    • /
    • 2022
  • 본 논문에서는 사용자가 대화 텍스트 방식의 입력을 주었을 때 이를 키워드 중심으로 변환하여 이미지를 생성해내는 방식을 제안한다. 대화 텍스트란 채팅 등에서 주로 사용하는 형식의 구어체를 말하며 이러한 텍스트 형식은 텍스트 기반 이미지 생성 모델이 적절한 아웃풋 이미지를 생성하기 어렵게 만든다. 이를 해결하기 위해 대화 텍스트를 키워드 중심 텍스트로 바꾸어 텍스트 기반 이미지 생성 모델의 입력으로 변환하는 과정이 이미지 생성의 질을 높이는 좋은 방안이 될 수 있는데 이러한 태스크에 적합한 학습 데이터는 충분하지 않다. 본 논문에서는 이러한 문제를 다루기 위한 하나의 방안으로 사전학습된 초대형 언어모델인 KoGPT 모델을 활용하며, 퓨샷 러닝을 통해 적은 양의 직접 제작한 데이터만을 학습시켜 대화 텍스트 기반의 이미지 생성을 구현하는 방법을 제안한다.

  • PDF

Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화 (Query Normalization Using P-tuning of Large Pre-trained Language Model)

  • 서수빈;인수교;박진성;남경민;김현욱;문기윤;황원요;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.396-401
    • /
    • 2021
  • 초거대 언어모델를 활용한 퓨샷(few shot) 학습법은 여러 자연어 처리 문제에서 좋은 성능을 보였다. 하지만 데이터를 활용한 추가 학습으로 문제를 추론하는 것이 아니라, 이산적인 공간에서 퓨샷 구성을 통해 문제를 정의하는 방식은 성능 향상에 한계가 존재한다. 이를 해결하기 위해 초거대 언어모델의 모수 전체가 아닌 일부를 추가 학습하거나 다른 신경망을 덧붙여 연속적인 공간에서 추론하는 P-tuning과 같은 데이터 기반 추가 학습 방법들이 등장하였다. 본 논문에서는 문맥에 따른 질의 정규화 문제를 대화형 음성 검색 서비스에 맞게 직접 정의하였고, 초거대 언어모델을 P-tuning으로 추가 학습한 경우 퓨샷 학습법 대비 정확도가 상승함을 보였다.

  • PDF

로봇 팔을 활용한 정리작업을 위한 물체 자세추정 및 이미지 매칭 (Pose Estimation and Image Matching for Tidy-up Task using a Robot Arm)

  • 박정란;조현준;송재복
    • 로봇학회논문지
    • /
    • 제16권4호
    • /
    • pp.299-305
    • /
    • 2021
  • In this study, the task of robotic tidy-up is to clean the current environment up exactly like a target image. To perform a tidy-up task using a robot, it is necessary to estimate the pose of various objects and to classify the objects. Pose estimation requires the CAD model of an object, but these models of most objects in daily life are not available. Therefore, this study proposes an algorithm that uses point cloud and PCA to estimate the pose of objects without the help of CAD models in cluttered environments. In addition, objects are usually detected using a deep learning-based object detection. However, this method has a limitation in that only the learned objects can be recognized, and it may take a long time to learn. This study proposes an image matching based on few-shot learning and Siamese network. It was shown from experiments that the proposed method can be effectively applied to the robotic tidy-up system, which showed a success rate of 85% in the tidy-up task.

제품 결함 탐지에서 데이터 부족 문제를 극복하기 위한 샴 신경망의 활용 (Siamese Neural Networks to Overcome the Insufficient Data Problems in Product Defect Detection)

  • 신강현;진교홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.108-111
    • /
    • 2022
  • 제품의 결함 탐지를 위한 머신 비전 시스템에 딥러닝을 적용하기 위해서는 다양한 결함 사례에 대한 방대한 학습 데이터가 필요하다. 하지만 실제 제조 산업에서는 결함의 종류에 따른 데이터 불균형이 생기기 때문에 결함 사례를 일반화할 수 있을 만큼의 제품 이미지를 수집하기 위해서는 많은 시간이 소요된다. 본 논문에서는 적은 데이터로도 학습이 가능한 샴 신경망을 제품 결함 탐지에 적용하고, 제품 결함 이미지 데이터의 속성을 고려하여 이미지 쌍 구성법과 대조 손실 함수를 수정하였다. AUC-ROC로 샴 신경망의 임베딩 성능을 간접적으로 확인한 결과, 같은 제품끼리만 쌍을 구성하고 결함이 있는 제품 간에는 쌍을 구성하였을 때, 그리고 지수 대조 손실로 학습하였을 때 좋은 임베딩 성능을 보였다.

  • PDF

Multiple-Shot Person Re-identification by Features Learned from Third-party Image Sets

  • Zhao, Yanna;Wang, Lei;Zhao, Xu;Liu, Yuncai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.775-792
    • /
    • 2015
  • Person re-identification is an important and challenging task in computer vision with numerous real world applications. Despite significant progress has been made in the past few years, person re-identification remains an unsolved problem. This paper presents a novel appearance-based approach to person re-identification. The approach exploits region covariance matrix and color histograms to capture the statistical properties and chromatic information of each object. Robustness against low resolution, viewpoint changes and pose variations is achieved by a novel signature, that is, the combination of Log Covariance Matrix feature and HSV histogram (LCMH). In order to further improve re-identification performance, third-party image sets are utilized as a common reference to sufficiently represent any image set with the same type. Distinctive and reliable features for a given image set are extracted through decision boundary between the specific set and a third-party image set supervised by max-margin criteria. This method enables the usage of an existing dataset to represent new image data without time-consuming data collection and annotation. Comparisons with state-of-the-art methods carried out on benchmark datasets demonstrate promising performance of our method.

Few-Shot Image Synthesis using Noise-Based Deep Conditional Generative Adversarial Nets

  • Msiska, Finlyson Mwadambo;Hassan, Ammar Ul;Choi, Jaeyoung;Yoo, Jaewon
    • 스마트미디어저널
    • /
    • 제10권1호
    • /
    • pp.79-87
    • /
    • 2021
  • In recent years research on automatic font generation with machine learning mainly focus on using transformation-based methods, in comparison, generative model-based methods of font generation have received less attention. Transformation-based methods learn a mapping of the transformations from an existing input to a target. This makes them ambiguous because in some cases a single input reference may correspond to multiple possible outputs. In this work, we focus on font generation using the generative model-based methods which learn the buildup of the characters from noise-to-image. We propose a novel way to train a conditional generative deep neural model so that we can achieve font style control on the generated font images. Our research demonstrates how to generate new font images conditioned on both character class labels and character style labels when using the generative model-based methods. We achieve this by introducing a modified generator network which is given inputs noise, character class, and style, which help us to calculate losses separately for the character class labels and character style labels. We show that adding the character style vector on top of the character class vector separately gives the model rich information about the font and enables us to explicitly specify not only the character class but also the character style that we want the model to generate.

개인정보 특화 개체명 주석 대화 데이터셋 기반 생성AI 활용 개체명 탐지 (Named Entity Detection Using Generative Al for Personal Information-Specific Named Entity Annotation Conversation Dataset)

  • 강예지;비립;장연지;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.499-504
    • /
    • 2023
  • 본 연구에서는 민감한 개인정보의 유출과 남용 위험이 높아지고 있는 상황에서 정확한 개인정보 탐지 및 비식별화의 효율을 높이기 위해 개인정보 항목에 특화된 개체명 체계를 개발하였다. 개인정보 태그셋이 주석된 대화 데이터 4,981세트를 구축하고, 생성 AI 모델을 활용하여 개인정보 개체명 탐지 실험을 수행하였다. 실험을 위해 최적의 프롬프트를 설계하여 퓨샷러닝(few-shot learning)을 통해 탐지 결과를 평가하였다. 구축한 데이터셋과 영어 기반의 개인정보 주석 데이터셋을 비교 분석한 결과 고유식별번호 항목에 대해 본 연구에서 구축한 데이터셋에서 더 높은 탐지 성능이 나타났으며, 이를 통해 데이터셋의 필요성과 우수성을 입증하였다.

  • PDF

온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드 인식을 위한 딥러닝 훈련 데이터 자동 생성 방안 (The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce)

  • 김기태;오원석;임근원;차은우;신민영;김종우
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.1-23
    • /
    • 2018
  • E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수 있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 '훈련 데이터 자동 생성 프로그램'을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된 훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련 데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성 프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.

히스토그램의 최적폭에 기반한 3차원 필름 영상의 분류 (3D Film Image Classification Based on Optimized Range of Histogram)

  • 이재은;김영봉;김종남
    • 융합신호처리학회논문지
    • /
    • 제22권2호
    • /
    • pp.71-78
    • /
    • 2021
  • 영상의 군집 속에서 특정 영상을 분류하기 위해서는 주로 목표 영상과 배경의 명암 차이를 구하는데 만약 특정 영상의 윤곽선이 흐리고 선명도가 낮다면 이를 분류하기가 쉽지 않다. 하지만 이러한 영상을 분류하기 위한 연구들이 많지 않으며, 지금까지 발표된 방법들을 적용하더라도 제대로 구분하지 못한다는 어려움이 있다. 본 논문에서는 각 3차원 필름 영상들의 히스토그램을 구한 후, 히스토그램의 최고 빈도를 기준으로 특정 빈도에서의 폭을 구하여 윤곽선이 흐린 불량패턴의 영상을 분류하는 방법을 제안한다. 실험을 통하여 정품 패턴과 불량 패턴 영상의 히스토그램 분포의 차이가 뚜렷하다는 것을 확인할 수 있었으며, 이러한 히스토그램의 특성을 반영한 제안 알고리즘을 통하여 모든 영상들을 정확하게 분류할 수 있다는 것을 보였다. 제안한 알고리즘의 성능을 평가하기 위하여 이진화, 히스토그램, 가장자리 검출을 이용한 각각의 유사도 검정들과 퓨샷 러닝의 분석 결과를 비교분석 하였으며, 실험을 통하여 제안한 알고리즘은 앞선 네 가지 방법들보다 복잡한 계산 없이 높은 성능을 낼 수 있다는 것을 검증하였다.