• Title/Summary/Keyword: 학습데이터 생성

Search Result 1,296, Processing Time 0.028 seconds

Automatic Generation of Training Corpus for a Sentiment Analysis Using a Generative Adversarial Network (생성적 적대 네트워크를 이용한 감성인식 학습데이터 자동 생성)

  • Park, Cheon-Young;Choi, Yong-Seok;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.389-393
    • /
    • 2018
  • 딥러닝의 발달로 기계번역, 대화 시스템 등의 자연언어처리 분야가 크게 발전하였다. 딥러닝 모델의 성능을 향상시키기 위해서는 많은 데이터가 필요하다. 그러나 많은 데이터를 수집하기 위해서는 많은 시간과 노력이 소요된다. 본 연구에서는 이미지 생성 모델로 좋은 성능을 보이고 있는 생성적 적대 네트워크(Generative adverasarial network)를 문장 생성에 적용해본다. 본 연구에서는 긍/부정 조건에 따른 문장을 자동 생성하기 위해 SeqGAN 모델을 수정하여 사용한다. 그리고 분류기를 포함한 SeqGAN이 긍/부정 감성인식 학습데이터를 자동 생성할 수 있는지 실험한다. 실험을 수행한 결과, 분류기를 포함한 SeqGAN 모델이 생성한 문장과 학습데이터를 혼용하여 학습할 경우 실제 학습데이터만 학습 시킨 경우보다 좋은 정확도를 보였다.

  • PDF

Learning data production technique for visual optimization of generative models (생성모델의 시각적 최적화를 위한 학습데이터 제작기법)

  • Cho, Hyeongrae;Park, Gooman
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.13-14
    • /
    • 2021
  • 본 논문은 생성모델의 학습데이터 제작기법에 대한 실험 및 결과와 향후 관련 연구의 방향을 기술한다. GAN으로 대표되는 생성모델이 아티스트에게 얼마만큼의 만족도와 영감을 주는지를 비교 실험 및 평가하기 위해서는 정제된 학습데이터가 필요하다. 하지만 현실적으로 아티스트의 작품은 데이터 세트를 만들기에는 그 수가 적고 인공지능이 학습하기에도 정제되어있지 않다. 2차 가공작업을 통하여 아티스트의 원본 작업과 유사한 데이터 세트의 구축은 생성모델의 성능향상을 위해 매우 중요하다. 연구의 결과 생성모델이 표현하기 어려운 스타일의 작가 작품을 선정한 뒤 최적의 학습데이터를 만들기 위한 다양한 실험과 기법을 통해 구축한 데이터 세트를 생성모델 알고리즘에 적용하고 실험을 통해 창작자의 작품제작 의도인 작가 진술에 최대한 유사한 이미지의 생성과 더 나아가 작가가 생각하지 못했던 창조적 모방의 결과물을 도출하였고 작가평가를 통해 높은 만족도를 얻었다.

  • PDF

Generating Training Dataset of Machine Learning Model for Context-Awareness in a Health Status Notification Service (사용자 건강 상태알림 서비스의 상황인지를 위한 기계학습 모델의 학습 데이터 생성 방법)

  • Mun, Jong Hyeok;Choi, Jong Sun;Choi, Jae Young
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.1
    • /
    • pp.25-32
    • /
    • 2020
  • In the context-aware system, rule-based AI technology has been used in the abstraction process for getting context information. However, the rules are complicated by the diversification of user requirements for the service and also data usage is increased. Therefore, there are some technical limitations to maintain rule-based models and to process unstructured data. To overcome these limitations, many studies have applied machine learning techniques to Context-aware systems. In order to utilize this machine learning-based model in the context-aware system, a management process of periodically injecting training data is required. In the previous study on the machine learning based context awareness system, a series of management processes such as the generation and provision of learning data for operating several machine learning models were considered, but the method was limited to the applied system. In this paper, we propose a training data generating method of a machine learning model to extend the machine learning based context-aware system. The proposed method define the training data generating model that can reflect the requirements of the machine learning models and generate the training data for each machine learning model. In the experiment, the training data generating model is defined based on the training data generating schema of the cardiac status analysis model for older in health status notification service, and the training data is generated by applying the model defined in the real environment of the software. In addition, it shows the process of comparing the accuracy by learning the training data generated in the machine learning model, and applied to verify the validity of the generated learning data.

Outlier Analysis of Learner's Learning Behaviors Data using k-NN Method (k-NN 기법을 이용한 학습자의 학습 행위 데이터의 이상치 분석)

  • Yoon, Tae-Bok;Jung, Young-Mo;Lee, Jee-Hyong;Cha, Hyun-Jin;Park, Seon-Hee;Kim, Yong-Se
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.524-529
    • /
    • 2007
  • 지능형 학습 시스템은 학습자의 학습 과정에서 수집된 데이터를 분석하여 학습자에게 맞는 전략을 세우고 적합한 서비스를 제공하는 시스템이다. 학습자에게 적합한 서비스를 위해서는 학습자 모델링 작업이 우선시 되며, 이 모델 생성을 위해서 학습자의 학습 과정에서 발생한 데이터를 수집하고 분석하게 된다. 하지만, 수집된 데이터가 학습자의 일관되지 못한 행위나 비예측 학습 성향을 포함하고 있다면, 생성된 모델을 신뢰하기 어렵다. 본 논문에서는 학습자에게서 수집된 데이터를 거리기반 이상치 선별 방법인 k-NN을 이용하여 이상치를 선별한다. 실험에서는 홈 인테리어 컨텐츠 기반에 학습자의 학습 행위에 대한 학습 성향을 진단하기 위한 DOLLS-HI를 이용하여, 수집된 학습자의 데이터에서 이상치를 분류하고 학습 성향 진단을 위한 모델을 생성하였다. 생성된 모델은 이상치 분류전과 비교하여 신뢰가 향상된 것을 확인하였다.

  • PDF

Continual Learning with Mimicking Human Memory System For Multi-domain Response Generator (다중 도메인 답변 생성 모델을 위한 인간의 기억 시스템을 모방하는 지속 학습 기법)

  • Lee, Jun-Beom;Park, Hyeong-Jun;Song, Hyun-Je;Park, Seong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.215-220
    • /
    • 2021
  • 다중 도메인에 대해 답변 생성 모델이 동작 가능하도록 하는 가장 쉬운 방법은 모든 도메인의 데이터를 순서와 상관없이 한번에 학습하는 것이다. 하지만 이경우, 발화에 상관 없이 지나치게 일반적인 답변을 생성하는 문제가 발생한다. 이에 반해, 도메인을 분리하여 도메인을 순차적으로 학습할 경우 일반적인 답변 생성 문제를 해결할 수 있다. 하지만 이경우 새로운 도메인의 데이터를 학습할 때, 기존에 학습한 도메인에 대한 성능이 저하되는 파괴적 망각 현상이 발생한다. 파괴적 망각 현상을 해결하기 위하여 다양한 지속학습기법이 제안되었으며, 그 중 메모리 리플레이 방법은 새로운 도메인 학습시 기존 도메인의 데이터를 함께 학습하는 방법으로 파괴적 망각 현상을 해결하고자 하였다. 본 논문에서는, 사람의 기억 시스템에 대한 모형인 앳킨슨-쉬프린 기억 모형에서 착안하여 사람이 기억을 저장하는것과 유사한 방법으로 메모리 리플레이 방법의 메모리 관리방법을 제안하였고, 해당 메모리 관리법을 활용하는 메모리 리플레이 방법을 통해 답변 생성 모델의 파괴적 망각 현상을 줄이고자 하였다. 다중 도메인 답변 생성에 대한 데이터셋인 MultiWoZ-2.0를 사용하여 제안 모델을 학습 및 평가하였고, 제안 모델이 다중 도메인 답변 생성 모델의 파괴적 망각 현상을 감소시킴을 확인하였다.

  • PDF

RNN Based Natural Language Sentence Generation from a Knowledge Graph and Keyword Sequence (핵심어 시퀀스와 지식 그래프를 이용한 RNN 기반 자연어 문장 생성)

  • Kwon, Sunggoo;Noh, Yunseok;Choi, Su-Jeong;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.425-429
    • /
    • 2018
  • 지식 그래프는 많은 수의 개채와 이들 사이의 관계를 저장하고 있기 때문에 많은 연구에서 중요한 자원으로 활용된다. 최근에는 챗봇과 질의응답과 같은 연구에서 자연어 생성을 위한 연구에 활용되고 있다. 특히 자연어 생성에서 최근 발전 된 심층 신경망이 사용되고 있는데, 이러한 방식은 모델 학습을 위한 많은 양의 데이터가 필요하다. 즉, 심층신경망을 기반으로 지식 그래프에서 문장을 생성하기 위해서는 많은 트리플과 문장 쌍 데이터가 필요하지만 학습을 위해 사용하기엔 데이터가 부족하다는 문제가 있다. 따라서 본 논문에서는 데이터 부족 문제를 해결하기 위해 핵심어 시퀀스를 추출하여 학습하는 방법을 제안하고, 학습된 모델을 통해 트리플을 입력으로 하여 자연어 문장을 생성한다. 부족한 트리플과 문장 쌍 데이터를 대체하기 위해 핵심어 시퀀스를 추출하는 모듈을 사용해 핵심어 시퀀스와 문장 쌍 데이터를 생성하였고, 순환 신경망 기반의 인코더 - 디코더 모델을 사용해 자연어 문장을 생성하였다. 실험 결과, 핵심어 시퀀스와 문장 쌍 데이터를 이용해 학습된 모델을 이용해 트리플에서 자연어 문장 생성이 원활히 가능하며, 부족한 트리플과 문장 쌍 데이터를 대체하는데 효과적임을 밝혔다.

  • PDF

GAN using Frequency Domain (주파수 영역을 활용한 GAN)

  • Chae-Eun Lee;Sung Hoon Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.567-569
    • /
    • 2023
  • GAN은 이미지 생성모델로서 이미지 공간에서 좋은 결과를 보여왔다. 우리는 이러한 GAN의 능력을 더욱 향상하기 위하여 본 연구에서 주파수 영역에서 이미지를 학습하고 생성하는 새로운 방법을 제안한다. 이를 위하여 먼저 학습데이터를 2D FFT로 주파수 영역으로 변환한 후 변환된 학습데이터를 GAN이 학습하게 한다. 학습 후에 GAN은 새로운 이미지를 생성하며 생성된 이미지를 2D IFFT하여 이미지 공간으로 변환한다. 이렇게 주파수 영역에서 이미지를 생성하는 방법은 이미지 공간에서 생성하는 방법보다 다양한 장점이 있다. 생성된 이미지의 품질을 평가하기 위하여 4개 데이터 셋에 4개의 평가지표를 사용하여 평가한 결과 주파수 영역에서 생성한 이미지가 IS, P&R, D&C 측면에서 더 좋은 것으로 평가되었다.

Transfer Learning-based Generated Synthetic Images Identification Model (전이 학습 기반의 생성 이미지 판별 모델 설계)

  • Chaewon Kim;Sungyeon Yoon;Myeongeun Han;Minseo Park
    • The Journal of the Convergence on Culture Technology
    • /
    • v.10 no.2
    • /
    • pp.465-470
    • /
    • 2024
  • The advancement of AI-based image generation technology has resulted in the creation of various images, emphasizing the need for technology capable of accurately discerning them. The amount of generated image data is limited, and to achieve high performance with a limited dataset, this study proposes a model for discriminating generated images using transfer learning. Applying pre-trained models from the ImageNet dataset directly to the CIFAKE input dataset, we reduce training time cost followed by adding three hidden layers and one output layer to fine-tune the model. The modeling results revealed an improvement in the performance of the model when adjusting the final layer. Using transfer learning and then adjusting layers close to the output layer, small image data-related accuracy issues can be reduced and generated images can be classified.

Virtual Data Generation Method based on Simulation to Improve Accuracy of Computer Vision (컴퓨터 비전 정확도 향상을 위한 시뮬레이션 기반 가상 데이터 생성기법)

  • Kang, Ji-Su;Choi, Chang-Beom;Jang, Han-Eol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.390-392
    • /
    • 2022
  • 기계학습 분야에서 모델을 학습시키려면 많은 양의 데이터가 필요하다. 최근에는 컴퓨터 비전 분야에서 데이터가 적은 환경에서 모델을 학습하는 다양한 방법들이 소개되고 있다. 하지만 대부분의 방법을 사용하기 위해서는 어느 정도 최소한의 학습 데이터가 필요하기 때문에 극심하게 데이터가 부족한 환경에서는 사용하기 어렵다. 본 논문에서는 컴퓨터 비전 분야에서 기계학습을 사용할 때 극심하게 데이터가 부족한 환경에서 시뮬레이션 도구를 활용한 인조 데이터 생성 방법을 제안한다. 실험 결과를 통해 시뮬레이션 도구를 활용하여 생성한 인조 데이터로 학습한 모델이 실제 데이터만을 학습한 모델을 대체할 수 있음을 확인하였고, F-1 점수와 정확도가 향상함을 실험적으로 확인하였다.

Multitask Transformer Model-based Fintech Customer Service Chatbot NLU System with DECO-LGG SSP-based Data (DECO-LGG 반자동 증강 학습데이터 활용 멀티태스크 트랜스포머 모델 기반 핀테크 CS 챗봇 NLU 시스템)

  • Yoo, Gwang-Hoon;Hwang, Chang-Hoe;Yoon, Jeong-Woo;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.461-466
    • /
    • 2021
  • 본 연구에서는 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph)에 기반한 반자동 언어데이터 증강(Semi-automatic Symbolic Propagation: SSP) 방식에 입각하여, 핀테크 분야의 CS(Customer Service) 챗봇 NLU(Natural Language Understanding)을 위한 주석 학습 데이터를 효과적으로 생성하고, 이를 기반으로 RASA 오픈 소스에서 제공하는 DIET(Dual Intent and Entity Transformer) 아키텍처를 활용하여 핀테크 CS 챗봇 NLU 시스템을 구현하였다. 실 데이터을 통해 확인된 핀테크 분야의 32가지의 토픽 유형 및 38가지의 핵심 이벤트와 10가지 담화소 구성에 따라, DECO-LGG 데이터 생성 모듈은 질의 및 불만 화행에 대한 양질의 주석 학습 데이터를 효과적으로 생성하며, 이를 의도 분류 및 Slot-filling을 위한 개체명 인식을 종합적으로 처리하는 End to End 방식의 멀티태스크 트랜스포머 모델 DIET로 학습함으로써 DIET-only F1-score 0.931(Intent)/0.865(Slot/Entity), DIET+KoBERT F1-score 0.951(Intent)/0.901(Slot/Entity)의 성능을 확인하였으며, DECO-LGG 기반의 SSP 생성 데이터의 학습 데이터로서의 효과성과 함께 KoBERT에 기반한 DIET 모델 성능의 우수성을 입증하였다.

  • PDF