• Title/Summary/Keyword: 학습 데이터

Search Result 6,364, Processing Time 0.03 seconds

Transfer Learning-based Generated Synthetic Images Identification Model (전이 학습 기반의 생성 이미지 판별 모델 설계)

  • Chaewon Kim;Sungyeon Yoon;Myeongeun Han;Minseo Park
    • The Journal of the Convergence on Culture Technology
    • /
    • v.10 no.2
    • /
    • pp.465-470
    • /
    • 2024
  • The advancement of AI-based image generation technology has resulted in the creation of various images, emphasizing the need for technology capable of accurately discerning them. The amount of generated image data is limited, and to achieve high performance with a limited dataset, this study proposes a model for discriminating generated images using transfer learning. Applying pre-trained models from the ImageNet dataset directly to the CIFAKE input dataset, we reduce training time cost followed by adding three hidden layers and one output layer to fine-tune the model. The modeling results revealed an improvement in the performance of the model when adjusting the final layer. Using transfer learning and then adjusting layers close to the output layer, small image data-related accuracy issues can be reduced and generated images can be classified.

A Model for Constructing Learner Data in AI-based Mathematical Digital Textbooks for Individual Customized Learning (개별 맞춤형 학습을 위한 인공지능(AI) 기반 수학 디지털교과서의 학습자 데이터 구축 모델)

  • Lee, Hwayoung
    • Education of Primary School Mathematics
    • /
    • v.26 no.4
    • /
    • pp.333-348
    • /
    • 2023
  • Clear analysis and diagnosis of various characteristic factors of individual students is the most important in order to realize individual customized teaching and learning, which is considered the most essential function of math artificial intelligence-based digital textbooks. In this study, analysis factors and tools for individual customized learning diagnosis and construction models for data collection and analysis were derived from mathematical AI digital textbooks. To this end, according to the Ministry of Education's recent plan to apply AI digital textbooks, the demand for AI digital textbooks in mathematics, personalized learning and prior research on data for it, and factors for learner analysis in mathematics digital platforms were reviewed. As a result of the study, the researcher summarized the factors for learning analysis as factors for learning readiness, process and performance, achievement, weakness, and propensity analysis as factors for learning duration, problem solving time, concentration, math learning habits, and emotional analysis as factors for confidence, interest, anxiety, learning motivation, value perception, and attitude analysis as factors for learning analysis. In addition, the researcher proposed noon data on the problem, learning progress rate, screen recording data on student activities, event data, eye tracking device, and self-response questionnaires as data collection tools for these factors. Finally, a data collection model was proposed that time-series these factors before, during, and after learning.

Big Data Platform for Learning in Cloud Computing Environment (클라우드 컴퓨팅 환경에서의 학습용 빅 데이터 플랫폼 설계)

  • Kim, Jun Heon
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.63-64
    • /
    • 2017
  • 정보 기술의 끊임없는 발전에 따라 광범위한 분야에서 방대한 양의 데이터가 발생하게 되면서 이를 처리하기 위한 빅 데이터에 대한 연구 및 교육이 활발히 진행되고 있다. 이를 위하여 데이터 분석 및 처리를 위한 고성능의 서버 및 분산 처리를 위한 다수의 컴퓨터가 필요하며 이는, 개인 혹은 저사양의 수업 환경에서 빅 데이터를 학습하는 데에 어려움을 겪게 한다. 때문에 가상 환경에서 원활한 빅 데이터 학습을 위한 클라우드 기반의 시스템이 필요하다. 이에 본 논문에서는, 빅 데이터 처리 기술의 하나인 Spark를 이용한 빅 데이터 플랫폼 구축에 대하여 기술한다.

  • PDF

A Study on Ontology Generation by Machine Learning in Big Data (빅 데이터에서 기계학습을 통한 온톨로지 생성에 관한 연구)

  • Hwang, Chi-Gon;Yoon, Chang-Pyo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.10a
    • /
    • pp.645-646
    • /
    • 2018
  • Recently, the concept of machine learning has been introduced as a decision making method through data processing. Machine learning uses the results of running based on existing data as a means of decision making. The data generated by the development of technology is vast. This data is called big data. It is important to extract the necessary data from these data. In this paper, we propose a method for extracting related data for constructing an ontology through machine learning. The results of machine learning can be given a relationship from a semantic perspective. it can be added to the ontology to support relationships depending on the needs of the application.

  • PDF

Multitask Transformer Model-based Fintech Customer Service Chatbot NLU System with DECO-LGG SSP-based Data (DECO-LGG 반자동 증강 학습데이터 활용 멀티태스크 트랜스포머 모델 기반 핀테크 CS 챗봇 NLU 시스템)

  • Yoo, Gwang-Hoon;Hwang, Chang-Hoe;Yoon, Jeong-Woo;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.461-466
    • /
    • 2021
  • 본 연구에서는 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph)에 기반한 반자동 언어데이터 증강(Semi-automatic Symbolic Propagation: SSP) 방식에 입각하여, 핀테크 분야의 CS(Customer Service) 챗봇 NLU(Natural Language Understanding)을 위한 주석 학습 데이터를 효과적으로 생성하고, 이를 기반으로 RASA 오픈 소스에서 제공하는 DIET(Dual Intent and Entity Transformer) 아키텍처를 활용하여 핀테크 CS 챗봇 NLU 시스템을 구현하였다. 실 데이터을 통해 확인된 핀테크 분야의 32가지의 토픽 유형 및 38가지의 핵심 이벤트와 10가지 담화소 구성에 따라, DECO-LGG 데이터 생성 모듈은 질의 및 불만 화행에 대한 양질의 주석 학습 데이터를 효과적으로 생성하며, 이를 의도 분류 및 Slot-filling을 위한 개체명 인식을 종합적으로 처리하는 End to End 방식의 멀티태스크 트랜스포머 모델 DIET로 학습함으로써 DIET-only F1-score 0.931(Intent)/0.865(Slot/Entity), DIET+KoBERT F1-score 0.951(Intent)/0.901(Slot/Entity)의 성능을 확인하였으며, DECO-LGG 기반의 SSP 생성 데이터의 학습 데이터로서의 효과성과 함께 KoBERT에 기반한 DIET 모델 성능의 우수성을 입증하였다.

  • PDF

Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model (한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법)

  • Hoonrae Kim;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

An Automated Production System Design for Natural Language Processing Models Using Korean Pre-trained Model (한국어 사전학습 모델을 활용한 자연어 처리 모델 자동 산출 시스템 설계)

  • Jihyoung Jang;Hoyoon Choi;Gun-woo Lee;Myung-seok Choi;Charmgil Hong
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.613-618
    • /
    • 2022
  • 효과적인 자연어 처리를 위해 제안된 Transformer 구조의 등장 이후, 이를 활용한 대규모 언어 모델이자 사전학습 모델인 BERT, GPT, OPT 등이 공개되었고, 이들을 한국어에 보다 특화한 KoBERT, KoGPT 등의 사전학습 모델이 공개되었다. 자연어 처리 모델의 확보를 위한 학습 자원이 늘어나고 있지만, 사전학습 모델을 각종 응용작업에 적용하기 위해서는 데이터 준비, 코드 작성, 파인 튜닝 및 저장과 같은 복잡한 절차를 수행해야 하며, 이는 다수의 응용 사용자에게 여전히 도전적인 과정으로, 올바른 결과를 도출하는 것은 쉽지 않다. 이러한 어려움을 완화시키고, 다양한 기계 학습 모델을 사용자 데이터에 보다 쉽게 적용할 수 있도록 AutoML으로 통칭되는 자동 하이퍼파라미터 탐색, 모델 구조 탐색 등의 기법이 고안되고 있다. 본 연구에서는 한국어 사전학습 모델과 한국어 텍스트 데이터를 사용한 자연어 처리 모델 산출 과정을 정형화 및 절차화하여, 궁극적으로 목표로 하는 예측 모델을 자동으로 산출하는 시스템의 설계를 소개한다.

  • PDF

Learning model management platform based on hash function considering for integration from different timeseries data (서로 다른 시계열 데이터들간 통합 활용을 고려한 해시 함수 기반 학습 모델 관리 플랫폼)

  • Yu, Miseon;Moon, Jaewon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.45-48
    • /
    • 2022
  • IoT 기술의 발전 및 확산으로 다양한 도메인에서 서로 다른 특성의 시계열 데이터가 수집되고 있다. 이에 따라 단일 목적으로 수집된 시계열 데이터만 아니라, 다른 목적으로 수집된 시계열 데이터들 또한 통합하여 분석활용하려는 수요 또한 높아지고 있다. 본 논문은 파편화된 시계열 데이터들을 선택하여 통합한 후 딥러닝 모델을 생성하고 활용할 수 있는 해시함수 기반 학습 모델 관리 플랫폼을 설계하고 구현하였다. 특정되지 않은 데이터들을 기반하여 모델을 학습하고 활용할 경우 생성 모델이 개별적으로 어떤 데이터로 어떻게 생성되었는지 기술되어야 향후 활용에 용이하다. 특히 시계열 데이터의 경우 학습 데이터의 시간 정보에 의존적일 수밖에 없으므로 해당 정보의 관리도 필요하다. 본 논문에서는 이러한 문제를 해결하기 위해 해시 함수를 이용해서 생성된 모델을 계층적으로 저장하여 원하는 모델을 쉽게 검색하고 활용할 수 있도록 하였다.

  • PDF

Design of the Personalized Searching Navigator of Learning Contents Based on the Topic Maps (토픽맵 기반 개인별 학습 콘텐츠 탐색 네비게이터 구조 설계)

  • Jeung, Kyoung-Hui;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.23-26
    • /
    • 2006
  • 최근 대부분의 이러닝(E-Learning)을 교육하는 사이트는 학습 콘텐츠를 검색하는 방법이 단순한 리스트의 나열과 택스트 매칭(Text matching)방법을 사용하는 단점이 있다. 이를 보완하기 위해 좀 더 컴퓨터가 정보 데이터의 의미를 분석하여 검색이 가능하도록 개념 네트워크인 시맨틱웹(Semantic Web)이 등장하였다. 본 논문에서는 이러한 시맨틱웹의 온톨로지(Ontology) 언어 중에 토픽맵(Topic Maps)을 사용하여 많은 양의 학습 정보 데이터를 쉽고도 정확하게 연결 지어 학습 콘텐츠에 대한 정보를 표현하고, 구조화할 수 있는 방법을 모색해 보고자 한다. 학습자의 관심분야 정보, 학습객체의 학습 권장자의 정보와 함께 학습 경험과 검색 빈도수를 분석한 협력 필터링과 학습 에이전트의 개인화 기법을 동시에 사용하여 선호도를 분석한다. 이 선호도를 가지고 학습자의 메타데이터를 생성하고, 로그 데이터를 따로 데이터베이스에 저장한다. 이러한 학습자의 정보와 학습 콘텐츠간의 정보를 상호 연결하여, 그 토픽맵을 사용하여 연관관계를 정의해 줌으로써 학업성취도를 높이고, 학습자 개개인의 성향에 가장 알맞은 학습 콘텐츠를 탐색해가는 네비게이터(Navigator)를 설계하였다.

  • PDF

Continual Learning using Data Similarity (데이터 유사도를 이용한 지속적 학습방법)

  • Park, Seong-Hyeon;Kang, Seok-Hoon
    • Journal of IKEEE
    • /
    • v.24 no.2
    • /
    • pp.514-522
    • /
    • 2020
  • In Continuous Learning environment, we identify that the Catastrophic Forgetting phenomenon, which forgets the information of previously learned data, occurs easily between data having different domains. To control this phenomenon, we introduce how to measure the relationship between previously learned data and newly learned data through the distribution of the neural network's output, and how to use these measurements to mitigate the Catastrophic Forcing phenomenon. MNIST and EMNIST data were used for evaluation, and experiments showed an average 22.37% improvement in accuracy for previous data.