• Title/Summary/Keyword: 학습데이터

Search Result 6,219, Processing Time 0.058 seconds

An Auto-Labeling based Smart Image Annotation System (자동-레이블링 기반 영상 학습데이터 제작 시스템)

  • Lee, Ryong;Jang, Rae-young;Park, Min-woo;Lee, Gunwoo;Choi, Myung-Seok
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.6
    • /
    • pp.701-715
    • /
    • 2021
  • The drastic advance of recent deep learning technologies is heavily dependent on training datasets which are essential to train models by themselves with less human efforts. In comparison with the work to design deep learning models, preparing datasets is a long haul; at the moment, in the domain of vision intelligent, datasets are still being made by handwork requiring a lot of time and efforts, where workers need to directly make labels on each image usually with GUI-based labeling tools. In this paper, we overview the current status of vision datasets focusing on what datasets are being shared and how they are prepared with various labeling tools. Particularly, in order to relieve the repetitive and tiring labeling work, we present an interactive smart image annotating system with which the annotation work can be transformed from the direct human-only manual labeling to a correction-after-checking by means of a support of automatic labeling. In an experiment, we show that automatic labeling can greatly improve the productivity of datasets especially reducing time and efforts to specify regions of objects found in images. Finally, we discuss critical issues that we faced in the experiment to our annotation system and describe future work to raise the productivity of image datasets creation for accelerating AI technology.

KMSVOD: Support Vector Data Description using K-means Clustering (KMSVDD: K-means Clustering을 이용한 Support Vector Data Description)

  • Kim, Pyo-Jae;Chang, Hyung-Jin;Song, Dong-Sung;Choi, Jin-Young
    • Proceedings of the KIEE Conference
    • /
    • 2006.04a
    • /
    • pp.90-92
    • /
    • 2006
  • 기존의 Support Vector Data Description (SVDD) 방법은 학습 데이터의 개수가 증가함에 따라 학습 시간이 지수 함수적으로 증가하므로, 대량의 데이터를 학습하는 데에는 한계가 있었다. 본 논문에서는 학습 속도를 빠르게 하기 위해 K-means clustering 알고리즘을 이용하는 SVDD 알고리즘을 제안하고자 한다. 제안된 알고리즘은 기존의 decomposition 방법과 유사하게 K-means clustering 알고리즘을 이용하여 학습 데이터 영역을 sub-grouping한 후 각각의 sub-group들을 개별적으로 학습함으로써 계산량 감소 효과를 얻는다. 이러한 sub-grouping 과정은 hypersphere를 이용하여 학습 데이터를 둘러싸는 SVDD의 학습 특성을 훼손시키지 않으면서 중심점으로 모여진 작은 영역의 학습 데이터를 학습하도록 함으로써, 기존의 SVDD와 비교하여 학습 정확도의 차이 없이 빠른 학습을 가능하게 한다. 다양한 데이터들을 이용한 모의실험을 통하여 그 효과를 검증하도록 한다.

  • PDF

Utility Analysis of Federated Learning Techniques through Comparison of Financial Data Performance (금융데이터의 성능 비교를 통한 연합학습 기법의 효용성 분석)

  • Jang, Jinhyeok;An, Yoonsoo;Choi, Daeseon
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.32 no.2
    • /
    • pp.405-416
    • /
    • 2022
  • Current AI technology is improving the quality of life by using machine learning based on data. When using machine learning, transmitting distributed data and collecting it in one place goes through a de-identification process because there is a risk of privacy infringement. De-identification data causes information damage and omission, which degrades the performance of the machine learning process and complicates the preprocessing process. Accordingly, Google announced joint learning in 2016, a method of de-identifying data and learning without the process of collecting data into one server. This paper analyzed the effectiveness by comparing the difference between the learning performance of data that went through the de-identification process of K anonymity and differential privacy reproduction data using actual financial data. As a result of the experiment, the accuracy of original data learning was 79% for k=2, 76% for k=5, 52% for k=7, 50% for 𝜖=1, and 82% for 𝜖=0.1, and 86% for Federated learning.

Data preprocessing for efficient machine learning (효율적인 기계학습을 위한 데이터 전처리)

  • Kim, Dong-Hyun;Yoo, Seung-Eon;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.49-50
    • /
    • 2019
  • 데이터를 기반으로 한 기계학습은 데이터의 양, 학습 모델, 그리고 데이터의 특징 등 다양한 환경에 민감한 특징을 지니고 있어, 보다 효율적인 기계학습을 위해 데이터의 전처리 과정을 필요로 한다. 데이터의 전처리 과정이란 특징 선택(Feature selection), 노이즈 데이터의 제거, 차원 감소(Demension reduction), 클러스터링(Clustering) 등 보다 효율적인 기계학습을 위한 방법이다. 따라서 본 논문에서는 다양한 환경에서 보다 효율적인 기계학습을 위한 데이터 전처리 기술의 종류 및 간단한 특징에 대해 서술한다.

  • PDF

Virtual Data Generation Method based on Simulation to Improve Accuracy of Computer Vision (컴퓨터 비전 정확도 향상을 위한 시뮬레이션 기반 가상 데이터 생성기법)

  • Kang, Ji-Su;Choi, Chang-Beom;Jang, Han-Eol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.390-392
    • /
    • 2022
  • 기계학습 분야에서 모델을 학습시키려면 많은 양의 데이터가 필요하다. 최근에는 컴퓨터 비전 분야에서 데이터가 적은 환경에서 모델을 학습하는 다양한 방법들이 소개되고 있다. 하지만 대부분의 방법을 사용하기 위해서는 어느 정도 최소한의 학습 데이터가 필요하기 때문에 극심하게 데이터가 부족한 환경에서는 사용하기 어렵다. 본 논문에서는 컴퓨터 비전 분야에서 기계학습을 사용할 때 극심하게 데이터가 부족한 환경에서 시뮬레이션 도구를 활용한 인조 데이터 생성 방법을 제안한다. 실험 결과를 통해 시뮬레이션 도구를 활용하여 생성한 인조 데이터로 학습한 모델이 실제 데이터만을 학습한 모델을 대체할 수 있음을 확인하였고, F-1 점수와 정확도가 향상함을 실험적으로 확인하였다.

Management of Learning Metadata based on RDF (RDF 기반의 학습 메타데이터 관리)

  • Lee Young-Seok;Seo Young-Bae;Park Jung-Hwan;Kim Su-Min;Choi Byung-Uk;Cho Jung-Won
    • The KIPS Transactions:PartA
    • /
    • v.13A no.1 s.98
    • /
    • pp.87-94
    • /
    • 2006
  • Internet makes it possible to access anytime, anywhere learning and so many LMS(Learning Management Systems) serve web based learning. But LMS has not flexible and qualified metadata to offer customired teaming. So we need extensible and flexible techniques which make if possible to define and share advanced teaming metadata. This paper presents an approach for implementing advanced learning metadata in LMS using RDF and the Semantic Web language. So we will first sketch the learning scenario in Semantic Web environment and structure of metadata management. Next we suggest two types of RDF authoring tool and search RDF documents. Advanced metadata management techniques enables the organization of learning materials around small pieces of semantically annotated learning objects. With these metadata learner can customize learning courses, improve retrieval performances.

Improvement of Learner's learning Style Diagnosis System using Visualization Method (시각화 방법을 이용한 학습자의 학습 성향 진단 시스템의 개선)

  • Yoon, Tae-Bok;Choi, Mi-Ae;Lee, Jee-Hyong;Kim, Yong-Se
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.3
    • /
    • pp.226-230
    • /
    • 2009
  • Intelligent Tutoring System (ITS) is a procedure of analyzing collected data for teaming, making a strategy and performing adequate service for learners. To perform suitable service for learners, modeling is the first step to collect data from the process of their learning. The model, however, cannot be authentic if collected data can contain learners' inconsistent behaviors or unpredictable learning inclination. This study focused on how to sort normal and abnormal data by analyzing collected data from learners through visualization. A model has been set up to assort unusual data from collected learner's data by using DOLLS-HI which makes possible to diagnose learner's learning propensity based on housing interior learning contents in the experiment. The created model has been confirmed its improved reliability comparing to previous one.

Performance Improvement of Regression Neural Networks by Using PCA (PCA 기법에 의한 회귀분석 신경망의 성능개선)

  • 조용현;박용수
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.116-119
    • /
    • 2001
  • 본 논문에서는 주요성분분석 기법을 도입하여 회귀분석을 위한 신경망의 성능 개선방안을 제안하였다. 이는 대용량의 입력 데이터를 통계적으로 독립인 특징들의 집합으로 변환시키는 주요성분분석 기법의 속성을 살려 학습데이터의 타원을 감소시킴으로서 고차원의 학습데이터에 따른 신경망의 학습성능 의존성을 줄이기 위함이다. 제안된 기법의 신경망을 10개의 독립변수 패턴을 가진 자동차 연비문제에 적용하여 시뮬레이션한 결과, 기존의 학습데이터를 그대로 이용하는 신경 망보다 우수한 학습성능과 회귀성능이 있음을 확인할 수 있었다.

  • PDF

KcBERT: Korean comments BERT (KcBERT: 한국어 댓글로 학습한 BERT)

  • Lee, Junbum
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

Learning Achievement Prediction Model based on Deep Learning (딥러닝 기반의 학습 성취 예측 모델)

  • Lee, Myung-Suk;Pak, Ju-Geon;Lee, Joo-Hwa
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.245-247
    • /
    • 2021
  • 최근 코로나 19로 인하여 온라인 강의가 증가하고 있으며 이를 활용한 학습 분석에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 학습 분석 중 학습 결과에 영향을 미칠 수 있는 학습 활동 데이터를 수집하여 학습 결과를 예측하는 모델을 설계하고자 한다. 예측 모델은 기계학습을 이용하며 이전 학기의 학습 결과 데이터를 학습시켜 학습 결과에 영향을 미치는 학습 활동 데이터를 도출한다. 도출된 데이터를 이용하여 차후 학습자의 학습 결과를 예측한다. 학습 결과를 예측하기 위한 모델로 딥러닝의 DNN을 활용한다. 향후 연구로는 예측한 결과를 바탕으로 학습자의 학습 동기 부여와 학습 지도 방향을 정하는 것이다.

  • PDF