• Title/Summary/Keyword: 원본 학습 데이터

Search Result 84, Processing Time 0.027 seconds

Synthetic Data Generation and Performance Analysis for Anomaly Detection (이상 탐지를 위한 합성 데이터 생성 및 성능 분석)

  • Hwang, Ju-hyo;Jin, Kyo-hong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.19-21
    • /
    • 2022
  • Anomaly detection using self-supervised learning typically generates synthetic data to learn to classify normal and abnormal, and uses real abnormal data as test data to measure anomaly detection performance. In a study using this method to generate synthetic data similar to normal data, anomaly detection was carried out by generating synthetic data by cutting and pasting a specific patch from the original image. In this way, the degree of similarity to normal data depends on the number and size of patches, which affects anomaly detection performance. In this paper, synthetic data were generated by varying patch sizes and numbers, and then similarity and analysis with normal data were conducted using a pre-trained model, and anomaly detection performance was measured by learning the model.

  • PDF

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Machine Learning Data Extension Way for Confirming Genuine of Trademark Image which is Rotated (회전한 상표 이미지의 진위 결정을 위한 기계 학습 데이터 확장 방법)

  • Gu, Bongen
    • Journal of Platform Technology
    • /
    • v.8 no.1
    • /
    • pp.16-23
    • /
    • 2020
  • For protecting copyright for trademark, convolutional neural network can be used to confirm genuine of trademark image. For this, repeated training one trademark image degrades the performance of machine learning because of overfitting problem. Therefore, this type of machine learning application generates training data in various way. But if genuine trademark image is rotated, this image is classified as not genuine trademark. In this paper, we propose the way for extending training data to confirm genuine of trademark image which is rotated. Our proposed way generates rotated image from genuine trademark image as training data. To show effectiveness of our proposed way, we use CNN machine learning model, and evaluate the accuracy with test image. From evaluation result, our way can be used to generate training data for machine learning application which confirms genuine of rotated trademark image.

  • PDF

Water Temperature Prediction Study Using Feature Extraction and Reconstruction based on LSTM-Autoencoder

  • Gu-Deuk Song;Su-Hyun Park
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.11
    • /
    • pp.13-20
    • /
    • 2023
  • In this paper, we propose a water temperature prediction method using feature extraction and reconstructed data based on LSTM-Autoencoder. We used multivariate time series data such as sea surface water temperature in the Naksan area of the East Sea where the cold water zone phenomenon occurred, and wind direction and wind speed that affect water temperature. Using the LSTM-Autoencoder model, we used three types of data: feature data extracted through dimensionality reduction of the original data combined with multivariate data of the original data, reconstructed data, and original data. The three types of data were trained by the LSTM model to predict sea surface water temperature and evaluated the accuracy. As a result, the sea surface water temperature prediction accuracy using feature extraction of LSTM-Autoencoder confirmed the best performance with MAE 0.3652, RMSE 0.5604, MAPE 3.309%. The result of this study are expected to be able to prevent damage from natural disasters by improving the prediction accuracy of sea surface temperature changes rapidly such as the cold water zone.

High-quality data collection for machine learning using block chain (블록체인을 활용한 양질의 기계학습용 데이터 수집 방안 연구)

  • Kim, Youngrang;Woo, Junghoon;Lee, Jaehwan;Shin, Ji Sun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.1
    • /
    • pp.13-19
    • /
    • 2019
  • The accuracy of machine learning is greatly affected by amount of learning data and quality of data. Collecting existing Web-based learning data has danger that data unrelated to actual learning can be collected, and it is impossible to secure data transparency. In this paper, we propose a method for collecting data directly in parallel by blocks in a block - chain structure, and comparing the data collected by each block with data in other blocks to select only good data. In the proposed system, each block shares data with each other through a chain of blocks, utilizes the All-reduce structure of Parallel-SGD to select only good quality data through comparison with other block data to construct a learning data set. Also, in order to verify the performance of the proposed architecture, we verify that the original image is only good data among the modulated images using the existing benchmark data set.

Study on Steganalysis based on Intra Block and Inter Block Correlations (인트라/인터블록 상관계수 기반 스테그어날리시스 기술 연구)

  • Kim, Dong-Hyun;Lee, Sang-Hyeong;Lee, Soo-hyeon;Lee, Hae-Yeoun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.1024-1026
    • /
    • 2017
  • 인트라 블록과 인터 블록의 상관계수를 이용하여 이미지의 특징을 뽑아내고, 이를 SVM에 학습시켜 원본과 스테고 영상을 판별한다. 스테고 영상은 F3 알고리즘을 개선한 F4알고리즘을 직접 구현하여 만들어냈다. 실험에 사용한 데이터는 SIPI, BOSS, 자체 수집 데이터베이스에서 학습용 영상 120장, 테스트용 영상 500장을 이용하였다. 원본 500장에 대해 2장이 F4로 판별 되었고, F4 500장에 대해서는 전부 F4로 판별하여 99.8%의 정확도를 달성하였다.

IoT Attack Detection Using PCA and Machine Learning (주성분 분석과 기계학습을 이용한 사물인터넷 공격 탐지)

  • Lee, Ji-Gu;Lee, Soo-Jin
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.245-246
    • /
    • 2022
  • 최근 IoT 환경에서 기계학습을 이용한 공격 탐지 모델의 연구가 활발히 진행되고 있으며, 탐지 정확도도 점차 향상되고 있다. 하지만, IoT 환경의 특징인 저 사양 하드웨어, 고차원의 특징, 방대한 트래픽 등으로 인해 탐지성능이 저하되는 문제가 있다. 따라서 본 논문에서는 MQTT(Message Queuing Telementry Transport) 프로토콜 기반의 IoT 환경에서 수집된 데이터셋을 대상으로 주성분 분석(Principal Component Analysis)과 LightGBM을 이용하여 데이터셋 차원을 감소시키고, 공격 클래스를 분류하였다. 실험결과 원본 데이터셋 차원을 주성분 3개(약 9%)로 감소시켰음에도 모든 특징(33개)을 사용한 실험결과와 거의 유사한 성능을 보였다. 또한 기존 연구의 특징 선택을 통한 탐지 모델과 비교하였을 때도 분류성능이 더 우수한 것으로 나타났다.

  • PDF

VCM based on Compression Neural Network for Multi-task (Multi-task 수행을 위한 압축 심층신경망 기반 VCM)

  • Lee, Haelim;Lee, Jooyoung;Cho, Seunghyun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2021.06a
    • /
    • pp.43-46
    • /
    • 2021
  • 최근 기계 임무수행에 사용되는 데이터양이 증가함에 따라 기계를 위한 효율적인 영상 압축방식의 필요성이 높아졌다. 기존의 비디오 코덱은 HVS (Human Visual System) 특성을 고려한 기술이기 때문에 부호화 과정에서 기계 임무수행에 필요하지 않은 정보를 효과적으로 제거할 수 없다. 반면 심층신경망 기반 압축네트워크의 경우, 원본 영상으로부터 기계 임무수행에 필수적인 데이터만을 추출하여 부호화 하도록 학습할 수 있는 장점이 있다. 본 논문에서는 압축 심층신경망과 기계 임무수행 네트워크로 구성되는 VCM (Video Coding for Machine) 프레임워크를 제안하고 학습에 의한 압축효율 향상을 검증한다. 이를 위해 압축 심층신경망을 객체탐지 임무수행 네트워크와 함께 학습시킨 결과, VVC (Versatile Video Coding) 대비 평균 61.16%의 BD-rate 감소가 확인되었다. 뿐만 아니라, 학습된 압축 심층신경망은 객체분할 임무수행에서도 VVC 대비 평균 58.43%의 BD-rate 감소를 보여 다중 기계 임무의 효율적 수행이 가능함을 확인할 수 있었다.

  • PDF

Bit-width Aware Generator and Intermediate Layer Knowledge Distillation using Channel-wise Attention for Generative Data-Free Quantization

  • Jae-Yong Baek;Du-Hwan Hur;Deok-Woong Kim;Yong-Sang Yoo;Hyuk-Jin Shin;Dae-Hyeon Park;Seung-Hwan Bae
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.7
    • /
    • pp.11-20
    • /
    • 2024
  • In this paper, we propose the BAG (Bit-width Aware Generator) and the Intermediate Layer Knowledge Distillation using Channel-wise Attention to reduce the knowledge gap between a quantized network, a full-precision network, and a generator in GDFQ (Generative Data-Free Quantization). Since the generator in GDFQ is only trained by the feedback from the full-precision network, the gap resulting in decreased capability due to low bit-width of the quantized network has no effect on training the generator. To alleviate this problem, BAG is quantized with same bit-width of the quantized network, and it can generate synthetic images, which are effectively used for training the quantized network. Typically, the knowledge gap between the quantized network and the full-precision network is also important. To resolve this, we compute channel-wise attention of outputs of convolutional layers, and minimize the loss function as the distance of them. As the result, the quantized network can learn which channels to focus on more from mimicking the full-precision network. To prove the efficiency of proposed methods, we quantize the network trained on CIFAR-100 with 3 bit-width weights and activations, and train it and the generator with our method. As the result, we achieve 56.14% Top-1 Accuracy and increase 3.4% higher accuracy compared to our baseline AdaDFQ.

Supervised learning framework using Web-Videos (Web-Videos를 사용한 Supervised Learning Framework)

  • Na, Seong-Won;Lee, Ye-Gi;Yoon, Kyoung-ro
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.95-97
    • /
    • 2019
  • 본 논문에서는 비디오 데이터를 이용한 감독 학습 프레임 워크를 제안한다. 최근 Deep Convolutional Neural Networks의 성공으로 많은 분야에서 사용되고 있다. DCNNs 모델 성능의 중요한 요소 중 하나는 Large-cale Dataset을 구축하는 것으로 Small-scale Dataset으로 모델을 학습한다면 과적합 및 일반화 오류를 해결하기 어렵다. 이러한 문제점을 해결하는 방법으로 이미지 왜곡을 통한 데이터 셋을 증가 또는 Dropout 기법 등을 사용하였지만 원본 데이터가 적은 경우에는 모델이 일반화 능력을 갖기 어렵다. 따라서 본 논문에서는 이러한 문제점을 보완하고자 Web으로부터 얻은 비디오에서 해당 Class와 관련된 프레임들을 추출하여 보다 쉽게 데이터 셋을 확장하고, 모델의 성능을 향상 시키는 방법을 제안한다.

  • PDF