• Title/Summary/Keyword: 데이터 생성

Search Result 7,054, Processing Time 0.033 seconds

A Host-based Intrusion Detection Data Analysis Comparison (호스트 기반 침입 탐지 데이터 분석 비교)

  • Park, DaeKyeong;Shin, Dongkyoo;Shin, Dongil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.490-493
    • /
    • 2020
  • 오늘날 정보통신 기술이 급격하게 발달하면서 IT 인프라에서 보안의 중요성이 높아졌고 동시에 APT(Advanced Persistent threat)처럼 고도화되고 다양한 형태의 공격이 증가하고 있다. 점점 더 고도화되는 공격을 조기에 방어하거나 예측하는 것은 매우 중요한 문제이며, NIDS(Network-based Intrusion Detection System) 관련 데이터 분석만으로는 빠르게 변형하는 공격을 방어하지 못하는 경우가 많이 보고되고 있다. 따라서 HIDS(Host-based Intrusion Detection System) 데이터 분석을 통해서 위와 같은 공격을 방어하는데 현재는 침입탐지 시스템에서 생성된 데이터가 주로 사용된다. 하지만 데이터가 많이 부족하여 과거에 생성된 DARPA(Defense Advanced Research Projects Agency) 침입 탐지 평가 데이터 세트인 KDD(Knowledge Discovery and Data Mining) 같은 데이터로 연구를 하고 있어 현대 컴퓨터 시스템 특정을 반영한 데이터의 비정상행위 탐지에 대한 연구가 많이 부족하다. 본 논문에서는 기존에 사용되었던 데이터 세트에서 결여된 스레드 정보, 메타 데이터 및 버퍼 데이터를 포함하고 있으면서 최근에 생성된 LID-DS(Leipzig Intrusion Detection-Data Set) 데이터를 이용한 분석 비교 연구를 통해 앞으로 호스트 기반 침입 탐지 데이터 시스템의 나아갈 새로운 연구 방향을 제시한다.

A Study on the Prediction of River Water Level Using Artificial Neural Network Theory and Unstructured Data (인공신경망 이론과 비정형데이터를 활용한 하천수위 예측에 관한 연구)

  • Lee, Jeongha;Hwang, SeokHwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.388-388
    • /
    • 2020
  • 매년 국지성호우 및 태풍으로 인해 하천 범람이나 저지대침수가 발생하고 있으며 이는 인명 피해 사례로 이어지기도 한다. 피해 발생을 최소화시키기 위해 강우와 유량과 같은 정형데이터로 홍수예보가 이뤄지고 있으나 기존의 정형데이터만 사용하다보니 도심지역이나 소규모 하천에서 인명 피해 예측에 어려움이 있다. 이를 보완하기 위해서는 인구의 유동성을 고려한 비정형데이터를 활용해야 한다. 최근 소셜 네트워크 서비스(SNS)의 사용자가 증가됨에 따라 텍스트나 사진과 같은 다양한 비정형데이터가 생성되고 있다. 이렇게 생성된 데이터는 다양한 분야에서 활용되고 있으며 특히 지진이나 홍수와 같은 재난 발생 시 유용한 데이터로 활용된 사례가 증가하고 있다. 이는 사람들이 GIS와 같은 위치정보나 시간 등을 포함한 다양한 정보를 포함하기 때문이다. 하지만 이렇게 생산된 비정형데이터를 기존 물리적 기반의 수문모형의 데이터로 활용하기에는 많은 한계점이 있다. 따라서 본 연구에서는 SNS 채널을 통해 생성된 비정형 데이터들을 인공신경망모형에 적용하여 하천수위를 예측하였다.

  • PDF

A Study of GAN-based data augmentation technique on Acceleration Data Gereration (GAN 기반 데이터 증강기법을 통한 가속도 데이터 생성에 대한 연구)

  • Kang, Sung-Hwan;Chow, We-Duke
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.495-497
    • /
    • 2022
  • 본 데이터 GAN 기법 데이터 증강기법을 적용하여 가속도 데이터를 증강하는 방법에 대해 연구한다. 가속도 데이터는 사람의 활동패턴을 인지하는데 있어 가장 기본적인 데이터로 활용된다. 가속도 데이터를 증강한 뒤, 활동패턴을 인지하는 머신러닝 모델 훈련에 사용한 결과 생성한 데이터가 육안으로 확인하였을 때 실제 데이터와 유사한 패턴을 형성하였고, 실제 활동패턴인지 모델 훈련에 사용한 결과 정확도(Accuracy)는 기존 데이터로만 훈련한 경우 74%인데 비해 증강된 데이터를 혼합하여 훈련하였을 때 약 88%로 개선된 것을 확인하였다.

  • PDF

Range-Doppler Map generating simulator for ship detection and tracking research using compact HF radar (콤팩트 HF 레이더를 이용한 선박 검출 및 추적 연구를 위한 Range-Doppler Map 생성 시뮬레이터)

  • Lee, Younglo;Park, Sangwook;Lee, Sangho;Ko, Hanseok
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.54 no.5
    • /
    • pp.90-96
    • /
    • 2017
  • Due to the merit of having wide range with low cost, HF radar's ship detection and tracking research as maritime surveillance system has been recently studied. Many ship detection and tracking algorithms have been developed so far, however, performance comparison cannot be conducted properly because the states of target ships (such as moving path, size, etc.) differ from each study. In this paper, we propose a simulator based on compact HF radar, which generates data according to the size and moving path of target ship. Given the generated data with identical ship state, it is possible to conduct performance comparison. In order to validate the proposed simulator, the simulated data has been compared with real data collected by the SeaSonde HF radar sites. As a result, it has been shown that our simulated data resembles the real data. Therefore, the performance of various detection or tracking algorithms can be compared and analyzed respectively by using our simulated data.

Hangul Font Dataset for Korean Font Research Based on Deep Learning (딥러닝 기반의 한글 폰트 연구를 위한 한글 폰트 데이터셋)

  • Ko, Debbie Honghee;Lee, Hyunsoo;Suk, Jungjae;Hassan, Ammar Ul;Choi, Jaeyoung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.2
    • /
    • pp.73-78
    • /
    • 2021
  • Recently, as interest in deep learning has increased, many researches in various fields using deep learning techniques have been conducted. Studies on automatic generation of fonts using deep learning-based generation models are limited to several languages such as Roman or Chinese characters. Generating Korean font is a very time-consuming and expensive task, and can be easily created using deep learning. For research on generating Korean fonts, it is important to prepare a Korean font dataset from the viewpoint of process automation in order to keep pace with deep learning-based generation models. In this paper, we propose a Korean font dataset for deep learning-based Korean font research and describe a method of constructing the dataset. Based on the Korean font data set proposed in this paper, we show the usefulness of the proposed dataset configuration through the process of applying it to a deep learning Korean font generation application.

A Broken Image Screening Method based on Histogram Analysis to Improve GAN Algorithm (GAN 알고리즘 개선을 위한 히스토그램 분석 기반 파손 영상 선별 방법)

  • Cho, Jin-Hwan;Jang, Jongwook;Jang, Si-Woong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.4
    • /
    • pp.591-597
    • /
    • 2022
  • Recently, many studies have been done on the data augmentation technique as a way to efficiently build datasets. Among them, a representative data augmentation technique is a method of utilizing Generative Adversarial Network (GAN), which generates data similar to real data by competitively learning generators and discriminators. However, when learning GAN, there are cases where a broken pixel image occurs among similar data generated according to the environment and progress, which cannot be used as a dataset and causes an increase in learning time. In this paper, an algorithm was developed to select these damaged images by analyzing the histogram of image data generated during the GAN learning process, and as a result of comparing them with the images generated in the existing GAN, the ratio of the damaged images was reduced by 33.3 times(3,330%).

A Study on Synthetic Flight Vehicle Trajectory Data Generation Using Time-series Generative Adversarial Network and Its Application to Trajectory Prediction of Flight Vehicles (시계열 생성적 적대 신경망을 이용한 비행체 궤적 합성 데이터 생성 및 비행체 궤적 예측에서의 활용에 관한 연구)

  • Park, In Hee;Lee, Chang Jin;Jung, Chanho
    • Journal of IKEEE
    • /
    • v.25 no.4
    • /
    • pp.766-769
    • /
    • 2021
  • In order to perform tasks such as design, control, optimization, and prediction of flight vehicle trajectories based on machine learning techniques including deep learning, a certain amount of flight vehicle trajectory data is required. However, there are cases in which it is difficult to secure more than a certain amount of flight vehicle trajectory data for various reasons. In such cases, synthetic data generation could be one way to make machine learning possible. In this paper, to explore this possibility, we generated and evaluated synthetic flight vehicle trajectory data using time-series generative adversarial neural network. In addition, various ablation studies (comparative experiments) were performed to explore the possibility of using synthetic data in the aircraft trajectory prediction task. The experimental results presented in this paper are expected to be of practical help to researchers who want to conduct research on the possibility of using synthetic data in the generation of synthetic flight vehicle trajectory data and the work related to flight vehicle trajectories.

Conditional Variational Autoencoder-based Generative Model for Gene Expression Data Augmentation (유전자 발현량 데이터 증대를 위한 Conditional VAE 기반 생성 모델)

  • Hyunsu Bong;Minsik Oh
    • Journal of Broadcast Engineering
    • /
    • v.28 no.3
    • /
    • pp.275-284
    • /
    • 2023
  • Gene expression data can be utilized in various studies, including the prediction of disease prognosis. However, there are challenges associated with collecting enough data due to cost constraints. In this paper, we propose a gene expression data generation model based on Conditional Variational Autoencoder. Our results demonstrate that the proposed model generates synthetic data with superior quality compared to two other state-of-the-art models for gene expression data generation, namely the Wasserstein Generative Adversarial Network with Gradient Penalty based model and the structured data generation models CTGAN and TVAE.

Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues (과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강)

  • Chae-Gyun Lim;Hye-Woo Lee;Kyeong-Jin Oh;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

Korean Text Generation and Sentiment Analysis Using Model Combined VAE and CNN (VAE와 CNN이 결합된 모델을 이용한 한국어 문장 생성과 감성 분석)

  • Kim, Geon-Yeong;Lee, Chang-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.430-433
    • /
    • 2018
  • 딥러닝 모델의 성능 향상을 위해 적은 데이터를 증가시킬 수 있는 연구들이 필요하다. 이미지의 경우 회전, 이동, 반전등의 연산으로 쉽게 데이터를 증가시킬 수 있지만 자연어는 그렇지 않다. 그러나 최근 딥러닝 생성 모델의 발전으로 기존 자연어 데이터를 생성 모델을 통해 양을 늘려 실험하는 연구들이 많이 시도되었다. 본 논문에서는 문장 데이터 생성을 위한 VAE, 문장 분류를 위한 CNN이 결합된 모델을 한국어 영화평 데이터에 적용하여 기존 모델보다 0.146% 높은 86.736%의 정확도를 기록하였다.

  • PDF