• 제목/요약/키워드: Synthetic data generation

검색결과 115건 처리시간 0.031초

주성분 분석을 활용한 재현자료 생성 (Synthetic data generation by probabilistic PCA)

  • 박민정
    • 응용통계연구
    • /
    • 제36권4호
    • /
    • pp.279-294
    • /
    • 2023
  • 재현자료를 생성할 때 순차회귀 다중대체(SRMI)를 이용하는 방식이 가장 널리 알려져 있으며, 이를 구현한 소프트웨어로 R-패키지 synthpop이 활용되고 있다. 본 논문에서는 확률적 주성분 분석(PPCA)을 이용하여 재현자료를 생성하는 방안을 제안하고 2개의 데이터 세트를 이용한 모의실험으로 SRMI 방식과 PPCA 방식을 비교하였다. 모의실험에서 PPCA 방식으로 생성한 재현자료는 쌍별 상관계수를 기준으로 원자료와의 유사성이 가장 우수함을 확인하였다. 향후 PPCA 방식을 이용하여 시계열 자료에 대한 재현자료 생성을 연구하고자 한다.

이상 탐지를 위한 합성 데이터 생성 및 성능 분석 (Synthetic Data Generation and Performance Analysis for Anomaly Detection)

  • 황주효;진교홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.19-21
    • /
    • 2022
  • 자기 지도 학습을 이용한 이상 탐지는 일반적으로 합성 데이터를 생성해 정상과 이상을 학습하고, 실제 이상 데이터를 테스트 데이터로 사용하여 이상 탐지 성능을 측정한다. 정상 데이터와 유사한 합성 데이터를 생성하기 위해 기존 연구에서는 원본 이미지에서 특정 패치를 자르고 붙이는 식으로 합성 데이터를 생성한다. 이런 방식에서 정상 데이터와 유사한 정도는 패치 개수와 크기에 따라 달라지므로 이상 탐지 성능에 영향을 미칠 수 있다. 본 연구에서는 패치 크기 및 개수를 다르게 하여 합성 데이터를 생성한 뒤 사전 학습된 모델을 사용하여 정상 데이터와의 유사성 측정 및 분석을 진행하였고 모델을 학습시켜 이상 탐지 성능을 측정하여 보았다.

  • PDF

BIVARIATE ANALYSIS에 의한 월류량에 모의발생에 관한 연구 (A STUDY ON SYNTHETIC GENERATION OF MONTHLY STREAMFLOW BY BIVARIATE ANALYSIS)

  • 서병하;윤용남;강관원
    • 물과 미래
    • /
    • 제12권2호
    • /
    • pp.63-69
    • /
    • 1979
  • The sequences of monthly streamflows constitute a non-statonary time series. The purely stochastic model has been applied to data generation of non-stationary time series. Tow different mothods--single site and multisite generation--have been used on the hydrologic time series. In this study the synthetic generation method by bivariate analysis, studied by Thomas Fiering, one of multi-site models, has been applied to the historical data on monthly streamflows at two sites in Nakdong River, and also for validity of this model the single site Thomas Fiering model applied. Through statistical analysis it has been shown that the performance of bivariate Thomas Fiering model was better than that of the other. By comparison of mean and standard deviaion between the historical and the generated, and cross correlogram interpretation, it has been known that the model used herein has good performance to simultaneously generate the monthly streamflows at two sites in a river hasin.

  • PDF

국방용 합성이미지 데이터셋 생성을 위한 대립훈련신경망 기술 적용 연구 (Synthetic Image Dataset Generation for Defense using Generative Adversarial Networks)

  • 양훈민
    • 한국군사과학기술학회지
    • /
    • 제22권1호
    • /
    • pp.49-59
    • /
    • 2019
  • Generative adversarial networks(GANs) have received great attention in the machine learning field for their capacity to model high-dimensional and complex data distribution implicitly and generate new data samples from the model distribution. This paper investigates the model training methodology, architecture, and various applications of generative adversarial networks. Experimental evaluation is also conducted for generating synthetic image dataset for defense using two types of GANs. The first one is for military image generation utilizing the deep convolutional generative adversarial networks(DCGAN). The other is for visible-to-infrared image translation utilizing the cycle-consistent generative adversarial networks(CycleGAN). Each model can yield a great diversity of high-fidelity synthetic images compared to training ones. This result opens up the possibility of using inexpensive synthetic images for training neural networks while avoiding the enormous expense of collecting large amounts of hand-annotated real dataset.

SEDRIS 기반의 대기 및 해양 합성 환경 생성 및 가시화 어플리케이션 (Application for Generation and Visualization of SEDRIS-based Atmosphere and Ocean Environment)

  • 함원경;정용호;변재정;천상욱;박상철
    • 한국CDE학회논문집
    • /
    • 제17권5호
    • /
    • pp.353-363
    • /
    • 2012
  • As the distributed simulation system has been developed in the defense modeling and simulation, interoperability among heterogeneous simulators is essential to achieve the objectives of the distributed simulation system. However, the interoperability has been a problem to synchronize synthetic environment among many heterogeneous simulators that utilize different environmental data formats. SEDRIS (Synthetic Environmental Data Representation and Interchange Specification) was initiated to solve the problem of the interoperability. SEDRIS provides a standard mechanism to promote data interchange and reusability, and it represents all environmental things from ocean, land and atmosphere to the universe. Although SEDRIS provides various advantages as a standard environmental data format, applying of SEDRIS has been hindered by its broadness and complexity. The main objective of this paper is to explain application development process to improve SEDRIS usability for the atmosphere and ocean. The developed application of this paper provides auto-generation of SEDRIS data with minimum user's input, and the auto-generated SEDRIS data is also visualized and verified by the application.

LES을 이용한 후향 계단 유동에서의 Synthetic turbulence 효과 연구 (Synthetic Turbulence Effect in Subsonic Backward Facing Step Flow Using LES)

  • 안상훈;성홍계
    • 항공우주시스템공학회지
    • /
    • 제13권6호
    • /
    • pp.1-8
    • /
    • 2019
  • 아음속 유동이 흐르는 후향 계단에서, 입구 경계면에서의 난류를 모사하는 3가지 기법을 조사하였다. 입구 경계면으로 유입되는 평균 유동장과 레이놀즈 응력 프로파일은 실험에서 측정된 결과를 사용하였으며, 입구 경계면의 난류 유동 모사기법으로 synthetic eddy method(SEM), 무작위 변동(random noise) 그리고 균일한 유동 조건(uniform)을 사용하였다. 3차원 유동장의 난류 유동의 모사를 위해 대와동모사(Large Eddy Simulation, LES)를 적용하였다. 3가지 기법에 대한 입구 경계면으로 유입된 유동의 난류 특성과 유동의 재 부착(reattachment) 거리와 속도, 레이놀즈 응력(Reynolds stress)을 비교하였다.

분산 시뮬레이션 시스템에서 합성 환경 표현 및 교환 표준(SEDRIS) 기반의 전장 환경 구축 (Generation of the Battlefield in Distributed Simulation System Based on Synthetic Environment Representation and Interchange Standard (SEDRIS))

  • 함원경;김정훈;나영남;천상욱;박상철
    • 정보화연구
    • /
    • 제9권3호
    • /
    • pp.253-263
    • /
    • 2012
  • 본 논문은 분산 시스템에서의 표준합성환경 기반 수중 교전 시뮬레이션을 위한 방법론이다. 수중 교전 시뮬레이션의 경우 염분과 수온 등의 수중 환경 데이터를 시뮬레이션에 반영하는 것이 중요하다. 분산 시뮬레이션 시스템에서 이러한 환경 데이터의 재사용성과 상호운용성 향상을 위해 합성 환경 표현 및 교환 표준(Synthetic Environmental Data Representation and Interchange Specification, SEDRIS(ISO standard for environmental data))이 개발되었고, 본 논문에서는 SEDRIS를 활용하여 수중 합성환경을 구축한다. 본 논문을 통해 SEDRIS가 합성환경 데이터의 국제 표준이지만 그 방대함과 복잡함으로 인하여 사용이 저해된 문제점을 대기/해양 환경에 대해 효율적인 SEDRIS 기술 활용 방법을 제시하여 해결한다. 본 논문의 최종 목적은 대기/해양 환경 표현을 위한 다차원 격자 기반의 SEDRIS 구조를 구축하고, High Level Architecture (HLA)/Run-Time Infrastructure (RTI) 기반의 분산 시스템에서 대기/해양 합성전장환경 구축에 SEDRIS 적용 방법을 제시한다.

하천유량의 모의발생을 위한 Monte Carlo 방법과 Autoregressive 방법의 비교 (A Comparative Study of Monte Carlo and Autoregressive Methods for the Synthetic Generation of river Flows)

  • 윤용남;이은태
    • 물과 미래
    • /
    • 제18권4호
    • /
    • pp.335-345
    • /
    • 1985
  • 추계학적 이론을 근거로 하는 하천유량의 모의발생 모형에는 여러 가지가 있으며 이는 한정된 짧은 기간동안의 유량 실측치의 통계학적 특성을 재현시키는 일련의 장기적 유량자료를 인위적으로 발생시켜 수자원 시스템의 거동예측이나 조작기준을 보다 완벽하게 설정하기 위한 풍부한 인력 자료를 제공하자는 데 목적이 있다. 본 연구에서는 연유량의 모의발생에 주로 사용되는 Monte Carlo 모형을 연유량 자료를 구성하는 월별 하천유량의 발생에 적용 가능한가를 연구 검토하였다. 비교검토의 목적으로 실측된 월별 유량의 적정분포형을 설정한 후 Monte Carlo 방법에 의해 발생된 월별량과Autoregressive 모형중의 하나인 Thomas-Fiering의 다계절 모형에 의해 발생된 월류량의 통계학적 특성치의 실측치의 특성치와 비교하였다. 한편, 월유량 발생자료의 합성에 의한 연류량 자료의 특성치가 실측 월류량의 합성에 의한 월류량 특성치를 얼마나 잘 재현시키는가를 검사하기 위해 Monte Carlo 및 Thomas-Fiering 모형에 의해 발생시킨 연류량의 통계학적 특성치를 실측류량의 통계특성치와 비교평가하였다.

  • PDF

Development of a method of the data generation with maintaining quantile of the sample data

  • Joohyung Lee;Young-Oh Kim
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.244-244
    • /
    • 2023
  • Both the frequency and the magnitude of hydrometeorological extreme events such as severe floods and droughts are increasing. In order to prevent a damage from the climatic disaster, hydrological models are often simulated under various meteorological conditions. While performing the simulations, a synthetic data generated through time series models which maintains the key statistical characteristics of the sample data are widely applied. However, the synthetic data can easily maintains both the average and the variance of the sample data, but the quantile is not maintained well. In this study, we proposes a data generation method which maintains the quantile of the sample data well. The equations of the former maintenance of variance extension (MOVE) are expanded to maintain quantile rather than the average or the variance of the sample data. The equations are derived and the coefficients are determined based on the characteristics of the sample data that we aim to preserve. Monte Carlo simulation is utilized to assess the performance of the proposed data generation method. A time series data (data length of 500) is regarded as the sample data and selected randomly from the sample data to create the data set (data length of 30) for simulation. Data length of the selected data set is expanded from 30 to 500 by using the proposed method. Then, the average, the variance, and the quantile difference between the sample data, and the expanded data are evaluated with relative root mean square error for each simulation. As a result of the simulation, each equation which is designed to maintain the characteristic of data performs well. Moreover, expanded data can preserve the quantile of sample data more precisely than that those expanded through the conventional time series model.

  • PDF

수학적 변환과 심층 생성 모델을 활용한 DMMP와 2-CEES의 모의 라만 분광 생성 (Generating Synthetic Raman Spectra of DMMP and 2-CEES by Mathematical Transforms and Deep Generative Models)

  • 박성원;정보성;김홍중
    • 한국군사과학기술학회지
    • /
    • 제26권5호
    • /
    • pp.422-430
    • /
    • 2023
  • To build an automated system detecting toxic chemicals from Raman spectra, we have to obtain sufficient data of toxic chemicals. However, it usually costs high to gather Raman spectra of toxic chemicals in diverse situations. Tackling this problem, we develop methods to generate synthetic Raman spectra of DMMP and 2-CEES without actual experiments. First, we propose certain mathematical transforms to augment few original Raman spectra. Then, we train deep generative models to generate more realistic and diverse data. Analyzing synthetic Raman spectra of toxic chemicals generated by our methods through visualization, we qualitatively verify that the data are sufficiently similar to original data and diverse. For conclusion, we obtain a synthetic dataset of DMMP and 2-CEES with the proposed algorithm.