• 제목/요약/키워드: Imputation method

검색결과 132건 처리시간 0.027초

전자의무기록 데이터에서의 적대적 생성 알고리즘 기반 결측값 대치 알고리즘 성능분석 (Performance Evaluation of an Imputation Method based on Generative Adversarial Networks for Electric Medical Record)

  • 조용연;정민영;황보율
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.879-881
    • /
    • 2019
  • 전자의무기록 (EMR)과 같은 의료 현장에서 수집되는 대용량의 데이터는 임상 해석적으로 잠재가치가 크고 활용도가 다양하나 결측값이 많아 희소성이 크다는 한계점이 있어 분석이 어렵다. 특히 EMR의 정보수집과정에서 발생하는 결측값은 무작위적이고 임의적이어서 분석 정확도를 낮추고 예측 모델의 성능을 저하시키는 주된 요인으로 작용하기 때문에, 결측치 대체는 필수불가결하다. 최근 통상적으로 활용되어지던 통계기반 알고리즘기반의 결측치 대체 알고리즘보다는 딥러닝 기술을 활용한 알고리즘들이 새로이 등장하고 있다. 본 논문에서는 Generative Adversarial Network를 기반한 최신 결측값 대치 알고리즘인 Generative Adversarial Imputation Nets을 적용하여 EMR에서의 성능을 분석해보고자 하였다.

Association measure of doubly interval censored data using a Kendall's 𝜏 estimator

  • Kang, Seo-Hyun;Kim, Yang-Jin
    • Communications for Statistical Applications and Methods
    • /
    • 제28권2호
    • /
    • pp.151-159
    • /
    • 2021
  • In this article, our interest is to estimate the association between consecutive gap times which are subject to interval censoring. Such data are referred as doubly interval censored data (Sun, 2006). In a context of serial event, an induced dependent censoring frequently occurs, resulting in biased estimates. In this study, our goal is to propose a Kendall's 𝜏 based association measure for doubly interval censored data. For adjusting the impact of induced dependent censoring, the inverse probability censoring weighting (IPCW) technique is implemented. Furthermore, a multiple imputation technique is applied to recover unknown failure times owing to interval censoring. Simulation studies demonstrate that the suggested association estimator performs well with moderate sample sizes. The proposed method is applied to a dataset of children's dental records.

경제활동인구조사 자료를 위한 다중대체 방식 연구 (A study on multiple imputation modeling for Korean EAPS)

  • 박민정;배윤종;김정연
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.685-696
    • /
    • 2021
  • 경제활동인구조사는 고용 관련 통계를 생성하는 국가조사로서, 국민의 경활상태(취업/실업/비경활)를 파악하는 것이 주요 목적이다. 정확한 통계를 내기 위해 무응답률을 낮추는 것이 중요하고, 이미 발생한 무응답을 보완하기 위한 방법으로 무응답 대체가 가능하다. 경제활동인구조사는 응답 방식이 순차적 흐름을 따라가기 때문에 구조적인 무응답이 존재한다. 또한 전체 가구원내 무응답 항목이 하나라도 있으면 해당 가족 구성원 전체를 무응답 처리하기에 최종 자료에는 항목 무응답이 아닌 단위 무응답만 존재한다는 특징이 있다. 본 연구에서는 구조적 무응답 이해 및 연계자료를 통한 과거 자료의 활용 등을 통해 기존의 방법보다 효과적인 무응답 대체 모형을 제시하고자 한다. 대체 모형의 성능을 일치도/비일치도를 기반으로 평가한다. 이를 위해, 2019년 11월 경제활동인구조사 자료를 기반으로 모의실험을 실시한다. 총 59,996명의 응답자 중 일부를 랜덤하게 선택한 뒤, 경활상태를 판정하는데 결정적인 설명변수 6개와 경활상태를 무응답 처리한다. 기존 무응답 대체 모형에서 사용하였던 설명 변수 이외에 산업변수와 종사상지위 변수를 추가함으로써 모형을 개선한다. 이는 과거자료의 연계 및 활용을 가정한 것으로, 기존의 모형모다 성능이 향상되는 것을 확인한다. 또한, 경활상태별 무응답자 수에 대한 다양한 시나리오를 고려한다.

Enhancement of durability of tall buildings by using deep-learning-based predictions of wind-induced pressure

  • K.R. Sri Preethaa;N. Yuvaraj;Gitanjali Wadhwa;Sujeen Song;Se-Woon Choi;Bubryur Kim
    • Wind and Structures
    • /
    • 제36권4호
    • /
    • pp.237-247
    • /
    • 2023
  • The emergence of high-rise buildings has necessitated frequent structural health monitoring and maintenance for safety reasons. Wind causes damage and structural changes on tall structures; thus, safe structures should be designed. The pressure developed on tall buildings has been utilized in previous research studies to assess the impacts of wind on structures. The wind tunnel test is a primary research method commonly used to quantify the aerodynamic characteristics of high-rise buildings. Wind pressure is measured by placing pressure sensor taps at different locations on tall buildings, and the collected data are used for analysis. However, sensors may malfunction and produce erroneous data; these data losses make it difficult to analyze aerodynamic properties. Therefore, it is essential to generate missing data relative to the original data obtained from neighboring pressure sensor taps at various intervals. This study proposes a deep learning-based, deep convolutional generative adversarial network (DCGAN) to restore missing data associated with faulty pressure sensors installed on high-rise buildings. The performance of the proposed DCGAN is validated by using a standard imputation model known as the generative adversarial imputation network (GAIN). The average mean-square error (AMSE) and average R-squared (ARSE) are used as performance metrics. The calculated ARSE values by DCGAN on the building model's front, backside, left, and right sides are 0.970, 0.972, 0.984 and 0.978, respectively. The AMSE produced by DCGAN on four sides of the building model is 0.008, 0.010, 0.015 and 0.014. The average standard deviation of the actual measures of the pressure sensors on four sides of the model were 0.1738, 0.1758, 0.2234 and 0.2278. The average standard deviation of the pressure values generated by the proposed DCGAN imputation model was closer to that of the measured actual with values of 0.1736,0.1746,0.2191, and 0.2239 on four sides, respectively. In comparison, the standard deviation of the values predicted by GAIN are 0.1726,0.1735,0.2161, and 0.2209, which is far from actual values. The results demonstrate that DCGAN model fits better for data imputation than the GAIN model with improved accuracy and fewer error rates. Additionally, the DCGAN is utilized to estimate the wind pressure in regions of buildings where no pressure sensor taps are available; the model yielded greater prediction accuracy than GAIN.

태양광 발전량 데이터의 시계열 모델 적용을 위한 결측치 보간 방법 연구 (A Research for Imputation Method of Photovoltaic Power Missing Data to Apply Time Series Models)

  • 정하영;홍석훈;전재성;임수창;김종찬;박철영
    • 한국멀티미디어학회논문지
    • /
    • 제24권9호
    • /
    • pp.1251-1260
    • /
    • 2021
  • This paper discusses missing data processing using simple moving average (SMA) and kalman filter. Also SMA and kalman predictive value are made a comparative study. Time series analysis is a generally method to deals with time series data in photovoltaic field. Photovoltaic system records data irregularly whenever the power value changes. Irregularly recorded data must be transferred into a consistent format to get accurate results. Missing data results from the process having same intervals. For the reason, it was imputed using SMA and kalman filter. The kalman filter has better performance to observed data than SMA. SMA graph is stepped line graph and kalman filter graph is a smoothing line graph. MAPE of SMA prediction is 0.00737%, MAPE of kalman prediction is 0.00078%. But time complexity of SMA is O(N) and time complexity of kalman filter is O(D2) about D-dimensional object. Accordingly we suggest that you pick the best way considering computational power.

시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교 (Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms)

  • 박보람;정인경
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.697-712
    • /
    • 2013
  • 다시점 자료 연구에서 일반화추정방정식은 가상관행렬을 잘못 가정하더라도 모수의 일치추정량을 도출하므로 많이 이용된다. 하지만, 결측 체계가 완전임의결측이 아닌 경우에는 편의추정량을 제공하고, 시간-종속적 공변량이 포함된 경우에는 가상관행렬에 따라 회귀계수 추정값이 다르게 도출될 수 있는 문제점이 있다. 결측 체계가 임의결측인 경우에 발생하는 문제를 해결하기 위해 가중 방법과 다중대체 방법을 사용하는 것이 제안되었다. 본 논문에서는 시간-종속적 공변량이 포함된 이분형 반복측정자료를 GEE를 이용하여 분석할 때 다양한 결측 체계에서 일반화추정방정식 방법, 가중 방법, 다중대체 방법의 회귀계수 추정에 대한 로버스트성과 정확성을 모의실험을 통하여 비교해 보았다. 세 가지 방법 모두에서 시간-종속적 공변량의 회귀계수가 시간-독립적 공변량의 회귀계수에 비해 가상관행렬에 따라 추정값의 차이가 크게 나타났다. 다른 두 방법에 비해 다중대체 방법이 가상관행렬의 형태에 대해 더 로버스트하고 편의도 작은 추정치를 도출하였다.

Monte-Carlo expectation-maximaization 방법을 이용한 무응답 모형 추정방법 (An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm)

  • 최보승;유현상;윤용화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.587-598
    • /
    • 2016
  • 각종 선거를 앞두고 여러 여론조사 기관들은 다양한 방법으로 선거 결과를 예측한다. 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 중 하나는 무응답이며 무응답 대체 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 본 연구에서는 무응답 대체의 방법으로 모형을 기반으로 한 대체 방법에 대하여 연구하였다. 특히, 최대 우도 추정 방법을 적용했을 때 무시할 수 없는 무응답 (non-ignorable non-response) 체계 하에서 발생할 수 있는 변방 값 문제를 해결하기 위해 Wei와 Tanner (1990)가 제안한 Monte Carlo EM 알고리즘을 적용하였다. 모의 실험을 통하여 MCEM 방법과 기존의 최대 우도 추정 방법, 베이지안 추정 방법 사이의 비교 연구를 진행하였고 그 결과 MCEM 방법이 기존 방법들에 대한 대안 방법으로 이용될 수 있음을 보였다. 또한 2012년에 시행된 제18대 대통령 선거 당일의 출구조사 자료를 적용하여 실증 분석을 수행하였다. 예측 결과를 비교하기 위해 Bautista 등 (2007)이 제안한 MWPE (modified within precinct error)를 이용하였다.

A Study on One Factorial Longitudinal Data Analysis with Informative Drop-out

  • Lee, Ki-Hoon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권4호
    • /
    • pp.1053-1065
    • /
    • 2006
  • This paper proposes a method in one-way layouts for longitudinal data with informative drop-out. When dropouts are informative, that is, correlated with unobserved data and/or the previous observed data, the simple imputation methods such as 'last observation carried forward' (LOCF) methods would arise the bias of the testing models. The maximum likelihood procedure combined with a logit model for the drop-out process is proposed to test treatment effects for one factorial designs and compared with LOCF method in two examples.

  • PDF

경험적 베이지안 방법을 이용한 결측자료 연구 (Analysis of Missing Data Using an Empirical Bayesian Method)

  • 윤용화;최보승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.1003-1016
    • /
    • 2014
  • 조사를 통하여 수집된 자료에 기반하여 분석을 수행하는데 있어서 결측값에 대한 적절한 대체 방법은 보다 정확한 결과를 얻기 위한 매우 중요한 절차이다. 본 연구에서는 모형에 기반하여 결측자료에 대한 대체방법과 모형 추정방법을 다루었다. 특히 최대우도추정 방법의 적용에서 발생할 수 있는 변방값 문제(bounday soluntion problem)를 해결하기 위하여 베이지안 방법을 적용하였다. 분석된 결과를 바탕으로 하여 예측을 수행한 후 결측체계에 따른 정확성 비교를 수행하여 결측체계에 따른 결측모형의 선택 문제를 다루었다. 예측의 정확도를 측정하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error) 이용하여 비교를 수행 하였다. 본 연구에서 제시된 방법들은 2012년에 시행된 제 18대 대통령 선거 당일 시행된 출구조사의 자료를 적용하여 분석을 수행하였다. 분석 결과 임의결측체계의 가정에 따른 결과가 비임의체계 가정에 따른 결과보다 예측의 정확도가 더 높았다.

무응답모형에 기반한 출구조사의 예측 정확성 비교 연구 (A comparison study for accuracy of exit poll based on nonresponse model)

  • 곽정애;최보승
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.53-64
    • /
    • 2014
  • 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 가운데 하나는 무응답이라 할 수 있으며 무응답 대체에 대한 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 특히 대통령 선거와 같은 민감한 주제에 대한 선거에서는 무응답 대체가 더욱 더 중요하다. 본 연구에서는 무응답 대체의 방법으로 모형에 기반을 둔 대체 방법에 대하여 연구를 진행하였다. 모형에 기반을 둔 대체 방법에서는 무응답 체계의 가정에 따라 무응답 모형을 구축할 수 있으며 무응답 체계에 따라 각기 다른 대체 결과를 제공할 수 있다. 모형에 기반을 둔 무응답 대체 및 추정에서 적절한 무응답 체계의 가정은 정확한 모형 추정을 위한 매우 중요한 전제 조건이다. 그러나 무응답 체계의 가정에 대한 검증 절차는 아직 정확한 해법이 알려지지 않은 상황이다. 본 연구에서는 실제 자료를 이용한 모형적합을 통하여 무응답 체계 가정에 대한 정확도를 비교하고자 하였다. 2012년에 시행된 18대 대통령 선거과정에서 수행된 출구조사 결과를 이용하여 무응답 체계의 가정에 대한 검증과 모형에 의한 예측 정확도를 비교하였다. 무응답 모형의 추정과 무응답 대체를 위하여 EM 알고리즘에 기반을 둔 최대우도 추정방법을 이용하였으며 예측 결과를 비교하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error)를 이용하였다.