• 제목/요약/키워드: Imputation method

검색결과 132건 처리시간 0.025초

A Combined Method Compensating for Wave Nonresponse

  • Park, Jinwoo
    • Journal of the Korean Statistical Society
    • /
    • 제31권4호
    • /
    • pp.469-482
    • /
    • 2002
  • This paper suggests a new method of compensating for wave nonresponse in panel survey, which combines weighting adjustment and imputation. By deleting less frequent nonresponse patterns, we can get simplicity. A new mean estimator under the new combining method is provided and a limited simulation study employing a real data is conducted.

선형판별분석에서 MCMC다중대체법의 효율에 관한 연구 (A Study on the efficiency of the MCMC multiple imputation In LDA)

  • 유희경;김명철
    • 대한안전경영과학회지
    • /
    • 제11권3호
    • /
    • pp.189-198
    • /
    • 2009
  • This thesis studies two imputation methods, the MCMC method and the EM algorithm, that take care of the problem. The performance of the two methods for the linear (or quadratic) discriminant analysis are evaluated under various types of incomplete observations. Based on simulated experiments, the effect of the imputation using the EM algorithm and the MCMC method are evaluated and compared in terms of the probability of misclassification and the RMSE. This is done for the various cases of incomplete observations. The cases are differentiated by missing rates, sample sizes, and distances between two classification groups. The studies show that the probability of misclassification and the RMSE of the EM algorithm method is lower than the MCMC method. Therefore the imputation using the EM algorithm is more efficient than the MCMC method. And the probability of misclassification of the method that all vectors of observations with missing values are omitted from analysis is lower than the EM algorithm and the MCMC method when the samples size is small and the rate of missing values is extremely big.

농어가경제조사에서 가중핫덱 무응답 대체법의 활용 (Weighted Hot-Deck Imputation in Farm and Fishery Household Economy Surveys)

  • 김규성;이기재;김진
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.311-328
    • /
    • 2005
  • 본 논문은 농어가경제조사에서 발생하는 무응답을 처리하는 방법에 관한 것이다. 농어가경제조사는 모두 층화다단표집을 한 후 가중평균으로 모평균을 추정하므로 이에 적합한 대체법으로 가중핫덱 대체법을 고려하여 가중핫덱 대체 절차와 모평균 추정법, 그리고 대응되는 분산추정법을 고찰하였다. 그리고 모의실험을 통하여 가중핫덱 대체가 두 조사에 적용될 수 있음을 보였고 수정된 잭나이프 분산추정법을 사용하면 추정치의 신뢰도도 효과적으로 나타낼 수 있음을 보였다. 또한 두 조사에 적용할 수 있는 대체군 형성 절차를 제시하고, 예로써 각각 4가지 방안을 비교, 분석하였다. 그리고 그 중 가장 효율적인 방안을 결과로써 제시하였다.

Weighted k-Nearest Neighbors를 이용한 결측치 대치 (On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation)

  • 임찬희;김동재
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.23-31
    • /
    • 2015
  • 통계적 분석을 할 때 결측치가 발생하는 것은 매우 통상적이다. 이러한 결측치를 대치하는 방법은 여러가지가 있으며, 기존에 사용되는 단일대치법으로 k-nearest neighbor(KNN) 방법이 있다. 하지만 KNN 방법은 k개의 최근접 이웃들 중 극단치나 이상치가 있을 때 편의를 일으킬 수 있다. 본 논문에서는 KNN 방법의 단점을 보완하여 가중 k-최근접이웃(Weighted k-Nearest Neighbors; WKNN) 대치법을 제안하였다. 또한 모의실험을 통해서 기존의 방법과 비교하였다.

Comparing Accuracy of Imputation Methods for Incomplete Categorical Data

  • Shin, Hyung-Won;Sohn, So-Young
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.237-242
    • /
    • 2003
  • Various kinds of estimation methods have been developed for imputation of categorical missing data. They include modal category method, logistic regression, and association rule. In this study, we propose two imputation methods (neural network fusion and voting fusion) that combine the results of individual imputation methods. A Monte-Carlo simulation is used to compare the performance of these methods. Five factors used to simulate the missing data are (1) true model for the data, (2) data size, (3) noise size (4) percentage of missing data, and (5) missing pattern. Overall, neural network fusion performed the best while voting fusion is better than the individual imputation methods, although it was inferior to the neural network fusion. Result of an additional real data analysis confirms the simulation result.

  • PDF

디지털 데이터에서 데이터 전처리를 위한 자동화된 결측 구간 대치 방법에 관한 연구 (A Study on Automatic Missing Value Imputation Replacement Method for Data Processing in Digital Data)

  • 김종찬;심춘보;정세훈
    • 한국멀티미디어학회논문지
    • /
    • 제24권2호
    • /
    • pp.245-254
    • /
    • 2021
  • We proposed the research on an analysis and prediction model that allows the identification of outliers or abnormality in the data followed by effective and rapid imputation of missing values was conducted. This model is expected to analyze efficiently the problems in the data based on the calibrated raw data. As a result, a system that can adequately utilize the data was constructed by using the introduced KNN + MLE algorithm. With this algorithm, the problems in some of the existing KNN-based missing data imputation algorithms such as ignoring the missing values in some data sections or discarding normal observations were effectively addressed. A comparative evaluation was performed between the existing imputation approaches such as K-means, KNN, MEI, and MI as well as the data missing mechanisms including MCAR, MAR, and NI to check the effectiveness/efficiency of the proposed algorithm, and its superiority in all aspects was confirmed.

대체방법별 GEE추정량 비교 (Comparison of GEE Estimators Using Imputation Methods)

  • 김동욱;노영화
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.407-426
    • /
    • 2003
  • 본 연구에서는 범주형 반복측정자료의 일반화추정방정식(GEE)모형에서 결측이 발생할 경우 결측값 대체(imputation)방법들에 대한 성능을 비교하고자 한다. 설명변수 X가 부분적으로 결측을 갖는 경우 GEE추정량을 계산할 수 없다. 본 논문에서는 시점에 따라 값이 변하는 설명변수에 결측이 있는 경우 GEE모형에서 결측값을 추정하는 7가지의 대체방법을 다루며, 실제자료와 모의실험을 통하여 대체방법별 GEE추정량의 성질을 연구한다. 대체방법별 GEE추정량의 성능을 비교하기 위해 우리는 반응변수가 범주형인 반복측정모형에서 완전자료의 GEE추정량과 완전자료에서 결측을 생성하여 결측값에 각 대체방법을 적용하여 대체한 후 구한 GEE추정량을 비교한다. 대체방법으로는 (1) 단순삭제 (2) 표본 평균대체 (3) 행 평균대체 (4) 횡 시점 회귀대체 (5) 이월대체 (6) 베이지안 붓스트랩 (7) 근사적 베이지안 붓스트랩에 대해서 살펴본다. 결측과정(missing mechanism)은 무시할 수 있는 무응답(ignorable nonresponse)을 가정하며, 결측 발생에 대해서는 원자료의 시점 무응답 패턴(wave nonresponse pattern)을 고려하여 발생시키거나 또는 시점 무응답 패턴을 고려하지 않고 단순임의추출로 결측을 발생시키는 방법을 각각 고려한다.

한계와 이상치가 있는 결측치의 로버스트 다중대체 방법 (Robust multiple imputation method for missings with boundary and outliers)

  • 박유성;오도영;권태연
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.889-898
    • /
    • 2019
  • 항목 무응답(item missing)이 발생한 설문조사에서 결측이 포함된 변수에 이상치(outlier)의 존재와 다른 설문문항 항목과의 논리적 한계(boundary) 조건들이 유의미하다면 결측치 대체문제는 매우 복잡해진다. 한계가 있는 결측값들을 포함한 변수에 이상치가 존재하는 경우, 기존의 회귀분석에 근거한 결측치 대체방법은 편향된 대체값 그리고 한계를 만족하지 않은 대체값을 제시할 가능성이 있다. 이에 본 논문은 회귀모형에 기반을 두고 결측치들을 대체를 함에 있어 이상치와 논리적 한계조건이 자료에 존재하는 경우, 다양한 로버스트 회귀모형과 다중대체 방법의 조합을 통해 해결점을 모색하고자 한다. 이를 위해 이들 방법들의 최적의 조합을 다양한 시나리오별로 모의실험을 통하여 찾아보고 이에 대하여 논의하였다.

공간-시계열 모형을 이용한 결측대체 방법에 대한 연구 (Imputation Method using the Space-Time Model in Sample Survey)

  • 이진희;신기일
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.499-514
    • /
    • 2007
  • 표본조사에서 항목무응답 발생 시 결측대체에 사용되는 일반적인 방법은 결측변수와 관계 있는 보조변수를 이용하는 것이다. 최근 이진희 등 (2006)은 2002년 강원지역의 농가경제 자료를 이용하여 표본조사에서 공간통계를 이용한 결측대체 (missing imputation) 방법을 비교하였으며, 자료들 사이에 지역적 상관이 존재할 때 이를 이용한 결측대체가 효율적임을 보였다. 본 논문에서는 이를 확장한 개념으로, 강원지역의 2000-2002까지의 월별 자료가 공간상관과 시계열상관이 존재함을 확인하고 이 관계를 결측대체에 이용하였다. 또한 공간상관과 시계열상관이 모두 존재할 경우 공간시계열 모형을 이용한 결측 대체 방법이 공간모형을 이용하였을 때에 비해 더 효율적임을 모의실험을 통해 확인하였다.

특성도를 이용한 결측치 대체방법 (Imputation method for missing data based on measure of property)

  • 김형주;김동재
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.463-473
    • /
    • 2017
  • 임상시험에서 어떻게 결측치를 다룰 것인가 하는 것은 큰 문제이다. 주로 주분석에서 사용하는 ITT원칙은 결측치가 어떠한 메커니즘을 따른다는 가정 하에 결측치를 대체 하지만 가정에 대한 타당성이 불확실한 문제가 있다. 즉, 올바른 결측치 대체방법은 매우 중요하다. 본 연구에서는 Kang과 Kim (1997)이 제안한 일치도와 유지도의 개념을 이용하여 새로운 결측치 대체방법을 제안하였다. 또한 실제자료를 이용하여 예제를 제시하고 Monte Carlo 모의실험을 통하여 기존방법과 대체 성능을 비교하였다.