• 제목/요약/키워드: missing data imputation

검색결과 144건 처리시간 0.024초

Estimating a Binomial Proportion with Bayes Estimated Imputed Conditional Means

  • Shin, Min-Woong;Lee, Sang-Eun
    • Communications for Statistical Applications and Methods
    • /
    • 제9권1호
    • /
    • pp.63-73
    • /
    • 2002
  • The one of analytic imputation technique involving conditional means was mentioned by Schafer and Schenker(2000). And their derivations are based on asymptotic expansions of point estimator and their associated variance estimator, and the result of imputation can be thought of as first-order approximations to the estimators. Specially in this paper, we are presenting the method of estimating a Binomial proportion with Bayesian approach of imputed conditional means. That is, instead of using maximum likelihood(ML) estimator to estimate a Binomial proportion, in general, we use the Bayesian estimators and will show the result of estimated Imputed conditional means.

MLE for Incomplete Contingency Tables with Lagrangian Multiplier

  • Kang, Shin-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권3호
    • /
    • pp.919-925
    • /
    • 2006
  • Maximum likelihood estimate(MLE) is obtained from the partial log-likelihood function for the cell probabilities of two way incomplete contingency tables proposed by Chen and Fienberg(1974). The partial log-likelihood function is modified by adding lagrangian multiplier that constraints can be incorporated with. Variances of MLE estimators of population proportions are derived from the matrix of second derivatives of the loglikelihood with respect to cell probabilities. Simulation results, when data are missing at random, reveal that Complete-case(CC) analysis produces biased estimates of joint probabilities under MAR and less efficient than either MLE or MI. MLE and MI provides consistent results under either the MAR situation. MLE provides more efficient estimates of population proportions than either multiple imputation(MI) based on data augmentation or complete case analysis. The standard errors of MLE from the proposed method using lagrangian multiplier are valid and have less variation than the standard errors from MI and CC.

  • PDF

시간자료의 공간화를 통한 일교통량 결측대체 방법론 연구 (Missing Imputation Methodologies for Daily Traffic Counts by Transforming Time Data into Spatial Data)

  • 허태영;오주삼
    • 한국도로학회논문집
    • /
    • 제9권3호
    • /
    • pp.21-28
    • /
    • 2007
  • 본 연구에서는 결측된 일교통량의 대체를 위하여 교통공학에서 많이 활용되고 있는 기존의 선형내삽법에 공간상관성 기법을 고려한 새로운 선형내삽법을 제안하였다. 일교통량과 같이 시간적 특성을 지닌 자료를 공간위에 배치하여 공간적 상관성을 고려할 수 있도록 하였다. 공간상관성을 측정하기 위하여 일교통량의 순환성을 감안하여 같은 주의 요일간 상관성과 주별 같은 요일의 상관성을 나타내는 지표로서 Moran Index를 사용하였다. 실제 분석을 위하여 한국건설기술연구원에서 제공한 2004년 11월의 28일간의 일교통량 자료를 $4{\times}7$ 격자 형태로 배치하여 일별 교통량자료를 공간화 시켜 공간 상관성을 살펴보았으며, 여러 가지 통계적 지표를 통하여 공간 선형내삽법의 우수성을 확인하였다.

  • PDF

공간시계열모형의 결측치 추정방법 비교 (The Comparison of Imputation Methods in Space Time Series Data with Missing Values)

  • 이성덕;김덕기
    • Communications for Statistical Applications and Methods
    • /
    • 제17권2호
    • /
    • pp.263-273
    • /
    • 2010
  • 시계열의 결측값은 미지의 모수 또는 확률변수로 취급할 수 있으며 이에 따른 최대가능도방법과 확률변수방법에 의해 결측치를 추정할수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 기존에는 ARMA모형만을 고려하였는데 이를 확장하여 공간시계열모형인 STAR모형에 적용하여 두 가지 추정방법을 이용해 결측값의 추정 정밀도를 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001~2009년 동안의 월별 Mumps 자료를 이용하여 두 가지 추정방법의 추정 정밀도와 예측정확도를 비교하였다.

Exploiting Patterns for Handling Incomplete Coevolving EEG Time Series

  • Thi, Ngoc Anh Nguyen;Yang, Hyung-Jeong;Kim, Sun-Hee
    • International Journal of Contents
    • /
    • 제9권4호
    • /
    • pp.1-10
    • /
    • 2013
  • The electroencephalogram (EEG) time series is a measure of electrical activity received from multiple electrodes placed on the scalp of a human brain. It provides a direct measurement for characterizing the dynamic aspects of brain activities. These EEG signals are formed from a series of spatial and temporal data with multiple dimensions. Missing data could occur due to fault electrodes. These missing data can cause distortion, repudiation, and further, reduce the effectiveness of analyzing algorithms. Current methodologies for EEG analysis require a complete set of EEG data matrix as input. Therefore, an accurate and reliable imputation approach for missing values is necessary to avoid incomplete data sets for analyses and further improve the usage of performance techniques. This research proposes a new method to automatically recover random consecutive missing data from real world EEG data based on Linear Dynamical System. The proposed method aims to capture the optimal patterns based on two main characteristics in the coevolving EEG time series: namely, (i) dynamics via discovering temporal evolving behaviors, and (ii) correlations by identifying the relationships between multiple brain signals. From these exploits, the proposed method successfully identifies a few hidden variables and discovers their dynamics to impute missing values. The proposed method offers a robust and scalable approach with linear computation time over the size of sequences. A comparative study has been performed to assess the effectiveness of the proposed method against interpolation and missing values via Singular Value Decomposition (MSVD). The experimental simulations demonstrate that the proposed method provides better reconstruction performance up to 49% and 67% improvements over MSVD and interpolation approaches, respectively.

결정트리를 이용하는 불완전한 데이터 처리기법 (Incomplete data handling technique using decision trees)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.39-45
    • /
    • 2021
  • 본 논문은 손실값을 포함하는 불완전한 데이터를 처리하는 방법에 대해 논한다. 손실값을 최적으로 처리한다는 것은 학습 데이터가 가지고 있는 정보들에서 본래값과 가장 근사한 추정치를 구하고, 이 값으로 손실값을 대치하는 것이다. 이것을 실현하기 위한 방안으로 분류기가 정보를 분류하는 과정에서 완성되어가는 결정트리를 이용한다. 다시말해 이 결정트리는 전체 학습 데이터 중에서 손실값을 포함하지 않는 완전한 정보만을 C4.5 분류기에 입력하여 학습하는 과정에서 얻어진다. 이 결정트리의 노드들은 분류 변수의 정보를 가지는데, 루트에 가까운 상위 노드일수록 많은 정보를 포함하게 되고 말단 노드에서는 루트로부터의 경로를 통해 분류 영역을 형성하게 된다. 또한 각 영역에는 분류된 데이터 사건들의 평균이 기록된다. 손실값을 포함하는 사건들은 이러한 결정트리에 입력되어 각 노드의 정보에 따라 순회과정을 통해 사건과 가장 근접한 영역을 찾아가게 된다. 이 영역에 기록된 평균값을 손실값의 추정치로 간주하고, 보상 과정은 완성된다.

시계열자료에서 결측치 추정방법의 비교 (The Comparison of Imputation Methods in Time Series Data with Missing Values)

  • 이성덕;최재혁;김덕기
    • Communications for Statistical Applications and Methods
    • /
    • 제16권4호
    • /
    • pp.723-730
    • /
    • 2009
  • 시계열의 결측값은 미지의 모수로 취급될 수 있으며 최대우도방법 또는 확률변수방법에 의해 추정할 수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할 수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 ARMA 모형을 적용하여 두 가지 추정방법인 최대우도추정방법과 확률변수방법을 이용해 결측값을 대체하는 방법을 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001${\sim}$2006년 동안의 월별 Mumps 자료를 이용하여 앞의 두 가지 추정방법을 예측오차제곱합(SSF)을 구하여 비교한다.