Comparision of Missing Imputaion Methods In fine dust data

미세먼지 자료에서의 결측치 대체 방법 비교

  • Received : 2019.11.29
  • Accepted : 2019.12.31
  • Published : 2019.12.30


Missing value replacement is one of the big issues in data analysis. If you ignore the occurrence of the missing value and proceed with the analysis, a bias can occur and give incorrect results for the estimate. In this paper, we need to find and apply an appropriate alternative to missing data from weather data. Through this, we attempted to clarify and compare the simulations for various situations using existing methods such as MICE and MissForest based on R and time series-based models. When comparing these results with each variable, it was determined that the kalman filter of the auto arima model using the ImputeTS package and the MissForest model gave good results in the weather data.

자료 분석에 있어서 결측치 대체는 큰 이슈중 하나이다. 결측치의 발생을 무시하고 분석을 진행하게 되면, bias가 발생하여 그에 따른 추정치에 대해 잘못된 결과를 줄 수 있다. 이 논문에서는 미세먼지자료에서 발생한 결측치를 적절한 대체 방법을 찾아 적용하자 한다. 이를 통해 시계열 자료에서 발생한 결측치를 R을 기반으로 한MICE, MissForest 등의 기존 방법과 시계열 기반 모델을 사용하여 여러 가지 상황에 대한 시뮬레이션을 설정해 비교해 밝히고자 하였다. 이 결과에 대해 각각을 변수 별로 비교하였을때 ImputeTS 패키지를 이용한 auto arima 모델의 kalman filter를 적용한 모형과 MissForest 모형이 미세먼지자료 결측치 대체에서는 좋은 결과를 주는 것으로 판단되었다.



  1. Eekhout, I., de Boer, R.M., Twisk, J.W.R., de Vet, H.C.W., Heymans, M.W. Missing data: a systematic review of how they are reported and handled. (2012).
  2. Rubin, D.B. Inference and missing data. (1976).
  3. Johannes Bauer, Orazio Angelini and Alexander Denev. Imputation of multivariate time series data performance benchmarks for multiple imputationand spectral techniques. (2013).
  4. Little, R.J.A. and Rubin, D.B. . Statistical Analysis with Missing Data. (1989).
  5. Stef van Buuren and Karin Groothuis-Oudshoorn. mice: Multivariate Imputation by Chained Equations in R. (2011).
  6. James Honaker, Garay King, and Matthew Blackwell. AMELIA II : A Program for Missing Data.
  7. Daniel J Stekhoven and Peter Buhlmann. MissForest non-parametric missing value imputation for mixed-type data. (2012).
  8. Seffen Moritz. imputeTS R Cran. (2019).
  9. Camille Dezecache, T.T.Hong Phan and Emilie Poisson-caillault. DTWBI R cran. (2018).
  10. Roderic J.A. Little. A test of Missing Completely at Random for Multivariate Data with Missing Values. (2019).
  11. Geert Molenberghs and Michael G.Kenward. Missing Data in Clinical studies. (2007).