시계열자료에서 결측치 추정방법의 비교

The Comparison of Imputation Methods in Time Series Data with Missing Values

  • Lee, Sung-Duck (Department of Information and Statistics, Chungbuk National University) ;
  • Choi, Jae-Hyuk (Department of Statistics, Sung Kyun Kwan University) ;
  • Kim, Duck-Ki (Department of Information and Statistics, Chungbuk National University)
  • 발행 : 2009.07.31


시계열의 결측값은 미지의 모수로 취급될 수 있으며 최대우도방법 또는 확률변수방법에 의해 추정할 수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할 수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 ARMA 모형을 적용하여 두 가지 추정방법인 최대우도추정방법과 확률변수방법을 이용해 결측값을 대체하는 방법을 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001${\sim}$2006년 동안의 월별 Mumps 자료를 이용하여 앞의 두 가지 추정방법을 예측오차제곱합(SSF)을 구하여 비교한다.

Missing values in time series can be treated as unknown parameters and estimated by maximum likelihood or as random variables and predicted by the expectation of the unknown values given the data. The purpose of this study is to impute missing values which are regarded as the maximum likelihood estimator and random variable in incomplete data and to compare with two methods using ARMA model. For illustration, the Mumps data reported from the national capital region monthly over the years 2001 ${\sim}$ 2006 are used, and results from two methods are compared with using SSF(Sum of square for forecasting error).



  1. Bayarri, M. J., DeGroot, M. H. and Kadane, J. B. (1986). What is the Likelihood Function? In: Statistical Decision Theory and Related Topics IV, Volume 1., (S. S. Gupta and J. O. Berger eds), New York: Springer-Verlag
  2. Box, G. E. P. and G. C. Tiao (1973). Bayesian Inference in Statistical Analysis, Reading, M. A, Addison-Wesley
  3. Brubacher, S. R. and Wilson, T. (1976). Interpolating time series with application to the estimation of holiday effects on electricity demand, Applied statistics, 25, 107-116
  4. Dunsmuir, W. and Robinson, P. M. (1981). Estimation of time series models in the presence of missing data, Journal of the American Statistical Association, 76, 560-68
  5. Pena, D. and Tiao, G. C. (1991) A note on likelihood estimation of missing values in time series, The American Statistician, 45, 212-213