DOI QR코드

DOI QR Code

군집화 및 특성도를 이용한 결측치 대체 방법

Imputation method for missing data based on clustering and measure of property

  • 김성현 (가톨릭대학교 의생명.건강과학과) ;
  • 김동재 (가톨릭대학교 의생명.건강과학과)
  • Kim, Sunghyun (Department of Biomedicine.Health Science, The Catholic University of Korea) ;
  • Kim, Dongjae (Department of Biomedicine.Health Science, The Catholic University of Korea)
  • 투고 : 2017.08.22
  • 심사 : 2017.12.15
  • 발행 : 2018.02.28

초록

데이터를 수집함에 있어 여러 가지 이유로 결측이 발생하게 된다. 결측치는 분석 및 결과에 적지 않은 영향을 미치므로, 이를 해결하기 위해 결측치를 처리하는 다양한 방법들이 연구되었다. 반복 측정 자료에서 초기 시점의 측정값이 어떠한지에 따라서 뒤의 시점 측정값이 어느 정도 영향을 받을 수도 있을 것으로 생각된다. 하지만 기존 방법에서는 이러한 개념을 이용한 결측치 대체가 없었으므로 본 연구에서는 반복 측정 자료에서 초기 시점을 이용한 군집화 및 Kim과 Kim (2017)이 제안한 특성도를 이용하여 새로운 결측치 대체 방법을 제안하였다. 또한 여러 반복 측정 자료를 이용하여 Monte Carlo 모의실험을 통하여 기존 결측 대체 방법과 제안 방법의 여러 대체 성능을 비교해 보았다.

There are various reasons for missing values when collecting data. Missing values have some influence on the analysis and results; consequently, various methods of processing missing values have been studied to solve the problem. It is thought that the later point of view may be affected by the initial time point value in the repeated measurement data. However, in the existing method, there was no method for the imputation of missing values using this concept. Therefore, we proposed a new missing value imputation method in this study using clustering in initial time point of the repeated measurement data and the measure of property proposed by Kim and Kim (The Korean Communications in Statistics, 30, 463-473, 2017). We also applied the Monte Carlo simulations to compare the performance of the established method and suggested methods in repeated measurement data.

키워드

참고문헌

  1. Choi, Y. and Jeong, K. (2003). Multivariate Analysis using SAS and Its Application, Free Academy, Seoul.
  2. Jeon, C. (2012). Data Mining Techniques and Applications, Hanarae Academy, Seoul.
  3. Kang, S. (2013). Medical Statistics for New Medicine Development, Free Academy, Seoul.
  4. Kim, H. and Kim, D. (2017). Imputation method for missing data based on measure of property, The Korean Communications in Statistics, 30, 463-473.
  5. Lee, S. (2008). Conjugation plan of proc MI, Industrial Science Research, 26, 35-41.
  6. Shin, S. (2010). Model-based cluster analysis of missing data considering outlier, Korea University Graduate School.
  7. Ward, J. H. (1963). Hierarchical groupings to optimize an objective function, Journal of the American Statistical Association, 58, 234-244.