DOI QR코드

DOI QR Code

Comparing Accuracy of Imputation Methods for Categorical Incomplete Data

범주형 자료의 결측치 추정방법 성능 비교

  • 신형원 (연세대학교 컴퓨터과학과 산업시스템 공학과) ;
  • 손소영 (연세대학교 컴퓨터과학과 산업시스템 공학과)
  • Published : 2002.03.01

Abstract

Various kinds of estimation methods have been developed for imputation of categorical missing data. They include category method, logistic regression, and association rule. In this study, we propose two fusions algorithms based on both neural network and voting scheme that combine the results of individual imputation methods. A Mont-Carlo simulation is used to compare the performance of these methods. Five factors used to simulate the missing data pattern are (1) input-output function, (2) data size, (3) noise of input-output function (4) proportion of missing data, and (5) pattern of missing data. Experimental study results indicate the following: when the data size is small and missing data proportion is large, modal category method, association rule, and neural network based fusion have better performances than the other methods. However, when the data size is small and correlation between input and missing output is strong, logistic regression and neural network barred fusion algorithm appear better than the others. When data size is large with low missing data proportion, a large noise, and strong correlation between input and missing output, neural networks based fusion algorithm turns out to be the best choice.

범주형 데이터의 결측치 추정을 위하여 최빈 범주법, 로지스틱 회귀분석, 연관규칙과 같은 다양한 방법이 연구되어 왔다. 본 연구에서는 이러한 방법의 추정 값을 결합하는 신경망 융합과 투표융합 방법을 제안하고 이의 성능을 시뮬레이션을 이용하여 비교하였다. 실험에 사용된 데이터의 특성을 나타내는 인자로는 (1) 입출력 변수간의 연결함수, (2) 데이터의 크기, (3) 노이즈의 크기 (4) 결측치의 비율, (5) 결측발생 함수를 사용하였다. 분석결과는 다음과 같다. 데이터의 크기가 작고 결측 발생 비율이 높으면 최빈 범주법, 연관규칙, 신경망 융합의 성능이 높게 나타났으며 데이터의 크기가 작고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 로지스틱 회귀분석, 신경망 융합의 성능이 높게 나타났다. 데이터의 크기가 크고, 결측치의 비율이 낮으면서, 노이즈가 크고 결측발생 확률이 결측이 안된 나머지 변수에 높은 의존관계가 있으면 신경망 융합의 성능이 높게 나타났다.

Keywords

References

  1. Journal of Quality Technology v.13 Simultaneous Optimization of Several Response Variables Derringer, G.;Suich, R.
  2. Industrial Quality Control v.21 no.10 The desirability function Harrington, E. C., Jr.
  3. Journal of Military Operations Research Society of Korea v.7 Simultaneous Optimization Techniques for Mulit-purpose response Functions Park, Sung. H.
  4. 한국품질경영학회지 v.25 no.1 Simultaneous Optimization of Multiple Response using weighted desirability function 박성현;박준오

Cited by

  1. Handling the nonresponse in sample survey vol.23, pp.6, 2012, https://doi.org/10.7465/jkdi.2012.23.6.1183