DOI QR코드

DOI QR Code

A Sparse Data Preprocessing Using Support Vector Regression

Support Vector Regression을 이용한 희소 데이터의 전처리

  • Published : 2004.10.01

Abstract

In various fields as web mining, bioinformatics, statistical data analysis, and so forth, very diversely missing values are found. These values make training data to be sparse. Largely, the missing values are replaced by predicted values using mean and mode. We can used the advanced missing value imputation methods as conditional mean, tree method, and Markov Chain Monte Carlo algorithm. But general imputation models have the property that their predictive accuracy is decreased according to increase the ratio of missing in training data. Moreover the number of available imputations is limited by increasing missing ratio. To settle this problem, we proposed statistical learning theory to preprocess for missing values. Our statistical learning theory is the support vector regression by Vapnik. The proposed method can be applied to sparsely training data. We verified the performance of our model using the data sets from UCI machine learning repository.

웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

Keywords

References

  1. G. Casella, R. L. Berger, “Statistical Inference”, Duxbury Press, (1990).
  2. C. Cortes, V. Vapnik, “Support Vector Networks”, Machine Learning, vol. 20, 273-297, 1995.
  3. J. Han, K. Kamber, "Data Mining: concepts and Techniques", Morgan Kaufmann Publishers, 2000.
  4. D. C. Hoaglin, F. Mosteller, J. W. Tukey, nderstanding robust and exploratory data analysis”, John Wiley & Sons Inc. 2000.
  5. R. J. A. Lavori, R. Dawson, D. Shera, “A Multiple Imputation Strategy for Clinical Trials with Truncation of Patent Data”, Statistics in Medicine, vol. 14, 1913-1925, 1995. https://doi.org/10.1002/sim.4780141707
  6. R. J. A. Little, D. B. Rubin, “Statistical Analysis with Missing Data”, Wiley Interscience, 2002.
  7. D. B. Rubin, “Multiple Imputation for Nonresponse in Surveys”, John Wiley & Sons, 1987.
  8. J. L. Schafer, “Analysis of Incomplete Multivariate Data”, Chapman and Hall, 1997.
  9. V. N. Vapnik, “The Nature of Statistical Learning Theory”, Springer, 1995.
  10. V. N. Vapnik, “Statistical Learning Theory”, Hohn Wiley & Sons, 1998.
  11. UCI Machine Learning Repository, www.ics.uci. edu/mlearn