Polyclass in Data Mining

데이터 마이닝에서의 폴리클라스

  • 구자용 (한림대학교 정보통계학과) ;
  • 박헌진 (인하대학교 통계학과) ;
  • 최대우 (한국외국어대학교 정보통계학과)
  • Published : 2000.09.01

Abstract

Data mining means data analysis and model selection using various types of data in order to explore useful information and knowledge for making decisions. Examples of data mining include scoring for credit analysis of a new customer and scoring for churn management, where the customers with high scores are given special attention. In this paper, scoring is interpreted as a modeling process of the conditional probability and polyclass scoring method is described. German credit data, a PC communication company data and a mobile communication company data are used to compare the performance of polyclass scoring method with that of the scoring method based on a tree model.

다양한 형태의 데이터로부터 의사 결정에 유용한 정보 및 지식을 발견하려는 일련의 데이터분석 및 모형 선정과정을 데이터 마이닝(Data Mining)이라고 할 수 있다. 데이터 마이닝의 적용 예로는 신규고객에 대한 신용평가, 고객이탈방지 등과 같은 분야에서 발생하는 스코링 문제를 들 수 있는데 신용평가에서는 신용이 나쁠 가능성을 스코어로 나타내고 스코어가 높은 고객을 대상으로 특별관리를 할 수 있을 것이며 고객이탈방지에서는 이탈가능성을 스코어로 나타내고 스코어가 높은 고객을 대상으로 이탈 방지 캠페인을 벌일 수 있을 것이다. 본 논문에서는 스코링 문제를 사후확률에 대한 모형화 문제로 파악하였다. 폴리클라스를 스코링 문제에 적용하는 방법을 소개한 후 이를 독일 신용 데이터, 국내 모 PC통신회사 데이터 및 국내 모 이동통신 데이터에 적용하였다. 스코링의 성능은 이득률을 이용하여 평가하고자 하는데 나무 모형에 비하여 폴리클라스 방법이 우수함을 확인하였다.

Keywords

References

  1. 정보과학의 통계학 응용 학술회의 The development of data mining solution based on intranet 구자용;박헌진;최대우
  2. 보험개발연구 no.3 데이터 마이닝을 이용한 자동차사고 다발자 성향분석 최대우;박일용;박헌진
  3. Ann. Statist v.8 Asymptotic integrated mean square error using least squares and bias minimizing spline Agarwal, G. G.;Studden, W. J.
  4. Comput. Statist. Data Anal. v.15 Fitting additive models to data Breiman, L.
  5. Machine Learning v.26 Bagging predictors Breiman, L.
  6. Ann. Statist v.19 Multivariate adaptive regression splines Friedman, J. H.
  7. Technometrics v.31 Flexible parsimonious smoothing and additive modeling Friedman, J. H.;Silverman, B. W.
  8. Generalized Additive Models Hastie, T. J.;Tibshirani, R. J.
  9. Ann. Statist v.26 Projection estimation in multiple regression with application to functional ANOVA models Huang, J. Z.
  10. J. Korean Statist. Soc. v.19 Optimal rates of convergence for tensor spline regression estimators Koo, J. -Y.
  11. J. Korean Statist. Soc. v.21 Optimal rates of convergence in tensor Sobolev regression Koo, J. -Y.
  12. J. Comput. Graphical Statist v.6 Spline estimation of discontinuous regression functions Koo, J. -Y.
  13. Statist. Prob. Lett. v.40 B-spline estimation of regression functions with errors in variable Koo, J. -Y.;Lee, K. -W
  14. J. Statist. Comput. Simul v.50 Bivariate B-splines in generalized linear models Koo, J. -Y.;Lee, Y.
  15. J. Amer. Statist. Assoc. v.92 Polychotonous regression Kooperberg, C.;Bose, S.;Stone, C. J.
  16. J. Amer. Statist. Assoc. v.90 Hazard regression Kooperberg, C.;Stone, C. J.;Troung, Y. K.
  17. Tehchnical report 979 An empirical comparison of decision trees and other classification methods Lim, T. -S.;Loh, W, -Y.
  18. Generalized Linear Models McCullagh, P.;Nelder, J. A.
  19. Report NASA 166034 Curve fitting and modeling with splines using statistical variable selection techniques Smith, P. L.
  20. Ann. Statist. v.13 Additive regression and other nonparametric models Stone, C. J.
  21. Ann. Statist v.14 The dimensionality reduction principle for generalized additive models Stone, C. J.
  22. Ann. Statist v.25 Polynomial splines and their products in extended linear modeling Stone, C. J.;Hansen, M.;Kooperberg, C.;Troung, Y.
  23. Ann. Statist v.22 The use of polynomial splines and their products in multivariate function estimation Stone, C. J.
  24. In Proceedings of the Statistical Computing Section Additive Spline in statistics Stone, C. J.;Koo, C. -Y.