DOI QR코드

DOI QR Code

Prediction Model for Unpaid Customers Using Big Data

빅 데이터 기반의 체납 수용가 예측 모델

  • Jeong, Jaean (Department of Computer Engineering, Paichai University) ;
  • Lee, Kyouhwan (Department of Computer Engineering, Paichai University) ;
  • Jung, Hoekyung (Department of Computer Engineering, Paichai University)
  • Received : 2020.03.06
  • Accepted : 2020.04.22
  • Published : 2020.07.31

Abstract

In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm.

본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.

Keywords

References

  1. J. K. Hong, "Analysis of Sales Volume by Products According to Temperature Change Using Big Data Analysis," The Korea Journal of BigData, vol. 4 no.2. pp. 85-91, 2019. https://doi.org/10.36498/kbigdt.2019.4.2.85
  2. S. H. Back, "Sales Volume Prediction Mode for Temperrature Change using Big Data Analysis," The Korea Journal of BigData, vol. 4 no.1, pp. 29-38, 2019. https://doi.org/10.36498/kbigdt.2019.4.1.29
  3. D. S. Lee, "The Trends of Next Generation Cyber Security," Journal of the Korea Institute of Information and Communication Engineering, vol. 23, no. 11, pp. 1478-1481, Nov. 2019.
  4. J. P. Yu, "A Model of Predictive Movie 10 Million Spectators through Big Data Analysys," The Korea Journal of BigData, vol.3, no.1, pp.63-71, 2018. https://doi.org/10.36498/kbigdt.2018.3.1.63
  5. D. J.Park and W.S. Kim, "Improvement of the Paralled Importation Logistics Process Using Big Data," vol. 17, no. 4, pp. 267-273, Dec. 2019. https://doi.org/10.6109/jicce.2019.17.4.267
  6. Y. C. Choung, "Detection of redundant data in big data environment," ITPM, vol. 11, no.3, pp. 1227-1232, 2019.
  7. K. S. Choi, "K-SuperCast: A big data based GDP forecasing model," Journal of the Korea Data & Information Science Society, vol.30, no.4, pp. 723-743, 2019. https://doi.org/10.7465/jkdi.2019.30.4.723
  8. J. M. Jo, "Effectiveness of Normalization Pre-Processing of Big Data to the Machine Learning Performance," The Journal of the Korea Institute of Electronic Communication Science, vol.14, no.03, pp. 547-552, 2019.