분류모형을 이용한 여신회사 고객대출 분석에 관한 연구

A study on the analysis of customer loan for the credit finance company using classification model

  • 투고 : 2013.03.12
  • 심사 : 2013.04.22
  • 발행 : 2013.05.31


데이터마이닝이란 대용량의 자료로부터 의미있는 패턴과 규칙을 찾기 위해서 자동화되거나 반자 동화된 도구를 이용하여 데이터를 탐색하고 분석하는 과정이다. 이러한 데이터마이닝 기법을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 합리적인 의사 결정이 가능하게 된다. 금융분야에서도 데이터베이스 마케팅, 신용평가, 서비스 품질개선, 부정행위 적발 등에 데이터마이닝 기법이 다양하게 사용되고 있다. 금융거래에서 대출의 중요도와 필요성이 시간이 지날수록 점점 높아지고 있으나, 대출을 이용하는 사람과 대출건수가 증가할수록 부실대출의 위험이 함께 증가하기 때문에 대출을 해주는 여신기관의 손실을 막기 위해서는 대출여부를 정확하게 예측할 필요성이 존재한다. 본 연구에서는 국내 A 여신기관의 실제 데이터를 사용하여 대출심사에 관한 연구를 진행하였으며, 모형 구축에 있어서 안정적이고 정확한 예측을 보이는 모형을 찾기 위하여 원 데이터에서의 샘플 정제와 여러가지 모형, 데이터마이닝 기법 등을 사용하여 다양한 모형을 구축하고 비교, 평가하였다.

The importance and necessity of the credit loan are increasing over time. Also, it is a natural consequence that the increase of the risk for borrower increases the risk of non-performing loan. Thus, we need to predict accurately in order to prevent the loss of a credit loan company. Our final goal is to build reliable and accurate prediction model, so we proceed the following steps: At first, we can get an appropriate sample by using several resampling methods. Second, we can consider variety models and tools to fit our resampling data. Finally, in order to find the best model for our real data, various models were compared and assessed.



  1. Berry, M. and Linoff, G. (1997). Data mining techniques: For marketing, sales and customer support, Wiley, New York.
  2. Berry, M. and Linoff, G. (2011). Data mining techniques: For marketing, sales and customer relationship management, Wiley, New York.
  3. Breiman, L. (1984). Algorithm CART, California Wadsworth International Group, Belmont, CA.
  4. Cho, K. H. and Park, H. C. (2011a). A study on decision tree creation using intervening variable. Journal of the Korean Data & Information Science Society, 22, 671-678.
  5. Cho, K. H. and Park, H. C. (2011b). A study on removal of unnecessary input variables using multiple external association rule. Journal of the Korean Data & Information Science Society, 22, 877-884.
  6. Chung, H., Kang, C. and Kim, K. C. (2008). A study on the effect of oversampling for unbalanced data. Journal of the Korean Data Analysis Society, 10, 2089-2098.
  7. Hartigan, J. A. (1975). Algorithm CHAID, John Wiley and Sons, New York.
  8. Kang, H and Han, S. (1999). Data mining methodology and application, Free-Academy, Seoul.
  9. Park, H. C. (2010). Association rule ranking function by decreased lift influence. Journal of the Korean Data & Information Science Society, 21, 397-405.
  10. Quinlan, J. R. (1993). C4.5: Programs for machine learning, San Mateo, Morgan Kaufmann, CA.

피인용 문헌

  1. Identification of major risk factors association with respiratory diseases by data mining vol.25, pp.2, 2014,
  2. Exploratory study on the relationship between supply chain performance and ICT capabilities vol.25, pp.4, 2014,
  3. Detection of Phantom Transaction using Data Mining: The Case of Agricultural Product Wholesale Market vol.21, pp.1, 2015,
  4. Developing the credit risk scoring model for overdue student direct loan vol.27, pp.5, 2016,
  5. Developing the high risk group predictive model for student direct loan default using data mining vol.26, pp.6, 2015,
  6. Comparisons of the corporate credit rating model power under various conditions vol.26, pp.6, 2015,
  7. 랜덤 투영 앙상블 기법을 활용한 적응 최근접 이웃 판별분류기법 vol.34, pp.3, 2013,