DOI QR코드

DOI QR Code

Predicting Default Risk among Young Adults with Random Forest Algorithm

랜덤포레스트 모델을 활용한 청년층 차입자의 채무 불이행 위험 연구

  • Received : 2022.06.20
  • Accepted : 2022.08.10
  • Published : 2022.08.31

Abstract

There are growing concerns about debt insolvency among youth and low-income households. The deterioration in household debt quality among young people is due to a combination of sluggish employment, an increase in student loan burden and an increase in high-interest loans from the secondary financial sector. The purpose of this study was to explore the possibility of household debt default among young borrowers in Korea and to predict the factors affecting this possibility. This study utilized the 2021 Household Finance and Welfare Survey and used random forest algorithm to comprehensively analyze factors related to the possibility of default risk among young adults. This study presented the importance index and partial dependence charts of major determinants. This study found that the ratio of debt to assets(DTA), medical costs, household default risk index (HDRI), communication costs, and housing costs the focal independent variables.

청년층 및 저소득층을 포함한 취약계층과 제2금융권을 중심으로 한 부채 불이행에 대한 우려가 증가하고 있다. 청년층의 가계부채 건전성은 최근 고용 부진, 학자금대출 부담 증가, 제2금융권에서 고금리 대출 증가 등이 복합적으로 작용하여 더욱 취약해졌다. 본 연구의 목적은 한국의 청년층 차입자를 대상으로 채무 불이행 가능성을 진단하고, 그 가능성에 영향을 주는 요인을 예측하는 것이다. 이러한 목적을 달성하기 위하여 본 연구는 2021년 「가계금융·복지조사」를 활용하고, 청년층의 채무 불이행 가능성과 관련된 요인들을 포괄적으로 분석하기 위하여 머신러닝 알고리즘의 랜덤포레스트 방법을 적용하였다. 청년층 차입자의 채무 불이행 위험을 예측하는 모형을 탐색한 뒤 중요도 지수를 산출하고, 중요도가 높은 설명변수들을 선별한 뒤, 주요 결정요인들의 부분 의존성 도표를 제시하고자 하였다. 최종적으로 자산대비부채비율(DTA), 의료비 비중, 가계부실위험지수(HDRI), 통신비 비중, 주거비 비중이 주요한 변인으로 나타났다.

Keywords

Acknowledgement

이 논문은 2019년 대한민국 교육부와 한국연구재단의 인문사회분야 신진연구자지원사업의 지원을 받아 수행된 연구임(NRF-2019S1A5A8032831).

References

  1. 강종구(2017). 가계부채가 소비와 경제성장에 미치는 영향유량효과와 저량효과 분석-.한국은행 경제연구원, 23(2), 28-57.
  2. 금융위원회(2017.10.24). 가계부채 종합대책. https://www.moef.go.kr/nw/nes/detailNesDtaView.do?searchBbsId1=MOSFBBS_000000000028&searchNttId1=MOSF_000000000011337&menuNo=4010100.
  3. 금융위원회(2021.10.26). [보도자료] 「가계부채 관리 강화방안」 발표. https://www.fsc.go.kr/no010101/76740.
  4. 금융위원회(2022.7.14). 금융부문 민생안정 과제 추진현황 및 계획 금융위원장 브리핑. https://www.fsc.go.kr/no010103/78089.
  5. 김영일.진경희(2018). 가계 채무불이행 위험의 결정요인에 대한 분석과 시사점. 금융연구, 32(2), 63-92.
  6. 김태진.홍정식.전윤수.박종률.안태욱(2018). 랜덤포레스트를 이용한 모기업의 하향 거래처 기업의 분류: 자동차 부품산업의 가치사슬을 중심으로. 한국전자거래학회지, 23(1), 1-22. https://doi.org/10.7838/JSEBS.2018.23.1.001
  7. 김태은.양세정(2018). 청년층의 부채상환에 대한 영향요인 연구. 소비자학연구, 29(6), 105-133.
  8. 김혜련.최현자(1999). 유형별 가계소득과 자산이 소비지출에 미치는 영향: 주거보유형태별 분석. 대한가정학회지, 37(10), 91-106.
  9. 김현정.김우영(2009). 가계부채가 소비에 미치는 영향: 미시자료를 중심으로. 경제분석, 15(3), 1-36. UCI : G704-000447.2009.15.3.001.
  10. 남상호(2015). 우리나라 가계 소득 및 자산 분포의 특징. 보건 복지 Issues & Focus, 277, 1-8. DOI: 10.23064/2015.04.277.
  11. 노혜민.손상희(2017). 청년층 소비자의 신용등급관리역량에 한 연구. 소비자정책교육연구, 13(2), 1-27. DOI : 10.15790/cope.2017.13.2.001.
  12. 동아일보(2021.9.23). 빚으로 사는 20대, 가계대출 증가폭전세대의 2배. https://www.donga.com/news/article/all/20210923/109354480/1.
  13. 매일경제(2022.4.30). ''20대 '카드빚' 무섭게 늘어나고 있다''...코로나19 때 뭐했나 보니. https://www.mk.co.kr/news/economy/view/2022/04/384107/.
  14. 박윤태.노정현(2017). 가구 연령별 가계부채 상환위험요인에 관한 연구. 대한부동산학회지, 35(2), 223-242.
  15. 박윤태(2018). 자산분위별 가계부채 상환불능위험도 추정연구. 대한부동산학회지, 36(1), 193-210.
  16. 박연우.허석균(2018). 가계부채 결정요인과 부채부담 취약계층의 재무곤경 및 신용위험 분석. 금융정보연구, 7(1), 1-31. DOI : 10.35214/rfis.7.1.201802.001.
  17. 박정민.송태민(2021). 소셜 빅데이터와 머신러닝을 활용한 가계부채 부실위험의 예측. 사회보장연구, 37(3), 71-90.
  18. 배영목(2011). 가계부채 상환부담의 분포와 추이. 경제발전연구, 17(1), 87-120. UCI : G704-000850.2011.17.1.001 G704-000850.2011.17.1.001
  19. 백종호(2016). 국내 청년층 금융 현황 및 발전 방향. 하나금융경영연구소 연구보고서.
  20. 신진욱.박정민.김영(2019). 불운한 생애사에 따른 과중채무 경험의 확률 추정 및 원인 분석. 한국사회복지학, 71(2), 279-305. DOI : 10.20970/kasw.2019.71.2.011.
  21. 서울시복지재단(2022.5.4). 서울시복지재단, '개인회생' 신청 청년 실태조사 발표. https://www.welfare.seoul.kr/web/contents/archive1-6.do?schM=view&id=20321&schBcid=press.
  22. 서종덕(2016). 데이터 마이닝 기법을 이용한 환율예측: GARCH와 결합된 랜덤포레스트모형. 산업경제연구, 29(5), 1607-1628. UCI : G704-001438.2016.29.5.011
  23. 아시아경제(2018.6.22). [대한민국 부채보고서②] '빚' 썸(SOME)의 청춘. https://www.asiae.co.kr/article/2018062212095556888에서 2022년 1월 3일 인출.
  24. 오주한.정석원(2013). 임상의를 위한 다변량 분석의 실제. 대한견주관절학회지, 16(1), 63-72. UCI : G704-SER000010153.2013.16.1.005
  25. 이동진.한진현(2017). 종합적 상환여건을 반영한 과다부채 가계의 리스크 요인 분석. 한국응용경제학회, 19(3), 5-37.
  26. 이종희(2019). 한국 청년가계의 부실화 가능성 연구. 한국가족자원경영학회지, 23 (2), 99-115. DOI : 10.22626/jkfrma.2019.23.2.006.
  27. 이종희(2020). 데이터마이닝 기법을 이용한 중년층의 가계 부채 연체 가능성 분류 연구. 가정과삶의질연구, 38(3), 1-16. DOI : 10.7466/JKHMA.2020.38.3.1.
  28. 유경원(2009). 가계부채에 관한 문제 분석: 미시자료를 중심으로. 경제분석, 15(4), 1-32. UCI : G704-000447.2009.15.4.004. G704-000447.2009.15.4.004
  29. 유진은(2015). 랜덤 포레스트. 교육평가연구, 28, 427-448. UCI : G704-000051.2015.28.2.00.
  30. 유재인.정호성(2021). 개인 소비 지출 및 소득 충격에 의한 채무 불이행 행태 분석. 금융정보연구, 10(2), 1-38. DOI : 10.35214/rfis.10.2.202106.001.
  31. 연합뉴스(2018.10.7). 1천 50조 가계부채 2금융권, 취약계층부터 부실화 조짐. https://www.yna.co.kr/view/AKR20181005179900002.
  32. 주동헌(2019). 금리 상승이 수도권 및 비수도권 가계의 채무상환능력에 미치는 영향: 자산측면을 중심으로. 한국자료분석학회, 21(3), 1329-1340. DOI : 10.37727/jkdas.2019.21.3.1329.
  33. 전국경제인연합회(2021.11.14). 청년 체감경제고통지수 분석 보도자료. https://www.fki.or.kr/FkiAct/Promotion/Report/View.aspx?content_id=5356f082-b2c9-4350-8ae2-230975dbcaa1&cPage=&search_type=0&search_keyword=.
  34. 최필선.민인식(2018). 재정패널조사를 이용한 우리나라 복권지출의 역진성 분석. 재정 학연구, 11(1), 49-76.
  35. 최효미.유해미.김지현.김태우(2016). 청년층의 비혼에 대한 인식과 저출산 대응 방안. 연구보고 2016-19.
  36. 파이낸셜뉴스(2018.1.24). 한국은행 가계부채 건전성. 청년층-노년층이 중장년층보다 취약. https://www.fnnews.com/news/201801241130213610.
  37. 한국경제(2018.10.1). '1500조 가계부채' 금리인상 타격... 금융당국 일제히 현황 점검. https://www.hankyung.com/economy/article/201810079257Y.
  38. 한국경제연구원(2021.11.15). 보도자료. '21년上 청년 체감경제고통지수 27.2', 15년 집계 이후 최고 수준. http://www.keri.org/web/www/news_02?p_p_id=EXT_BBS&p_p_lifecycle=0&p_p_state=normal&p_p_mode=view&_EXT_BBS_struts_action=%2Fext%2Fbbs%2Fview_message&_EXT_BBS_messageId=356277.
  39. 한국은행a(2021.2.22). 2021년 4/4분기 가계신용. 보도자료. https://eiec.kdi.re.kr/policy/materialView.do?num=223814&topic=.
  40. 한국은행b(2021.12.16). 2021년 가계금융복지조사 결과 보도자료. https://www.bok.or.kr/portal/bbs/P0000559/view.do?nttId=10067944&menuNo=200690&pageIndex=1.
  41. 한국청소년정책연구원(2020). 청년 사회.경제 실태 및 정책방안 연구. 연구보고 16-R08.
  42. 한요셉(2020). 청년 고용의 현황 및 정책제언. KDI 경제전망. 보고서.
  43. 현대경제연구원(2018). 청년층 경제 활동 제약의 5대 특징과 시사점. 현대경제연구원. 18-07(통권 782호).
  44. Legal Times(2021.10.16). 개인.법인파산 신청 전년 대비 10.5% 증가. https://www.legaltimes.co.kr/news/articleView.html?idxno=63131.
  45. Ando, A. & Modigliani, F.(1963). The life-cycle hypothesis of saving: Aggregate implications and tests. American Economic Review, 53, 55-84.
  46. Breiman, L.(2001). Random forests. Machine learning, 45(1), 5-32. https://doi.org/10.1023/A:1010933404324
  47. Dunkin, T. A.(2000). Credit cards: Use and consumer attitudes, 1970-2000. Federal Reserve Bulletin, 623-634.
  48. Hamza, M. & Larocque, D.(2005). An empirical comparison of ensemble methods based on classification trees. Journal of Statistical Computation and Simulation, 75, 629-643. https://doi.org/10.1080/00949650410001729472
  49. Hastie, T., Tibshirani, R. & Friedman, J. H.(2009). The elements of statistical learning: data mining, inference, and prediction(2nd ed.). New York: Springer.
  50. OECD(2021). Household debt. https://data.oecd.org/hha/household-debt.htm.
  51. Sandri, M. & Zoccolotto, P.(2010). Analysis and correction of bias in total decrease in node impurity measures for tree-based algorithms. Statistics and Computing, 20(4), 393-407. https://doi.org/10.1007/s11222-009-9132-0
  52. Strobl, C., Malley, J. & Tutz, G.(2009). An introduction to recursive partitioning: rationale, application, and characteristics of classification and regression trees, bagging, and random forests. Psychological Methods, 14(4), 323-348. https://doi.org/10.1037/a0016973
  53. Varian, H. R.(2014). Big data: New tricks for econometrics. Journal of Economic Perspective, 28, 3-28. https://doi.org/10.1257/jep.28.2.3