• 제목/요약/키워드: Default Risk Prediction

검색결과 16건 처리시간 0.031초

준지도학습 기반의 P2P 대출 부도 위험 예측에 대한 연구 (Semi-Supervised Learning to Predict Default Risk for P2P Lending)

  • 김현정
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.185-192
    • /
    • 2022
  • 본 연구는 P2P(Peer-to-Peer) 대출의 부도위험 예측을 위하여 준지도학습(SSL) 기반의 모델을 개발하고자 한다. 검증된 성능에도 불구하고 지도학습(SL) 방법은 완전 지불 또는 채무불이행과 같이 레이블이 결정된 다수의 데이터가 필요한데 충분한 수의 레이블 데이터를 수집하려면 많은 자원과 시간이 필요하다. P2P 플랫폼이 급성장하면서 대출 건수도 매해 급증하였고, 레이블이 없는 데이터도 지속적으로 증가하고 있다. 본 연구는 P2P 대출 플랫폼인 LendingClub에서 수집한 데이터를 사용하였다. P2P 대출 중 레이블이 결정된 대출에서 추출한 정보뿐만 아니라 레이블이 결정되지 않은 대출에서 추출한 정보도 사용하여 부도 위험을 예측하는 SSL 모델을 개발하여 연구를 수행한 결과, 적은 수의 레이블이 결정된 데이터를 사용함에도 불구하고 SSL 방법으로 구축된 모델이 많은 수의 레이블이 결정된 데이터를 사용하여 학습시킨 SL 방법으로 구축된 모델보다 부도 위험 예측성과가 향상되었다.

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.

A Systematic Analysis on Default Risk Based on Delinquency Probability

  • 김경선;신승우
    • 부동산연구
    • /
    • 제28권3호
    • /
    • pp.21-35
    • /
    • 2018
  • 최근 주택담보대출 이행이력에 대한 연구는 중도상환 위험과 분리하여 채무불이행 위험의 작용을 연구할 필요성에 대하여 주의를 환기한다. 본 연구는 미국 연방주택모기지회사(Freddie Mac)의 유동화된 주택담보 대출 자료를 이용하여 차입자의 채무불이행 의사결정을 다룬다. 자료는 2011년 1월에서 2013년 9월이다. 추정 모델은 Cox의 비례적 위험 모델이다. 본 연구는 두 개의 연체 모형을 내포한 채무불이행 모델을 제안한다. 하나는 연체와 이행 더미변수이고, 다른 모형은 연체확률 모델이다. 본 연구는 Vuong (1989) 논문의 예에 따라, 설명력 테스트를 수행하였다. 테스트는 내포모델과 중첩모델로 나누어 두 차례 시행하였다. 본 연구는 연체확률 모델이 통계적으로 유의하게 연체와 이행 더미변수보다 우월함을 증명하였다. 또한 Shumway (2001) 논문에서 제시된 방법론에 따라 예측력 테스트를 수행한바, 연체확률 모델이 연체와 이행 더미변수 모델보다 우월함을 보였다.

TeGCN:씬파일러 신용평가를 위한 트랜스포머 임베딩 기반 그래프 신경망 구조 개발 (TeGCN:Transformer-embedded Graph Neural Network for Thin-filer default prediction)

  • 김성수;배준호;이주현;정희주;김희웅
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.419-437
    • /
    • 2023
  • 국내 씬파일러(Thin Filer)의 수가 1200만명을 넘어서며, 금융 업계에서 씬파일러의 신용을 정확히 평가하여 우량고객을 선별해 대출을 공급하는 시도가 많아지고 있다. 특히, 차주의 신용정보에 존재하는 비선형성을 반영하여 채무불이행을 예측하기 위해서 다양한 머신러닝 알고리즘을 활용한 연구가 진행되고 있다. 그 중 그래프 신경망 구조(Graph Neural Network)는 일반적인 신용정보 외에 대출자 간의 네트워크 정보를 반영할 수 있다는 점에서 데이터가 부족한 씬파일러의 채무 불이행 예측에서 주목할 만하다. 그러나, 그래프 신경망을 활용한 기존의 연구들은 신용정보에 존재하는 다양한 범주형 변수를 적절히 처리하지 못했다는 한계가 있었다. 이에 본 연구는 범주형 변수의 맥락적 정보를 추출할 수 있는 트랜스포머 메커니즘(Transformer mechanism)과 대출자 간 네트워크 정보를 반영할 수 있는 그래프 합성곱 신경망(Graph Convolutional Network)를 결합하여 효과적으로 씬파일러의 채무 불이행 예측이 가능한 TeGCN (Transformer embedded Graph Convolutional Network)를 제안한다. TeGCN는 일반 대출자 데이터셋과 씬파일러 데이터셋에 대하여 모두 베이스 라인 모델 대비 높은 성능을 보였으며, 특히 씬파일러 채무 불이행 예측에 우수한 성능을 달성했다. 본 연구는 범주형 변수가 많은 신용정보와 데이터가 부족한 씬파일러의 특성에 적합한 모델 구조를 결합하여 높은 채무 불이행 예측 성능을 달성했다는 시사점이 있다. 이는 씬파일러의 금융소외문제를 해결하고 금융업계에서 씬파일러를 대상으로 추가적인 수익을 창출하는데 기여할 수 있을 것이다.

기업의 부채구조를 고려한 옵션형 기업부도예측모형과 신용리스크 (Option-type Default Forecasting Model of a Firm Incorporating Debt Structure, and Credit Risk)

  • 원재환;최재곤
    • 재무관리연구
    • /
    • 제23권2호
    • /
    • pp.209-237
    • /
    • 2006
  • 기존의 기업부도 예측모델들은 장부가치를 기준으로 한 회계적 자료에 의존하여 부도확률을 평가함으로써 시장의 상황변화를 민감하게 반영하지 못하며, 이론적 배경도 약하다는 약점을 가지고 있었다. 그러나 시장정보형 부도예측모형은 기업의 부도예측에 시장가치를 이용함은 물론 Black-Scholes(1973)의 옵션가격결정이론이라는 옵션이론을 배경으로 하고 있어 최근 들어 많은 기업들이 신용리스크를 평가하는 데 사용하고 있으며 그 대표적인 모형이 KMV이다. 우리나라 기업들도 최근 들어 KMV를 많이 사용하고 있으나, 미국기업들과 부채구조가 다른 데도 미국에서 사용하는 KMV모형을 그대로 사용함으로써 부도시점 예측 시 오차가 발생한다는 문제를 가지고 있다. 본 연구에서는 부채구조가 다를 경우 KMV모형을 그대로 사용하면 안 되고 부도확률 산출 시 부채구조를 감안하여야 함을 실증적으로 입증하였다. 즉, KMV모형을 국내에 적용할 경우, 부도확률계산 시 고정부채의 편입비율 50%로 일률적으로 적용하는 것보다는 부채구조를 감안하여 20% 이하로 고정부채편입비율을 조정해야 부도예측능력이 제고된다는 것을 확인함으로써 기업의 신용리스크관리에 중요한 시사점을 제공하고 있다. 또한 IMF 외환위기와 같은 외부충격이 기업부도에 미치는 영향을 확인하였으며, 한국기업들의 경우 유동비율보다는 유동부채비중이 부도점 산정에 보다 중요함도 확인하였다.

  • PDF

Financial Distress Prediction Using Adaboost and Bagging in Pakistan Stock Exchange

  • TUNIO, Fayaz Hussain;DING, Yi;AGHA, Amad Nabi;AGHA, Kinza;PANHWAR, Hafeez Ur Rehman Zubair
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제8권1호
    • /
    • pp.665-673
    • /
    • 2021
  • Default has become an extreme concern in the current world due to the financial crisis. The previous prediction of companies' bankruptcy exhibits evidence of decision assistance for financial and regulatory bodies. Notwithstanding numerous advanced approaches, this area of study is not outmoded and requires additional research. The purpose of this research is to find the best classifier to detect a company's default risk and bankruptcy. This study used secondary data from the Pakistan Stock Exchange (PSX) and it is time-series data to examine the impact on the determinants. This research examined several different classifiers as per their competence to properly categorize default and non-default Pakistani companies listed on the PSX. Additionally, PSX has remained consistent for some years in terms of growth and has provided benefits to its stockholders. This paper utilizes machine learning techniques to predict financial distress in companies listed on the PSX. Our results indicate that most multi-stage mixture of classifiers provided noteworthy developments over the individual classifiers. This means that firms will have to work on the financial variables such as liquidity and profitability to not fall into the category of liquidation. Moreover, Adaptive Boosting (Adaboost) provides a significant boost in the performance of each classifier.

소득계층별 한국 차입 가계의 부실화 가능성 연구 (The study on insolvency prediction for Korean households across income levels)

  • 이종희
    • 가족자원경영과 정책
    • /
    • 제22권1호
    • /
    • pp.63-78
    • /
    • 2018
  • This study examined the insolvency of debtors using multiple-indicator approaches and compared the outcomes across income levels with the 2016 'Household Financial and Welfare Survey'. This study used (1) the total debt to total assets ratio (DTA), (2) the total debt service ratio (DSR), and (3) the Household Default Risk Index (HDRI) recently developed by the Bank of Korea. Households in the lowest income quintile were more likely to be insolvent than any other income group. Demographics, such as age and gender of the household head, and most of the financial variables significantly increased the likelihood of insolvency based on the DTA. The number of household members and job status increased the likelihood of insolvency based on the DSR. Also, age, gender of the household head, and most of the financial variables increased the likelihood of household insolvency based on the HDRI after controlling for other demographics and financial variables.

한국 청년가계의 부실화 가능성 연구 (Studies on Insolvency Prediction for young Korean debtor)

  • 이종희
    • 가족자원경영과 정책
    • /
    • 제23권2호
    • /
    • pp.99-115
    • /
    • 2019
  • This study examined the insolvency likelihood of young debtors from the 2018 Household Financial and Welfare Survey. This study used the Household Default Risk Index (HDRI), which considers the ratio of total debt to total assets (DTA), and a total debt service ratio (DSR) to examine the insolvency level of debtors. The descriptive analyses showed no difference in frequency of households with a high probability of insolvency between those less than 35 years of age and those over 35 years of age. However, the median HDRI value for those less than 35 years of age was higher than those over 35 years of age. The multivariate analyses indicated that educational expenses for young Korean debtors was a factor that increased their probability of insolvency, while income was the only variable that decreased their insolvency likelihood.

Generating and Validating Synthetic Training Data for Predicting Bankruptcy of Individual Businesses

  • Hong, Dong-Suk;Baik, Cheol
    • Journal of information and communication convergence engineering
    • /
    • 제19권4호
    • /
    • pp.228-233
    • /
    • 2021
  • In this study, we analyze the credit information (loan, delinquency information, etc.) of individual business owners to generate voluminous training data to establish a bankruptcy prediction model through a partial synthetic training technique. Furthermore, we evaluate the prediction performance of the newly generated data compared to the actual data. When using conditional tabular generative adversarial networks (CTGAN)-based training data generated by the experimental results (a logistic regression task), the recall is improved by 1.75 times compared to that obtained using the actual data. The probability that both the actual and generated data are sampled over an identical distribution is verified to be much higher than 80%. Providing artificial intelligence training data through data synthesis in the fields of credit rating and default risk prediction of individual businesses, which have not been relatively active in research, promotes further in-depth research efforts focused on utilizing such methods.

Incorporating BERT-based NLP and Transformer for An Ensemble Model and its Application to Personal Credit Prediction

  • Sophot Ky;Ju-Hong Lee;Kwangtek Na
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.9-15
    • /
    • 2024
  • Tree-based algorithms have been the dominant methods used build a prediction model for tabular data. This also includes personal credit data. However, they are limited to compatibility with categorical and numerical data only, and also do not capture information of the relationship between other features. In this work, we proposed an ensemble model using the Transformer architecture that includes text features and harness the self-attention mechanism to tackle the feature relationships limitation. We describe a text formatter module, that converts the original tabular data into sentence data that is fed into FinBERT along with other text features. Furthermore, we employed FT-Transformer that train with the original tabular data. We evaluate this multi-modal approach with two popular tree-based algorithms known as, Random Forest and Extreme Gradient Boosting, XGBoost and TabTransformer. Our proposed method shows superior Default Recall, F1 score and AUC results across two public data sets. Our results are significant for financial institutions to reduce the risk of financial loss regarding defaulters.