• 제목/요약/키워드: financial machine learning

검색결과 140건 처리시간 0.038초

Performance Comparison of Neural Network and Gradient Boosting Machine for Dropout Prediction of University Students

  • Hyeon Gyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.49-58
    • /
    • 2023
  • 학생들의 중도 탈락은 대학의 재정적 손실 뿐 아니라, 학생 개개인 및 사회적으로도 부정적인 영향을 끼친다. 이러한 문제를 해결하기 위해 기계 학습을 이용하여 대학생들의 중도 탈락 여부를 예측하고자 하는 다양한 시도가 이루어지고 있다. 본 논문에서는 대학생들의 중도 탈락 여부를 예측하기 위해 DNN(Deep Neural Network)과 LGBM(Light Gradient Boosting Machine)을 이용한 모델을 구현하고 성능을 비교하였다. 학습 데이터로는 서울 소재 중소규모 4년제 대학인 A 대학의 20,050명의 학생을 대상으로 수집된 학적 및 성적 데이터를 학습에 이용하였다. 원본 데이터의 140여개의 속성 중 중도 탈락 여부를 나타내는 속성과의 상관계수가 0.1 이상인 속성들만 추출하여 학습하였다. 두 모델의 성능 실험 결과, DNN과 LGBM의 F1-스코어는 0.798과 0.826이었으며, LGBM이 DNN에 비해 2.5% 나은 예측 성능을 보였다.

A Study on Predicting Credit Ratings of Korean Companies using TabNet

  • Hyeokjin Choi;Gyeongho Jung;Hyunchul Ahn
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.11-20
    • /
    • 2024
  • 최근 IT 기술의 발전과 더불어 금융 시장에서의 불확실성이 증대되는 상황에서 기업 신용등급 평가의 중요성을 인식하고, 이를 개선하기 위한 새로운 접근 방식으로 딥러닝 모델인 TabNet을 제안한다. 이에 본 연구에서는 TabNet을 활용하여 기업 신용등급을 예측하고, 이의 예측 성능을 기존 머신러닝 방법론과 상세하게 비교한다. 한국의 주요 증권시장에 상장된 기업들의 재무 데이터를 기반으로 TabNet 알고리즘을 적용하여 신용등급 예측 모델을 구축하고, 다양한 머신러닝 모델과의 성능을 비교 분석하였다. 실험 결과, TabNet 모델은 Precision 0.884, F1이 0.895로 기존의 머신러닝 모델들보다 우수한 성능을 보였으며, 고위험 기업을 저위험 기업으로 잘못 분류하는 경우가 다른 머신러닝 모델보다 적어 TabNet의 우수성을 확인하였다. 이는 TabNet이 기업 신용등급 예측에 있어 효과적인 도구로 활용될 수 있으며, 금융기관의 신용 위험 관리 및 의사 결정 과정을 지원할 수 있을 것으로 기대한다.

비정형 금융 데이터에 관한 인공지능 CNN 활용 빅데이터 연구 (Big Data using Artificial Intelligence CNN on Unstructured Financial Data)

  • 고영봉;박대우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.232-234
    • /
    • 2022
  • 빅데이터는 고객 관계 관리, 관계 마케팅, 금융 업무 개선, 신용정보 및 위험 관리 분야에서 크게 활용되고 있다. 더욱이 최근에 COVID-19 바이러스로 인하여 비대면 금융거래가 보다 활발해지면서 고객과의 관계 측면에서 금융 빅데이터의 활용이 더 요구되고 있다. 고객 관계 측면에서 금융 빅데이터는 기술적인 접근보다 감성적적인 접근이 필요한 시기가 도래하였다. 관계 마케팅 측면에서도 인지적, 이성적, 합리적인 면보다는 감성적인 면을 중요시 할 필요성이 대두되었다. 하지만, 기존의 금융 데이터는 텍스트 형태의 고객 거래 데이터, 기업재무정보, 설문지등을 통하여 수집되고 활용되었다. 본 연구는 SNS를 통하여 고객의 문화 활동, 여가 활동 기반의 고객의 감성적인 이미지 데이터 즉, 비정형 데이터를 획득하여 고객의 활동 이미지를 인공지능 CNN 알고리즘으로 분석한다. 활동 분석은 다시 주석을 달은 인공지능에 적용하고, 주석에 나타난 행동 모델을 분석하는 인공지능 빅데이터 모델을 설계한다.

  • PDF

Diabetes Detection and Forecasting using Machine Learning Approaches: Current State-of-the-art

  • Alwalid Alhashem;Aiman Abdulbaset ;Faisal Almudarra ;Hazzaa Alshareef ;Mshari Alqasoumi ;Atta-ur Rahman ;Maqsood Mahmud
    • International Journal of Computer Science & Network Security
    • /
    • 제23권10호
    • /
    • pp.199-208
    • /
    • 2023
  • The emergence of COVID-19 virus has shaken almost every aspect of human life including but not limited to social, financial, and economic changes. One of the most significant impacts was obviously healthcare. Now though the pandemic has been over, its aftereffects are still there. Among them, a prominent one is people lifestyle. Work from home, enhanced screen time, limited mobility and walking habits, junk food, lack of sleep etc. are several factors that have still been affecting human health. Consequently, diseases like diabetes, high blood pressure, anxiety etc. have been emerging at a speed never witnessed before and it mainly includes the people at young age. The situation demands an early prediction, detection, and warning system to alert the people at risk. AI and Machine learning has been investigated tremendously for solving the problems in almost every aspect of human life, especially healthcare and results are promising. This study focuses on reviewing the machine learning based approaches conducted in detection and prediction of diabetes especially during and post pandemic era. That will help find a research gap and significance of the study especially for the researchers and scholars in the same field.

Predicting the Performance of Forecasting Strategies for Naval Spare Parts Demand: A Machine Learning Approach

  • Moon, Seongmin
    • Management Science and Financial Engineering
    • /
    • 제19권1호
    • /
    • pp.1-10
    • /
    • 2013
  • Hierarchical forecasting strategy does not always outperform direct forecasting strategy. The performance generally depends on demand features. This research guides the use of the alternative forecasting strategies according to demand features. This paper developed and evaluated various classification models such as logistic regression (LR), artificial neural networks (ANN), decision trees (DT), boosted trees (BT), and random forests (RF) for predicting the relative performance of the alternative forecasting strategies for the South Korean navy's spare parts demand which has non-normal characteristics. ANN minimized classification errors and inventory costs, whereas LR minimized the Brier scores and the sum of forecasting errors.

Stock Forecasting Using Prophet vs. LSTM Model Applying Time-Series Prediction

  • Alshara, Mohammed Ali
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.185-192
    • /
    • 2022
  • Forecasting and time series modelling plays a vital role in the data analysis process. Time Series is widely used in analytics & data science. Forecasting stock prices is a popular and important topic in financial and academic studies. A stock market is an unregulated place for forecasting due to the absence of essential rules for estimating or predicting a stock price in the stock market. Therefore, predicting stock prices is a time-series problem and challenging. Machine learning has many methods and applications instrumental in implementing stock price forecasting, such as technical analysis, fundamental analysis, time series analysis, statistical analysis. This paper will discuss implementing the stock price, forecasting, and research using prophet and LSTM models. This process and task are very complex and involve uncertainty. Although the stock price never is predicted due to its ambiguous field, this paper aims to apply the concept of forecasting and data analysis to predict stocks.

Enhancing Similar Business Group Recommendation through Derivative Criteria and Web Crawling

  • Min Jeong LEE;In Seop NA
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2809-2821
    • /
    • 2023
  • Effective recommendation of similar business groups is a critical factor in obtaining market information for companies. In this study, we propose a novel method for enhancing similar business group recommendation by incorporating derivative criteria and web crawling. We use employment announcements, employment incentives, and corporate vocational training information to derive additional criteria for similar business group selection. Web crawling is employed to collect data related to the derived criteria from 'credit jobs' and 'worknet' sites. We compare the efficiency of different datasets and machine learning methods, including XGBoost, LGBM, Adaboost, Linear Regression, K-NN, and SVM. The proposed model extracts derivatives that reflect the financial and scale characteristics of the company, which are then incorporated into a new set of recommendation criteria. Similar business groups are selected using a Euclidean distance-based model. Our experimental results show that the proposed method improves the accuracy of similar business group recommendation. Overall, this study demonstrates the potential of incorporating derivative criteria and web crawling to enhance similar business group recommendation and obtain market information more efficiently.

Default Prediction of Automobile Credit Based on Support Vector Machine

  • Chen, Ying;Zhang, Ruirui
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.75-88
    • /
    • 2021
  • Automobile credit business has developed rapidly in recent years, and corresponding default phenomena occur frequently. Credit default will bring great losses to automobile financial institutions. Therefore, the successful prediction of automobile credit default is of great significance. Firstly, the missing values are deleted, then the random forest is used for feature selection, and then the sample data are randomly grouped. Finally, six prediction models of support vector machine (SVM), random forest and k-nearest neighbor (KNN), logistic, decision tree, and artificial neural network (ANN) are constructed. The results show that these six machine learning models can be used to predict the default of automobile credit. Among these six models, the accuracy of decision tree is 0.79, which is the highest, but the comprehensive performance of SVM is the best. And random grouping can improve the efficiency of model operation to a certain extent, especially SVM.

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.

아파트 하자 보수 시설공사 세부공종 머신러닝 분류 시스템에 관한 연구 (Classifying Sub-Categories of Apartment Defect Repair Tasks: A Machine Learning Approach)

  • 김은혜;지홍근;김지나;박은일;엄재용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권9호
    • /
    • pp.359-366
    • /
    • 2021
  • 대한민국 건설사들은 아파트 하자 정보를 축적하고 보수작업을 관리하기 위한 시스템을 운영하는데 상당한 인력과 비용을 투자하고 있다. 본 연구에서는 하자 접수 상세내용 텍스트 데이터를 이용하여 하자 보수 시설공사에 따른 세부공종을 분류하는 머신러닝 모델을 제안한다. 두 가지 단어 임베딩(Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF))과 두 가지 분류기(Support Vector Machine, Random Forest)를 통해 한국어로 작성된 65만건 이상의 하자 접수데이터로부터 하자보수 시설공사 세부공종을 분류했다. 특히, 이번 연구에서는 특정 시설공사(마감공사)의 9개 세부공종(가전제품, 도배공사, 도장공사, 미장공사, 석공사, 수장공사, 옥내가구공사, 주방기구공사, 타일공사)을 분류하는 이진분류 모델과 다중 분류 모델을 연구했다. 그 결과, TF-IDF와 Random Forest를 사용한 두가지 분류 모델에서 90%이상의 정확도, 정밀도, 재현율 및 F1점수를 확인했다.