• Title/Summary/Keyword: 랜덤 포레스트 모형

Search Result 101, Processing Time 0.025 seconds

Study on Default Prediction Model of Policy Fund (정책자금지원 부실예측 모형 연구)

  • Lim, Sangseop
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.713-714
    • /
    • 2021
  • 소상공인은 우리나라 경제의 중요한 역할을 하는 경제적 근간이루고 있지만 상대적으로 영세하고 경영여건이 불안하다. 정부정책적인 자금지원이 필요하나 재원의 한계로 효율적인 자본분배가 필요하다. 따라서 본 논문은 랜덤포레스트 모형을 활용하여 소상공인 정책자금 대출에 관한 부실예측모형을 개발함으로써 부실징후를 사전에 파악하고 예방함으로써 사회적비용을 절감하고 자원의 효율적 분배에 기여하고자 한다.

  • PDF

Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics (약물유전체학에서 약물반응 예측모형과 변수선택 방법)

  • Kim, Kyuhwan;Kim, Wonkuk
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.153-166
    • /
    • 2021
  • A main goal of pharmacogenomics studies is to predict individual's drug responsiveness based on high dimensional genetic variables. Due to a large number of variables, feature selection is required in order to reduce the number of variables. The selected features are used to construct a predictive model using machine learning algorithms. In the present study, we applied several hybrid feature selection methods such as combinations of logistic regression, ReliefF, TurF, random forest, and LASSO to a next generation sequencing data set of 400 epilepsy patients. We then applied the selected features to machine learning methods including random forest, gradient boosting, and support vector machine as well as a stacking ensemble method. Our results showed that the stacking model with a hybrid feature selection of random forest and ReliefF performs better than with other combinations of approaches. Based on a 5-fold cross validation partition, the mean test accuracy value of the best model was 0.727 and the mean test AUC value of the best model was 0.761. It also appeared that the stacking models outperform than single machine learning predictive models when using the same selected features.

Bike Insurance Fraud Detection Model Using Balanced Randomforest Algorithm (균형 랜덤 포레스트를 이용한 이륜차 보험사기 적발 모형 개발)

  • Kim, Seunghoon;Lee, Soo Il;Kim, Tae ho
    • Journal of Digital Convergence
    • /
    • v.20 no.2
    • /
    • pp.241-250
    • /
    • 2022
  • Due to the COVID-19 pandemic, with increased 'untact' services and with unstable household economy, the bike insurance fraud is expected to surge. Moreover, the fraud methodology gets complicated. However, the fraud detection model for bike insurance is absent. we deal with the issue of skewed class distribution and reflect the criterion of fraud detection expert. We utilize a balanced random-forest algorithm to develop an efficient bike insurance fraud detection model. As a result, while the predictive performance of balanced random-forest model is superior than it of non-balanced model. There is no significant difference between the variables used by the experts and the confirmatory models. The important variables to detect frauds are turned out to be age and gender of driver, correspondence between insured and driver, the amount of self-repairing claim, and the amount of bodily injury liability.

Correlated variable importance for random forests (랜덤포레스트를 위한 상관예측변수 중요도)

  • Shin, Seung Beom;Cho, Hyung Jun
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.177-190
    • /
    • 2021
  • Random forests is a popular method that improves the instability and accuracy of decision trees by ensembles. In contrast to increasing the accuracy, the ease of interpretation is sacrificed; hence, to compensate for this, variable importance is provided. The variable importance indicates which variable plays a role more importantly in constructing the random forests. However, when a predictor is correlated with other predictors, the variable importance of the existing importance algorithm may be distorted. The downward bias of correlated predictors may reduce the importance of truly important predictors. We propose a new algorithm remedying the downward bias of correlated predictors. The performance of the proposed algorithm is demonstrated by the simulated data and illustrated by the real data.

Inundation Pattern Analysis by Applying Flood Routing Model with Random Forest Regression (하도홍수추적 모형과 랜덤포레스트 회귀를 이용한 침수양상 분석)

  • Kim, Hyun Il;Kim, Byung Hyun;Han, Kun Yeun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.398-398
    • /
    • 2020
  • 대도시 상류부에 위치한 댐의 과도한 방류 또는 급작스러운 붕괴는 대규모의 인명 또는 재산피해를 야기할 수 있으며, 다양한 댐 유입량 조건에 따른 침수양상을 파악하는 것은 수재해 대응능력 향상에 필수적이다. 그러나 다양한 과다한 댐 방류 또는 붕괴유량에 따른 침수 범위는 도시의 내수침수와 달리 매우 넓은 지형조건을 고려하며 침수 범위가 광범위하게 나타날 수 있다. 이는 다양한 댐 유입량 조건에 따른 침수 지도를 생성 및 파악하는데 어려움을 가중시키며, 특히 댐 운영에 따른 침수양상을 실시간으로 파악하는데 어려움을 가중시킨다. 본 연구에서는 저빈도부터 PMF(Probable Maximum Flood) 조건까지의 다양한 댐 유입량자료를 바탕으로, 1차원 하천홍수해석을 실시하였다. 연구 대상으로 팔당댐에 대한 댐 해석을 실시하였으며, 팔당댐 하류에 위치한 서울시에 대한 영향을 분석하였다. 1차원 해석 결과로 산정되는 각하도 단면 별 홍수위자료와 GIS을 연계하여 다양한 발생빈도를 나타내는 유입량에 대한 침수지도를 생성하였으며, 기존에 제시된 발생빈도에 따른 침수지도 외에 임의 빈도의 침수지도를 실시간으로 생성할 수 있는 랜덤포레스트 회귀 모형을 구축하였다. 위의 과정들을 통해 다양한 유입량 조건에 따른 연구대상 지역에서의 침수예상도를 분석할 수 있었으며, 서울시 전반적으로 나타날 수 있는 침수심의 공간적 분포를 파악할 수 있었다. 주어진 침수 지도를 이용하여 서울시에 대한 인구 및 건축물의 경제적 가치 자료를 이용하여 추가적인 홍수 위험도 분석이 가능할 것으로 보이며, 임의 빈도에 대하여 실시간으로 침수를 예측할 수 있는 랜덤포레스트와 연계할 수 있다. 제시된 방법론은 댐의 과다한 방류량과 붕괴 현상을 재현하며, 도시의 수재해 대응능력 향상을 위한 기초자료를 제공할 수 있을 것으로 보인다.

  • PDF

Machine learning model for residual chlorine prediction in sediment basin to control pre-chlorination in water treatment plant (정수장 전염소 공정제어를 위한 침전지 잔류염소농도 예측 머신러닝 모형)

  • Kim, Juhwan;Lee, Kyunghyuk;Kim, Soojun;Kim, Kyunghun
    • Journal of Korea Water Resources Association
    • /
    • v.55 no.spc1
    • /
    • pp.1283-1293
    • /
    • 2022
  • The purpose of this study is to predict residual chlorine in order to maintain stable residual chlorine concentration in sedimentation basin by using artificial intelligence algorithms in water treatment process employing pre-chlorination. Available water quantity and quality data are collected and analyzed statistically to apply into mathematical multiple regression and artificial intelligence models including multi-layer perceptron neural network, random forest, long short term memory (LSTM) algorithms. Water temperature, turbidity, pH, conductivity, flow rate, alkalinity and pre-chlorination dosage data are used as the input parameters to develop prediction models. As results, it is presented that the random forest algorithm shows the most moderate prediction result among four cases, which are long short term memory, multi-layer perceptron, multiple regression including random forest. Especially, it is result that the multiple regression model can not represent the residual chlorine with the input parameters which varies independently with seasonal change, numerical scale and dimension difference between quantity and quality. For this reason, random forest model is more appropriate for predict water qualities than other algorithms, which is classified into decision tree type algorithm. Also, it is expected that real time prediction by artificial intelligence models can play role of the stable operation of residual chlorine in water treatment plant including pre-chlorination process.

A Model for Predicting Horse Racing Ranking by Regression Analysis (회귀 분석을 통한 경마 순위 예측 모형)

  • Hur, Tai-sung;Song, Min Seob;Ko, Dong Su
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.15-16
    • /
    • 2022
  • 본 논문에서는 국내 합법 사행산업의 가장 큰 비중을 차지하는 경마에 대한 데이터 분석 모델을 제공하여 건전한 국민 여가 스포츠로 인식 개선을 제안한다. 고배당을 강조하는 경마 예측론이 성행하며 경마가 스포츠가 아닌 도박에 가깝다는 부정적 이미지를 개선하고자 부모마의 수득 상금을 이용한 순위 분석 모델을 제공한다. 현재 국내 경마 경기는 서울, 부산, 제주에서 개최되며, 이 중 서울 지역 경마 데이터를 분석 데이터로 하였다. 분석에 이용한 데이터는 2019년 3월부터 2022년 3월까지의 경주 성적, 경주마 정보, 부모마 수득상금을 이용하였다. 분석에는 선형 회귀 모형, 랜덤 포레스트 회귀 모형 (Breiman, 2001)을 이용하였다. 분석은 Python 을 이용하였으며, Python에서 제공하는 다양한 라이브러리를 이용하여 크롤링, 전처리, 분석하였다.

  • PDF

Predicting Snow Damage and Suggesting Improvement Plans Using Deep Learning (딥러닝을 이용한 대설피해액 예측 및 개선방안 제안)

  • Lee, HyeongJoo;Chung, Gunhui
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.485-485
    • /
    • 2021
  • 최근 세계적인 기상이변으로 자연재해의 발생빈도 증가는 물론 이로 인한 피해가 점차 다양화 및 대형화되어 가고 있는 추세이다. 재난으로 인한 피해는 발생지역 피해뿐만 아니라 국가 경제 전반에 큰 영향을 미치는 특징이 있다. 우리나라의 자연재해 중 대설은 다른 자연재해에 비해 발생빈도는 낮지만 광역적인 피해를 유발하며, 피해 면적에 비해 피해액 규모가 크다. 또한 현재에는 강원권이 가장 취약한 것으로 취약성 분석 결과에서 보여주지만, 미래에는 강원권, 충청권, 호남권을 연결하는 축으로 취약지역이 확대될 것으로 전망된다. 본 연구에서는 현재 사회 전반에서 다양하게 활용되고 있는 머신러닝 기법을 이용하여 우리나라 대설피해액을 예측하는 대설피해 예측모형을 개발하고자 하였다. 머신러닝 기법으로는 랜덤포레스트, 서포트 벡터 머신, 인공신경망 기법을 이용하였고, 모형에 사용한 변수는 기상관측자료, 사회·경제적 요소 등을 활용하여 모형을 개발하였다. 결과적으로 기존연구에서 다중회귀모형을 이용하여 개발된 예측모형과 본 연구에서 3개의 머신러닝 기법으로 개발된 예측모형의 예측력을 비교 분석하였고, 예측력이 가장 높은 모형을 제시하였다. 본 연구결과를 활용하여 모형의 개선 및 데이터 품질 개선이 이루어진다면 향후 대설피해에 대한 개략적인 대비가 가능할 것으로 기대된다.

  • PDF

Analysis of the Feature Importance of Occupational Accidents Occurring at Construction Sites on the Severity of Lost Workdays (건설 현장에서 발생한 업무상 재해가 근로손실일수 심각도에 미치는 특징 중요도 분석)

  • Kang, Kyung-Su;Choi, Jae-Hyun;Ryu, Han-Guk
    • Journal of the Korea Institute of Building Construction
    • /
    • v.21 no.2
    • /
    • pp.165-174
    • /
    • 2021
  • The construction industry causes the most accidents and fatalities among all industries. Although many efforts have been made to reduce safety accidents in construction, the study on the lost workdays that return to work place is insufficient. Therefore, this study proposes a model that classifies the lost workdays lost into moderate and severity, and derives the importance of variable and analyzes important factors through the trained random forest model. We analyze the learning process of the random forest which is a black box model, and extracted important variables that impact on the severity of the lost workdays through the extracted feature importance. The factors existing inside were analyzed through the extracted variables. The purpose of this study is to analyze the accident case data at the construction site through a random forest model and to review variables that have a high impact on the lost workdays. In the future, this sutdy can apply to improve construction safety management and reduce the accident of industrial accidents.

A Study on Result Prediction of Korean professional baseball using Random Forest Method (랜덤 포레스트 기법을 이용한 한국 프로야구 승부 예측에 관한 연구)

  • Yi, Jaeik;Lee, JongHyeok;Kim, Ung-Mo
    • Annual Conference of KIPS
    • /
    • 2014.11a
    • /
    • pp.721-722
    • /
    • 2014
  • 야구는 흔히 기록의 스포츠라는 별명으로 많이 불린다. 그만큼 야구라는 운동이 갖는 기록의 종류는 무척 다양하고 또한 기록의 활용 가능성 역시 무궁무진하다. 이러한 별명에 걸맞게 미국에서는 야구에 대한 다양하고 방대한 정보를 수집하고 활용하고 있다. 그러나 한국 프로야구에 대한 정보의 수집과 활용은 아직까지 크게 부각되지 못하는 것이 현실이다. 랜덤 포레스트 기법을 이용하여 경기의 승부를 예측함으로써 한국 프로야구 데이터의 수집과 활용을 증대 시키는 효과를 기대 해 본다. 본 논문에서는 2014년 한국 프로야구의 승부 예측을 주제로 어떠한 누적 스포츠 데이터집단이 가장 유효한지를 실험 하였다. 승부 예측을 하기위해 사용된 누적 스포츠 데이터는 2014년 선수와 팀 기록, 2013부터 2014년까지의 선수와 팀 기록, 2012년부터 2014년까지의 선수와 팀 기록이다. 이들 세 그룹의 데이터를 이용하여 이분데이터 모형에 랜덤 포레스트 기법을 사용한 승부예측 알고리즘에 적용 시킨 후 어느 그룹의 데이터가 가장 실제 2014 한국 프로야구 정기결과와 맞을 확률이 높음을 구하여 가장 유용한 데이터 그룹이 어떤 그룹인지 연구 하였다.