• Title/Summary/Keyword: 랜덤 포레스트 회귀

Search Result 79, Processing Time 0.028 seconds

A Model for Predicting Horse Racing Ranking by Regression Analysis (회귀 분석을 통한 경마 순위 예측 모형)

  • Hur, Tai-sung;Song, Min Seob;Ko, Dong Su
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.15-16
    • /
    • 2022
  • 본 논문에서는 국내 합법 사행산업의 가장 큰 비중을 차지하는 경마에 대한 데이터 분석 모델을 제공하여 건전한 국민 여가 스포츠로 인식 개선을 제안한다. 고배당을 강조하는 경마 예측론이 성행하며 경마가 스포츠가 아닌 도박에 가깝다는 부정적 이미지를 개선하고자 부모마의 수득 상금을 이용한 순위 분석 모델을 제공한다. 현재 국내 경마 경기는 서울, 부산, 제주에서 개최되며, 이 중 서울 지역 경마 데이터를 분석 데이터로 하였다. 분석에 이용한 데이터는 2019년 3월부터 2022년 3월까지의 경주 성적, 경주마 정보, 부모마 수득상금을 이용하였다. 분석에는 선형 회귀 모형, 랜덤 포레스트 회귀 모형 (Breiman, 2001)을 이용하였다. 분석은 Python 을 이용하였으며, Python에서 제공하는 다양한 라이브러리를 이용하여 크롤링, 전처리, 분석하였다.

  • PDF

Inundation Pattern Analysis by Applying Flood Routing Model with Random Forest Regression (하도홍수추적 모형과 랜덤포레스트 회귀를 이용한 침수양상 분석)

  • Kim, Hyun Il;Kim, Byung Hyun;Han, Kun Yeun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.398-398
    • /
    • 2020
  • 대도시 상류부에 위치한 댐의 과도한 방류 또는 급작스러운 붕괴는 대규모의 인명 또는 재산피해를 야기할 수 있으며, 다양한 댐 유입량 조건에 따른 침수양상을 파악하는 것은 수재해 대응능력 향상에 필수적이다. 그러나 다양한 과다한 댐 방류 또는 붕괴유량에 따른 침수 범위는 도시의 내수침수와 달리 매우 넓은 지형조건을 고려하며 침수 범위가 광범위하게 나타날 수 있다. 이는 다양한 댐 유입량 조건에 따른 침수 지도를 생성 및 파악하는데 어려움을 가중시키며, 특히 댐 운영에 따른 침수양상을 실시간으로 파악하는데 어려움을 가중시킨다. 본 연구에서는 저빈도부터 PMF(Probable Maximum Flood) 조건까지의 다양한 댐 유입량자료를 바탕으로, 1차원 하천홍수해석을 실시하였다. 연구 대상으로 팔당댐에 대한 댐 해석을 실시하였으며, 팔당댐 하류에 위치한 서울시에 대한 영향을 분석하였다. 1차원 해석 결과로 산정되는 각하도 단면 별 홍수위자료와 GIS을 연계하여 다양한 발생빈도를 나타내는 유입량에 대한 침수지도를 생성하였으며, 기존에 제시된 발생빈도에 따른 침수지도 외에 임의 빈도의 침수지도를 실시간으로 생성할 수 있는 랜덤포레스트 회귀 모형을 구축하였다. 위의 과정들을 통해 다양한 유입량 조건에 따른 연구대상 지역에서의 침수예상도를 분석할 수 있었으며, 서울시 전반적으로 나타날 수 있는 침수심의 공간적 분포를 파악할 수 있었다. 주어진 침수 지도를 이용하여 서울시에 대한 인구 및 건축물의 경제적 가치 자료를 이용하여 추가적인 홍수 위험도 분석이 가능할 것으로 보이며, 임의 빈도에 대하여 실시간으로 침수를 예측할 수 있는 랜덤포레스트와 연계할 수 있다. 제시된 방법론은 댐의 과다한 방류량과 붕괴 현상을 재현하며, 도시의 수재해 대응능력 향상을 위한 기초자료를 제공할 수 있을 것으로 보인다.

  • PDF

An Analysis on Determinants of the Capesize Freight Rate and Forecasting Models (케이프선 시장 운임의 결정요인 및 운임예측 모형 분석)

  • Lim, Sang-Seop;Yun, Hee-Sung
    • Journal of Navigation and Port Research
    • /
    • v.42 no.6
    • /
    • pp.539-545
    • /
    • 2018
  • In recent years, research on shipping market forecasting with the employment of non-linear AI models has attracted significant interest. In previous studies, input variables were selected with reference to past papers or by relying on the intuitions of the researchers. This paper attempts to address this issue by applying the stepwise regression model and the random forest model to the Cape-size bulk carrier market. The Cape market was selected due to the simplicity of its supply and demand structure. The preliminary selection of the determinants resulted in 16 variables. In the next stage, 8 features from the stepwise regression model and 10 features from the random forest model were screened as important determinants. The chosen variables were used to test both models. Based on the analysis of the models, it was observed that the random forest model outperforms the stepwise regression model. This research is significant because it provides a scientific basis which can be used to find the determinants in shipping market forecasting, and utilize a machine-learning model in the process. The results of this research can be used to enhance the decisions of chartering desks by offering a guideline for market analysis.

Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics (약물유전체학에서 약물반응 예측모형과 변수선택 방법)

  • Kim, Kyuhwan;Kim, Wonkuk
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.153-166
    • /
    • 2021
  • A main goal of pharmacogenomics studies is to predict individual's drug responsiveness based on high dimensional genetic variables. Due to a large number of variables, feature selection is required in order to reduce the number of variables. The selected features are used to construct a predictive model using machine learning algorithms. In the present study, we applied several hybrid feature selection methods such as combinations of logistic regression, ReliefF, TurF, random forest, and LASSO to a next generation sequencing data set of 400 epilepsy patients. We then applied the selected features to machine learning methods including random forest, gradient boosting, and support vector machine as well as a stacking ensemble method. Our results showed that the stacking model with a hybrid feature selection of random forest and ReliefF performs better than with other combinations of approaches. Based on a 5-fold cross validation partition, the mean test accuracy value of the best model was 0.727 and the mean test AUC value of the best model was 0.761. It also appeared that the stacking models outperform than single machine learning predictive models when using the same selected features.

Real-time flood prediction applying random forest regression model in urban areas (랜덤포레스트 회귀모형을 적용한 도시지역에서의 실시간 침수 예측)

  • Kim, Hyun Il;Lee, Yeon Su;Kim, Byunghyun
    • Journal of Korea Water Resources Association
    • /
    • v.54 no.spc1
    • /
    • pp.1119-1130
    • /
    • 2021
  • Urban flooding caused by localized heavy rainfall with unstable climate is constantly occurring, but a system that can predict spatial flood information with weather forecast has not been prepared yet. The worst flood situation in urban area can be occurred with difficulties of structural measures such as river levees, discharge capacity of urban sewage, storage basin of storm water, and pump facilities. However, identifying in advance the spatial flood information can have a decisive effect on minimizing flood damage. Therefore, this study presents a methodology that can predict the urban flood map in real-time by using rainfall data of the Korea Meteorological Administration (KMA), the results of two-dimensional flood analysis and random forest (RF) regression model. The Ujeong district in Ulsan metropolitan city, which the flood is frequently occurred, was selected for the study area. The RF regression model predicted the flood map corresponding to the 50 mm, 80 mm, and 110 mm rainfall events with 6-hours duration. And, the predicted results showed 63%, 80%, and 67% goodness of fit compared to the results of two-dimensional flood analysis model. It is judged that the suggested results of this study can be utilized as basic data for evacuation and response to urban flooding that occurs suddenly.

Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient (다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가)

  • Lee, Sun Mi;Park, Inhwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

Prediction of golf scores on the PGA tour using statistical models (PGA 투어의 골프 스코어 예측 및 분석)

  • Lim, Jungeun;Lim, Youngin;Song, Jongwoo
    • The Korean Journal of Applied Statistics
    • /
    • v.30 no.1
    • /
    • pp.41-55
    • /
    • 2017
  • This study predicts the average scores of top 150 PGA golf players on 132 PGA Tour tournaments (2013-2015) using data mining techniques and statistical analysis. This study also aims to predict the Top 10 and Top 25 best players in 4 different playoffs. Linear and nonlinear regression methods were used to predict average scores. Stepwise regression, all best subset, LASSO, ridge regression and principal component regression were used for the linear regression method. Tree, bagging, gradient boosting, neural network, random forests and KNN were used for nonlinear regression method. We found that the average score increases as fairway firmness or green height or average maximum wind speed increases. We also found that the average score decreases as the number of one-putts or scrambling variable or longest driving distance increases. All 11 different models have low prediction error when predicting the average scores of PGA Tournaments in 2015 which is not included in the training set. However, the performances of Bagging and Random Forest models are the best among all models and these two models have the highest prediction accuracy when predicting the Top 10 and Top 25 best players in 4 different playoffs.

A Comparative Study on the Accuracy of Important Statistical Prediction Techniques for Marketing Data (마케팅 데이터를 대상으로 중요 통계 예측 기법의 정확성에 대한 비교 연구)

  • Cho, Min-Ho
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.14 no.4
    • /
    • pp.775-780
    • /
    • 2019
  • Techniques for predicting the future can be categorized into statistics-based and deep-run-based techniques. Among them, statistic-based techniques are widely used because simple and highly accurate. However, working-level officials have difficulty using many analytical techniques correctly. In this study, we compared the accuracy of prediction by applying multinomial logistic regression, decision tree, random forest, support vector machine, and Bayesian inference to marketing related data. The same marketing data was used, and analysis was conducted by using R. The prediction results of various techniques reflecting the data characteristics of the marketing field will be a good reference for practitioners.

Predicting and Reviewing the Amount of Snow Damage in Korea using Statistical and Machine Learning Techniques (통계기법 및 기계학습 기법을 이용한 우리나라 대설피해액 예측 및 적용성 검토)

  • Lee, Hyeong Joo;Lee, Keun Woo;Jang, Hyeon Bin;Chung, Gun Hui
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.384-384
    • /
    • 2022
  • 과거의 우리나라 대설피해 양상을 살펴보면 지역적으로 집중되어 피해가 발생하는 것이 특징이다. 그러나 현재는 전국적으로 대설피해가 가중되는 추세이며, 이에 따라 대설피해에 대비 가능한 대책의 강구가 필요한 실정이다. 그러나 피해 발생 시 정확한 피해 예측으로 사전에 재난을 대비가 가능한 수준의 연구는 미흡한 실정이다. 따라서 본 연구에서는 다양한 통계기법과 기계학습 기법을 이용하여 대설로 인해 발생한 피해액을 개략적으로 예측이 가능한 모형을 개발하고자 하였다. 대설피해액 예측 모형은 다중회귀분석, 서포트 벡터 머신, 인공신경망 기법, 랜덤포레스트 기법을 이용하여 총 4가지 기법으로 개발하였으며, 독립변수로 사회·경제적 요소, 기상요소를 사용하였고, 종속변수로는 1994년부터 2020년까지 발생한 대설피해 이력의 대설피해액을 사용하였다. 결과적으로 4가지 예측 모형의 예측력 검증 및 기법 간의 예측력을 비교하여 개발한 모형의 적용성을 검토하였다. 본 연구 결과에서 제시한 모형의 개선방안 및 업데이트 방안을 참고하여 후속 연구가 진행된다면 미래에 전국적으로 확대될 대설피해에 대한 대비가 가능할 것으로 기대되며 복구비 및 예방비 투자의 지역적 우선순위를 분석하여 선제적인 대비가 가능할 것으로 판단된다.

  • PDF

Machine learning model for residual chlorine prediction in sediment basin to control pre-chlorination in water treatment plant (정수장 전염소 공정제어를 위한 침전지 잔류염소농도 예측 머신러닝 모형)

  • Kim, Juhwan;Lee, Kyunghyuk;Kim, Soojun;Kim, Kyunghun
    • Journal of Korea Water Resources Association
    • /
    • v.55 no.spc1
    • /
    • pp.1283-1293
    • /
    • 2022
  • The purpose of this study is to predict residual chlorine in order to maintain stable residual chlorine concentration in sedimentation basin by using artificial intelligence algorithms in water treatment process employing pre-chlorination. Available water quantity and quality data are collected and analyzed statistically to apply into mathematical multiple regression and artificial intelligence models including multi-layer perceptron neural network, random forest, long short term memory (LSTM) algorithms. Water temperature, turbidity, pH, conductivity, flow rate, alkalinity and pre-chlorination dosage data are used as the input parameters to develop prediction models. As results, it is presented that the random forest algorithm shows the most moderate prediction result among four cases, which are long short term memory, multi-layer perceptron, multiple regression including random forest. Especially, it is result that the multiple regression model can not represent the residual chlorine with the input parameters which varies independently with seasonal change, numerical scale and dimension difference between quantity and quality. For this reason, random forest model is more appropriate for predict water qualities than other algorithms, which is classified into decision tree type algorithm. Also, it is expected that real time prediction by artificial intelligence models can play role of the stable operation of residual chlorine in water treatment plant including pre-chlorination process.