• 제목/요약/키워드: Random Forest Regression

검색결과 276건 처리시간 0.029초

머신러닝과 샘플링을 이용한 강원도 지역 산불발생예측모형 개발 (Development of a Gangwon Province Forest Fire Prediction Model using Machine Learning and Sampling)

  • 채경재;이유리;조용주;박지현
    • 한국빅데이터학회지
    • /
    • 제3권2호
    • /
    • pp.71-78
    • /
    • 2018
  • 본 연구는 산불 발생 예측 모형의 정확도를 높이기 위해 머신러닝 기법을 적용한 연구이다. 산불 피해면적이 가장 큰 강원도를 중심으로 2003년부터 2016년까지 총 14년의 산불 자료를 이용하였다. 기상자료의 오차를 줄이기 위해 강원도를 9개의 구역으로 나누어 각 구역 관측소의 기상자료를 이용하였다. 9개의 구역으로 나누어 각 구역의 산불 예측 모형을 만들게 되면 산불이 발생한 날(majority)과 산불이 발생하지 않은 날(minority)의 비율 차이가 큰 불균형 문제가 발생한다. 불균형 문제에서는 모델의 성능이 떨어지는 현상이 발생할 수 있다. 이를 해결하기 위해 여러 샘플링 방법을 적용하였다. 또한 모델의 정확도를 높이기 위해 캐나다 산불 기상 지수(FWI)의 5가지 지수를 파생변수로 사용하였다. 모델링 방법은 통계적 방법인 로지스틱 회귀분석 방법과 머신러닝 방법인 random forest와 xgboost 방법을 사용하였다. 각 구역의 최종모델의 선택기준을 정확도, 민감도, 특이도를 고려하여 정했으며, 9개 구역의 예측 결과는 산불이 발생한 104건 중 80건의 발생 예측에 성공하였으며 산불이 발생하지 않은 9758건 중 7426건의 발생하지 않음을 예측했다. 전체의 정확도는 76.1%였다.

스태킹 앙상블 모델을 이용한 시간별 지상 오존 공간내삽 정확도 향상 (Improved Estimation of Hourly Surface Ozone Concentrations using Stacking Ensemble-based Spatial Interpolation)

  • 김예진;강은진;조동진;이시우;임정호
    • 한국지리정보학회지
    • /
    • 제25권3호
    • /
    • pp.74-99
    • /
    • 2022
  • 지상 오존은 차량 및 산업 현장에서 배출된 질소화합물(Nitrogen oxides; NOx)과 휘발성 유기화합물(Volatile Organic Compounds; VOCs)의 광화학 반응을 통해 생성되어 식생 및 인체에 악영향을 끼친다. 국내에서는 실시간 오존 모니터링을 수행하고 있지만 관측소 기반으로, 미관측 지역의 공간 분포 분석에 어려움이 있다. 본 연구에서는 스태킹 앙상블 기법을 활용하여 매시간 남한 지역의 지상 오존 농도를 1.5km의 공간해상도로 공간내삽하였고, 5-fold 교차검증을 수행하였다. 스태킹 앙상블의 베이스 모델로는 코크리깅(Cokriging), 다중 선형 회귀(Multi-Linear Regression; MLR), 랜덤 포레스트(Random Forest; RF), 서포트 벡터 회귀(Support Vector Regression; SVR)를 사용하였다. 각 모델의 정확도 비교 평가 결과, 스태킹 앙상블 모델이 연구 기간 내 시간별 평균 R 및 RMSE이 0.76, 0.0065ppm으로 가장 높은 성능을 보여주었다. 스태킹 앙상블 모델의 지상 오존 농도 지도는 복잡한 지형 및 도시화 변수의 특징이 잘 드러나며 더 넓은 농도 범위를 보여주었다. 개발된 모델은 매시간 공간적으로 연속적인 공간 지도를 산출할 수 있을 뿐만 아니라 8시간 평균치 산출 및 시계열 분석에 있어서도 활용 가능성이 클 것으로 기대된다.

선형변수 기계학습 기법을 활용한 저속비대선의 잉여저항계수 추정 (Prediction of Residual Resistance Coefficient of Low-Speed Full Ships Using Hull Form Variables and Machine Learning Approaches)

  • 김유철;양경규;김명수;이영연;김광수
    • 대한조선학회논문집
    • /
    • 제57권6호
    • /
    • pp.312-321
    • /
    • 2020
  • In this study, machine learning techniques were applied to predict the residual resistance coefficient (Cr) of low-speed full ships. The used machine learning methods are Ridge regression, support vector regression, random forest, neural network and their ensemble model. 19 hull form variables were used as input variables for machine learning methods. The hull form variables and Cr data obtained from 139 hull forms of KRISO database were used in analysis. 80 % of the total data were used as training models and the rest as validation. Some non-linear models showed the overfitted results and the ensemble model showed better results than others.

Estimation of lightweight aggregate concrete characteristics using a novel stacking ensemble approach

  • Kaloop, Mosbeh R.;Bardhan, Abidhan;Hu, Jong Wan;Abd-Elrahman, Mohamed
    • Advances in nano research
    • /
    • 제13권5호
    • /
    • pp.499-512
    • /
    • 2022
  • This study investigates the efficiency of ensemble machine learning for predicting the lightweight-aggregate concrete (LWC) characteristics. A stacking ensemble (STEN) approach was proposed to estimate the dry density (DD) and 28 days compressive strength (Fc-28) of LWC using two meta-models called random forest regressor (RFR) and extra tree regressor (ETR), and two novel ensemble models called STEN-RFR and STEN-ETR, were constructed. Four standalone machine learning models including artificial neural network, gradient boosting regression, K neighbor regression, and support vector regression were used to compare the performance of the proposed models. For this purpose, a sum of 140 LWC mixtures with 21 influencing parameters for producing LWC with a density less than 1000 kg/m3, were used. Based on the experimental results with multiple performance criteria, it can be concluded that the proposed STEN-ETR model can be used to estimate the DD and Fc-28 of LWC. Moreover, the STEN-ETR approach was found to be a significant technique in prediction DD and Fc-28 of LWC with minimal prediction error. In the validation phase, the accuracy of the proposed STEN-ETR model in predicting DD and Fc-28 was found to be 96.79% and 81.50%, respectively. In addition, the significance of cement, water-cement ratio, silica fume, and aggregate with expanded glass variables is efficient in modeling DD and Fc-28 of LWC.

Optimizing shallow foundation design: A machine learning approach for bearing capacity estimation over cavities

  • Kumar Shubham;Subhadeep Metya;Abdhesh Kumar Sinha
    • Geomechanics and Engineering
    • /
    • 제37권6호
    • /
    • pp.629-641
    • /
    • 2024
  • The presence of excavations or cavities beneath the foundations of a building can have a significant impact on their stability and cause extensive damage. Traditional methods for calculating the bearing capacity and subsidence of foundations over cavities can be complex and time-consuming, particularly when dealing with conditions that vary. In such situations, machine learning (ML) and deep learning (DL) techniques provide effective alternatives. This study concentrates on constructing a prediction model based on the performance of ML and DL algorithms that can be applied in real-world settings. The efficacy of eight algorithms, including Regression Analysis, k-Nearest Neighbor, Decision Tree, Random Forest, Multivariate Regression Spline, Artificial Neural Network, and Deep Neural Network, was evaluated. Using a Python-assisted automation technique integrated with the PLAXIS 2D platform, a dataset containing 272 cases with eight input parameters and one target variable was generated. In general, the DL model performed better than the ML models, and all models, except the regression models, attained outstanding results with an R2 greater than 0.90. These models can also be used as surrogate models in reliability analysis to evaluate failure risks and probabilities.

Machine Learning Methods to Predict Vehicle Fuel Consumption

  • Ko, Kwangho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권9호
    • /
    • pp.13-20
    • /
    • 2022
  • 본 연구에서는 주행 차량의 실시간 연료소모량을 예측할 수 있는 머신러닝 기법을 제안하고 그 특성을 분석하였다. 머신러닝 학습을 위해 실도로 주행을 실시하여 주행 속도, 가속도, 도로 구배와 함께 연료소모량을 측정하였다. 특성 데이터로 속도, 가속도, 도로구배를, 타깃으로 연료소모량을 지정하여 다양한 머신러닝 모델을 학습시켰다. 회귀법에 해당하는 K-최근접이웃회귀 및 선형회귀와 함께, 분류법에 해당하는 K-최근접이웃분류, 로지스틱회귀, 결정트리, 랜덤포레스트, 그래디언부스팅을 사용하였다. 실시간 연료소모량에 대한 예측 정확도는 0.5 ~ 0.6 수준으로 전반적으로 낮았고, 회귀법의 경우 분류법보다 정확도가 떨어졌다. 총연료소모량에 대한 예측 오차는 0.2 ~ 2.0% 수준으로 상당히 정확했고, 분류법보다 회귀법의 오차가 더 낮았다. 이는 예측 정확도의 기준으로 결정계수(R2)를 사용했기 때문인데, 이 값이 작을수록 타깃의 평균 부근에 예측치가 좁게 분포하기 때문이다. 따라서 실시간 연료소모량 예측에는 분류법이, 총연료소모량 예측에는 회귀법이 적합하다고 할 수 있다.

봄철과 가을철의 기상에 의한 전국 통합 산불발생확률 모형 개발 (Development of the National Integrated Daily Weather Index (DWI) Model to Calculate Forest Fire Danger Rating in the Spring and Fall)

  • 원명수;장근창;윤석희
    • 한국농림기상학회지
    • /
    • 제20권4호
    • /
    • pp.348-356
    • /
    • 2018
  • 본 연구는 현 국가산불위험예보시스템에서 실시간으로 분석되는 기상에 의한 산불발생확률 모형의 문제점을 개선하기 위하여 수행하였다. 기존 시스템의 문제점은 제주도를 포함한 9개의 도별 산불발생확률모형으로 인해 행정경계 지역에서 산불위험등급(관심-주의-경계-심각 4단계)의 차이가 발생하여 산불담당자들간 혼선을 야기할 수 있고, 이로 인해 인접 시군 경계 간 산불대응력이 떨어질 수 있다는 것이다. 이의 해결을 위해 기존 9개의 산불발생확률모형을 하나로 통합하는 산불발생확률모형을 개발하여 신뢰도 검증과 실제로 산불이 발생한 지점에서 예측된 산불위험지수 값을 추출하여 정확도 평가를 실시하였다. 새롭게 개발한 기상에 의한 봄철과 가을철의 전국 통합 산불발생확률 모형(DWI)은 국립산림과학원에서 운영하는 국가산불위험예보시스템에 반영하여 예측모델을 개선하였다. 연구 결과, 봄철 산불발생에 영향을 주는 기상변수로는 해당 시간대의 평균기온, 상대습도, 실효습도, 평균풍속이었으며, 가을철은 평균기온, 상대습도, 평균풍속으로 나타났으며 모두 99% 신뢰수준에서 통계적으로 유의한 것으로 나타났다. 봄철과 가을철의 전국 통합 산불발생확률 모형은 각각 $[1+{\exp}\{-(2.706+(0.088^*T_{mean})-(0.055^*Rh)-(0.023^*Eh)-(0.014^*W_{mean}))\}^{-1}]^{-1}$, $[1+{\exp}\{-(1.099+(0.117^*T_{mean})-(0.069^*Rh)-(0.182^*W_{mean}))\}^{-1}]^{-1}$으로 표본내 예측력은 봄철이 71.7%, 가을철은 86.9%로 나타나 모형의 적합도는 매우 높은 것으로 나타났다. 기존의 도별 9개 모형을 하나의 전국 통합 모형으로 적용할 경우 인접 행정경계에서 발생하는 위험등급의 차이를 해소하여 산불조심기간 중 발효되는 산불위험 단계별 조치사항의 이행에 혼란을 피할 수 있다는 장점이 있다. 새롭게 개발한 전국 통합 산불발생확률 모형(DWI)의 예측 결과 검증을 위해 2014년 봄철 발생한 산불 66건을 대상으로 산불위험지수의 정확도를 평가하였으며, 주의 단계인 산불위험지수 51이상으로 예측된 지역에서 실제로 산불이 발생한 비율은 기존 9개 모형에서 74.24% (산불 49건), 새롭게 개발한 전국 통합 모형에서는 83.33% (산불 55건)가 발생하여 약 9%의 정확도 향상을 보였다. 개발된 모형은 현재 운영중인 산림청 국립산림과학원의 국가산불위험예보시스템에 반영하여 산불이 가장 많이 발생하는 봄철과 가을철 건조시기의 산불발생위험을 정확히 예측하여 산불예방은 물론 진화자원의 효율적인 배치를 통해 시간과 인적 경제적 비용을 절감하고 산불피해를 최소화 할 수 있는 선택과 집중의 산불정책에 일조할 수 있을 것으로 기대된다.

Comparison of machine learning algorithms to evaluate strength of concrete with marble powder

  • Sharma, Nitisha;Upadhya, Ankita;Thakur, Mohindra S.;Sihag, Parveen
    • Advances in materials Research
    • /
    • 제11권1호
    • /
    • pp.75-90
    • /
    • 2022
  • In this paper, functionality of soft computing algorithms such as Group method of data handling (GMDH), Random forest (RF), Random tree (RT), Linear regression (LR), M5P, and artificial neural network (ANN) have been looked out to predict the compressive strength of concrete mixed with marble powder. Assessment of result suggests that, the overall performance of ANN based model gives preferable results over the different applied algorithms for the estimate of compressive strength of concrete. The results of coefficient of correlation were maximum in ANN model (0.9139) accompanied through RT with coefficient of correlation (CC) value 0.8241 and minimum root mean square error (RMSE) value of ANN (4.5611) followed by RT with RMSE (5.4246). Similarly, other evaluating parameters like, Willmott's index and Nash-sutcliffe coefficient value of ANN was 0.9458 and 0.7502 followed by RT model (0.8763 and 0.6628). The end result showed that, for both subsets i.e., training and testing subset, ANN has the potential to estimate the compressive strength of concrete. Also, the results of sensitivity suggest that the water-cement ratio has a massive impact in estimating the compressive strength of concrete with marble powder with ANN based model in evaluation with the different parameters for this data set.

나무구조의 분류분석에서 변수 중요도에 대한 고찰 (Comparison of Variable Importance Measures in Tree-based Classification)

  • 김나영;이은경
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.717-729
    • /
    • 2014
  • 본 연구에서는 나무구조의 분류분석에서 자료의 크기가 방대해짐에 따라 중요한 문제로 대두되고 있는 변수의 중요도에 대하여 사영추적분류나무를 중심으로 고찰하였다. 사영추적분류나무(projection pursuit classification tree)는 각 마디에서 사영추적을 이용하여 그룹을 잘 분리하는 변수들의 선형결합을 이용하는 방법으로 이때 사용되는 사영계수들은 각 마디에서의 분류에 대한 정보를 가지고 있다. 이를 종합하여 각 변수의 분류에 대한 중요도를 계산할 수 있다. 먼저 사영추적분류나무의 분류과정에서 계산되는 사영추적계수를 이용하여 분류를 위한 변수선택의 중요도를 계산하고 이들의 특성을 살펴보고 이를 같은 형태의 나무모형방법인 CART와 랜덤 포레스트의 결과와 비교 분석하여 사영추적분류나무의 특성을 살펴보고 비교, 분석하였다. 대부분의 자료에서 사영추적분류나무가 훨씬 좋은 성능을 보이고 있었으며 특히 상관계수가 높은 변수들이 포함되어 있는 경우에는 상대적으로 적은 수의 변수로도 잘 분류를 할 수 있음을 확인하였다. 랜덤 포레스트에서 제공하는 변수 중요도는 변수들 간의 상관관계가 높은 경우에는 사영추적분류나무의 변수중요도와 매우 다르게 나타나며 사영추적분류나무의 변수 중요도가 조금 더 나은 성능을 보이고 있음을 알 수 있다.

그래프 분류 기반 특징 선택을 활용한 작물 수확량 예측 (Crop Yield Estimation Utilizing Feature Selection Based on Graph Classification)

  • 옴마킨;이성근
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1269-1276
    • /
    • 2023
  • 작물 수확량 예측은 토양, 비, 기후, 대기 및 이들의 관계와 같은 다양한 측면으로 인해 다국적 식사와 강력한 수요에 필수적이며, 기후 변화는 농업 생산량에 영향을 미친다. 본 연구에서는 온도, 강수량, 습도 등의 데이터 세트를 운영한다. 현재 연구는 농부와 농업인을 지원하기 위해 다양한 분류기를 사용한 기능 선택에 중점을 두고 있다. 특징 선택 접근법을 활용한 작물 수확량 추정은 96% 정확도를 나타내었다. 특징 선택은 기계학습 모델의 성능에 영향을 미친다. 현재 그래프 분류기의 성능은 81.5%를 나타내며, 특징 선택이 없는 Random Forest 회귀 분석은 78%의 정확도를 나타냈다. 또한, 특징 선택이 없는 의사결정 트리 회귀 분석은 67%의 정확도를 유지하였다. 본 논문은 제시된 10가지 알고리즘을 대상으로 특징 선택 중요성에 대한 실험결과를 나타내었다. 이러한 결과는 작물 분류 연구에 적합한 모델을 선택하는 데 도움이 될 것으로 기대된다.