• 제목/요약/키워드: XGB

검색결과 32건 처리시간 0.027초

머신러닝 기법을 활용한 주요 침엽수종의 수관급 분류와 간벌목 선정 연구 (A Study on Classification of Crown Classes and Selection of Thinned Trees for Major Conifers Using Machine Learning Techniques)

  • 이용규;이정수;박진우
    • 한국산림과학회지
    • /
    • 제111권2호
    • /
    • pp.302-310
    • /
    • 2022
  • 본 연구는 효율적인 산림시업계획 수립을 위하여 입목의 측정정보와 머신러닝 알고리즘을 이용하여 주요 침엽수종(소나무, 잣나무, 낙엽송)의 수관급 분류를 목적으로 하였다. 입목의 측정정보는 9년간 수집된 국유림 모니터링 정보를 활용하였으며, 머신러닝 알고리즘은 Random Forest (RF), XGBoost (XGB), Light GBM (LGBM)을 사용하였다. 알고리즘의 정확도, 정밀도, 재현율, F1 score를 이용한 성능평가를 통하여 알고리즘의 정확도를 비교·평가하였다. 분석결과, 소나무림, 잣나무림, 낙엽송 모두 RF 알고리즘이 성능평가 점수가 가장 높았으며, 수종별로는 소나무가 정확도 약 65%, 정밀도 약 72%, 재현율 약 60%, F1 score 약 66%로 성능평가 점수가 가장 높았다. 수관급은 우세목의 정확도가 약 80%이상으로 높았으나, 준우세목과 중간목, 피압목의 분류 정확도는 낮게 평가되었다. 본 연구결과는 산림시업의 간벌목 선정에 있어 의사결정을 위한 참조자료로 활용이 가능할 것으로 판단된다.

머신러닝 기법을 활용한 토압식 쉴드TBM 막장압 예측에 관한 연구 (A study on EPB shield TBM face pressure prediction using machine learning algorithms)

  • 권기범;최항석;오주영;김동구
    • 한국터널지하공간학회 논문집
    • /
    • 제24권2호
    • /
    • pp.217-230
    • /
    • 2022
  • 쉴드TBM (Tunnel Boring Machine) 터널 시공에 있어 막장압 관리는 막장면 붕괴, 지반침하 등을 방지하여 막장 안정성을 유지하는 데 중요한 역할을 담당한다. 특히, 챔버 내부의 굴착토로 막장압을 조절하는 토압식 쉴드TBM의 경우, 이수식 쉴드TBM에 비해 막장압의 관리가 어렵다. 본 연구에서는 국내 토압식 쉴드TBM 터널 시공 현장의 지반조건 및 굴진특성 데이터를 분석하여, 토압식 쉴드TBM 터널의 세그먼트 링별 막장압 예측모델을 제시하였다. 예측모델의 입력특성으로 7가지를 선정하였으며, 912개의 학습 데이터 세트(Training data set)와 228개의 시험 데이터 세트(Test data set)를 확보하였다. 최적의 토압식 쉴드TBM 막장압 예측모델 선정을 위하여 KNN (K-Nearest Neighbors), SVM (Support Vector Machine), RF (Random Forest), XGB (eXtreme Gradient Boosting) 모델의 하이퍼파라미터(Hyperparameter)를 최적화하여 예측성능을 비교한 결과, RF 모델이 7.35 kPa의 평균 제곱근 오차(Root Mean Square Error, RMSE)로 가장 우수한 성능을 나타냈다. 추가적으로, RF 모델의 특성 중요도(Feature importance) 분석을 수행한 결과, 입력특성 중 수압의 영향도가 0.38로 가장 높았으며, 전반적으로 지반조건이 굴진특성보다 높은 중요도를 보여주었다.

머신러닝 기반의 온실 VPD 예측 모델 비교 (Comparison of Machine Learning-Based Greenhouse VPD Prediction Models)

  • 장경민;이명배;임종현;오한별;신창선;박장우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권3호
    • /
    • pp.125-132
    • /
    • 2023
  • 본 연구에서는 식물의 영양분 흡수에 따른 식물 성장뿐만 아니라 기공 기능 및 광합성에도 영향을 끼치는 온실의 수증기압차(VPD, Vapor Pressure Deficit)예측을 위한 머신러닝 모델들의 성능을 비교해보았다. VPD 예측을 위해 온실 내·외부 환경요소 및 시계열 데이터의 시간적 요소들과의 상관관계를 확인하고 상관관계가 높은 요소들이 VPD에 어떤 영향을 미치는지 확인하였다. 예측 모델의 성능을 분석하기 전 분석 시계열 데이터의 양(1일, 3일, 7일), 간격(20분, 1시간)이 예측 성능에 미치는 영향을 확인하여 데이터의 양과 간격을 조절하였다. 마지막으로 4개의 머신러닝 예측 모델(XGB Regressor, LGBM Regressor, Random Forest Regressor 등)을 적용하여 모델별 예측 성능을 비교했다. 모델의 예측 결과로 20분 간격의 1일의 데이터를 사용했을 때 LGBM에서 MAE는 0.008, RMSE는 0.011의 가장 높은 예측 성능을 보였다. 또한 20분 후 VPD 예측에 가장 큰 영향을 미치는 요소는 환경적 요인보다는 과거 20분 전의 VPD(VPD_y__71)임을 확인하였다. 본 연구의 결과를 활용하여 VPD 예측을 통해 작물의 생산성을 높이고, 온실의 결로, 병 발생 예방 등이 가능하다. 향후 온실의 환경 데이터 예측뿐만 아니라 더 나아가 생산량 예측, 스마트팜 제어 모델 등 다양한 분야에 활용할 수 있을 것이다.

비점오염원관리지역의 머신러닝 기법을 통한 수질 예측 가능성 연구 (Study on Water Quality Predictability through Machine Learning Techniques in Non-point Pollutant Management Area)

  • 유나영;신민환;금동혁;임경재;김종건
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.467-467
    • /
    • 2023
  • 강우에 의해 발생하는 비점오염물질의 수질 데이터가 충분하지 않아 비점오염원이 문제가 되고 있는 유역의 수질개선을 위한 대책마련이 어려운 실정이다. 기존에 환경부에서 운영하고 있는 자동측정망은 1시간 간격으로 데이터를 축적하고 있으나, 비점오염원이 문제가 되는 유역에 설치되어 있지 않거나 수온, DO, pH 등 현장항목만을 측정하고 있어 하천의 수질오염을 대표할 수 있는 T-P나 SS 등의 수질분석 항목의 부재하다. 이로인해 유역의 수질개선 대책을 수립하기 위한 오염원의 현황을 파악하기 어려운 실정이다. 따라서, 본 연구에서는 비점오염원관리지역 중 골지천 유역을 대상으로 수질항목별 상관성을 분석하고, 실측자료를 기반으로 DT, MLP, SVM, RF, GB, XGB 등의 머신러닝 기법을 통해 수질 예측 가능성을 연구하였다. 상관관계 분석결과 입력변수인 탁도 항목이 예측 수질과 뚜렷한 상관관계를 보이는 것으로 나타났으나, 그 외 항목에서는 약한 상관관계를 보이거나 상관관계가 없는 것으로 나타났다. 머신러닝 기법을 활용한 수질 예측 분석 결과, 검무교와 태봉2교, 제1여량교는 RF 기법에서 결정계수(R2) 0.57~0.86, RMSE 16.49~175.60으로 예측성이 우수한 것으로 나타났다. 관말교는 SVM 기법에서 R2 0.65, RMSE 57.69로, 송계교는 XGB 기법에서 R2 0.74, RMSE 282.86으로 가장 예측성이 우수한 것으로 나타났다. 분석결과와 같이 머신러닝 기법을 활용한 수질 예측은 가능하나, 예측성이 우수한 머신러닝 기법의 R2 비교 결과, 유역면적이 큰 제1여량교와 작은 관말교에서 0.57과 0.65로 다른 지점에 비해 낮은 것으로 나타났다. RMSE 비교 결과, 상류 산간지역에 발생한 국지성 호우의 영향으로 흙탕물이 가장 자주 발생하는 태봉2교 지점과 우선관리지역이 합류되는 송계교 지점에서 175.60과 282.86으로 예측값과 실측값의 오차가 큰 것으로 나타났다. 연구결과와 같이 하천 수질을 예측하기 위해서는 유역면적 혹은 유역특성과 관련한 기초자료를 추가로 적용하여 머신러닝 기법을 적용 해야할 것으로 판단된다. 또한, 본 연구에서 예측한 수질 항목 이외에 입력변수를 추가로 확보하여 수질의 예측 가능성을 검토해야 할 것으로 보여진다.

  • PDF

Solar radiation forecasting using boosting decision tree and recurrent neural networks

  • Hyojeoung, Kim;Sujin, Park;Sahm, Kim
    • Communications for Statistical Applications and Methods
    • /
    • 제29권6호
    • /
    • pp.709-719
    • /
    • 2022
  • Recently, as the importance of environmental protection has emerged, interest in new and renewable energy is also increasing worldwide. In particular, the solar energy sector accounts for the highest production rate among new and renewable energy in Korea due to its infinite resources, easy installation and maintenance, and eco-friendly characteristics such as low noise emission levels and less pollutants during power generation. However, although climate prediction is essential since solar power is affected by weather and climate change, solar radiation, which is closely related to solar power, is not currently forecasted by the Korea Meteorological Administration. Solar radiation prediction can be the basis for establishing a reasonable new and renewable energy operation plan, and it is very important because it can be used not only in solar power but also in other fields such as power consumption prediction. Therefore, this study was conducted for the purpose of improving the accuracy of solar radiation. Solar radiation was predicted by a total of three weather variables, temperature, humidity, and cloudiness, and solar radiation outside the atmosphere, and the results were compared using various models. The CatBoost model was best obtained by fitting and comparing the Boosting series (XGB, CatBoost) and RNN series (Simple RNN, LSTM, GRU) models. In addition, the results were further improved through Time series cross-validation.

머신러닝을 활용한 청년 구직자의 강소기업 선호 예측모형 개발 및 요인별 상대적 중요도 분석 (Developing a Predictive Model of Young Job Seekers' Preference for Hidden Champions Using Machine Learning and Analyzing the Relative Importance of Preference Factors)

  • 조윤주;김진수;배환석;양성병;윤상혁
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제32권4호
    • /
    • pp.229-245
    • /
    • 2023
  • Purpose This study aims to understand the inclinations of young job seekers towards "hidden champions" - small but competitive companies that are emerging as potential solutions to the growing disparity between youth-targeted job vacancies and job seekers. We utilize machine learning techniques to discern the appeal of these hidden champions. Design/methodology/approach We examined the characteristics of small and medium-sized enterprises using data sourced from the Ministry of Employment and Labor and Youth Worknet. By comparing the efficacy of five machine learning classification models (i.e., Logistic Regression, Random Forest Classifier, Gradient Boosting Classifier, LGBM Classifier, and XGB Classifier), we discovered that the predictive model utilizing the LGBM Classifier yielded the most consistent performance. Findings Our analysis of the relative significance of preference determinants revealed that industry type, geographical location, and employee count are pivotal factors influencing preference. Drawing from these insights, we propose targeted strategic interventions for policymakers, hidden champions, and young job seekers.

머신러닝을 이용한 다공형 GDI 인젝터의 플래시 보일링 분무 예측 모델 개발 (Development of Flash Boiling Spray Prediction Model of Multi-hole GDI Injector Using Machine Learning)

  • 상몽소;신달호;;박수한
    • 한국분무공학회지
    • /
    • 제27권2호
    • /
    • pp.57-65
    • /
    • 2022
  • The purpose of this study is to use machine learning to build a model capable of predicting the flash boiling spray characteristics. In this study, the flash boiling spray was visualized using Shadowgraph visualization technology, and then the spray image was processed with MATLAB to obtain quantitative data of spray characteristics. The experimental conditions were used as input, and the spray characteristics were used as output to train the machine learning model. For the machine learning model, the XGB (extreme gradient boosting) algorithm was used. Finally, the performance of machine learning model was evaluated using R2 and RMSE (root mean square error). In order to have enough data to train the machine learning model, this study used 12 injectors with different design parameters, and set various fuel temperatures and ambient pressures, resulting in about 12,000 data. By comparing the performance of the model with different amounts of training data, it was found that the number of training data must reach at least 7,000 before the model can show optimal performance. The model showed different prediction performances for different spray characteristics. Compared with the upstream spray angle and the downstream spray angle, the model had the best prediction performance for the spray tip penetration. In addition, the prediction performance of the model showed a relatively poor trend in the initial stage of injection and the final stage of injection. The model performance is expired to be further enhanced by optimizing the hyper-parameters input into the model.

XGBoost 회귀를 활용한 편의점 계약전력 예측 모델의 최적화에 대한 연구 (A Study on the Optimization of a Contracted Power Prediction Model for Convenience Store using XGBoost Regression)

  • 김상민;박찬권;이지은
    • 한국IT서비스학회지
    • /
    • 제21권4호
    • /
    • pp.91-103
    • /
    • 2022
  • This study proposes a model for predicting contracted power using electric power data collected in real time from convenience stores nationwide. By optimizing the prediction model using machine learning, it will be possible to predict the contracted power required to renew the contract of the existing convenience store. Contracted power is predicted through the XGBoost regression model. For the learning of XGBoost model, the electric power data collected for 16 months through a real-time monitoring system for convenience stores nationwide were used. The hyperparameters of the XGBoost model were tuned using the GridesearchCV, and the main features of the prediction model were identified using the xgb.importance function. In addition, it was also confirmed whether the preprocessing method of missing values and outliers affects the prediction of reduced power. As a result of hyperparameter tuning, an optimal model with improved predictive performance was obtained. It was found that the features of power.2020.09, power.2021.02, area, and operating time had an effect on the prediction of contracted power. As a result of the analysis, it was found that the preprocessing policy of missing values and outliers did not affect the prediction result. The proposed XGBoost regression model showed high predictive performance for contract power. Even if the preprocessing method for missing values and outliers was changed, there was no significant difference in the prediction results through hyperparameters tuning.

Machine Learning-based landslide susceptibility mapping - Inje area, South Korea

  • Chanul Choi;Le Xuan Hien;Seongcheon Kwon;Giha Lee
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.248-248
    • /
    • 2023
  • In recent years, the number of landslides in Korea has been increasing due to extreme weather events such as localized heavy rainfall and typhoons. Landslides often occur with debris flows, land subsidence, and earthquakes. They cause significant damage to life and property. 64% of Korea's land area is made up of mountains, the government wanted to predict landslides to reduce damage. In response, the Korea Forest Service has established a 'Landslide Information System' to predict the likelihood of landslides. This system selects a total of 13 landslide factors based on past landslide events. Using the LR technique (Logistic Regression) to predict the possibility of a landslide occurrence and the accuracy is known to be 0.75. However, most of the data used for learning in the current system is on landslides that occurred from 2005 to 2011, and it does not reflect recent typhoons or heavy rain. Therefore, in this study, we will apply a total of six machine learning techniques (KNN, LR, SVM, XGB, RF, GNB) to predict the occurrence of landslides based on the data of Inje, Gangwon-do, which was recently produced by the National Institute of Forest. To predict the occurrence of landslides, it is necessary to process converting landslide events and factors data into a suitable form for machine learning techniques through ArcGIS and Python. In addition, there is a large difference in the number of data between areas where landslides occurred or not. Therefore, the prediction was performed after correcting the unbalanced data using Tomek Links and Near Miss techniques. Moreover, to control unbalanced data, a model that reflects soil properties will use to remove absolute safe areas.

  • PDF

댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구 (Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction)

  • 조영식;정관수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF