• 제목/요약/키워드: Light Gradient Boosting Machine(LGBM)

검색결과 12건 처리시간 0.027초

XGB 및 LGBM을 활용한 Ti-6Al-4V 적층재의 변형 거동 예측 (Predicting Deformation Behavior of Additively Manufactured Ti-6Al-4V Based on XGB and LGBM)

  • 천세호;유진영;김정기;오정석;남태현;이태경
    • 소성∙가공
    • /
    • 제31권4호
    • /
    • pp.173-178
    • /
    • 2022
  • The present study employed two different machine-learning approaches, the extreme gradient boosting (XGB) and light gradient boosting machine (LGBM), to predict a compressive deformation behavior of additively manufactured Ti-6Al-4V. Such approaches have rarely been verified in the field of metallurgy in contrast to artificial neural network and its variants. XGB and LGBM provided a good prediction for elongation to failure under an extrapolated condition of processing parameters. The predicting accuracy of these methods was better than that of response surface method. Furthermore, XGB and LGBM with optimum hyperparameters well predicted a deformation behavior of Ti-6Al-4V additively manufactured under the extrapolated condition. Although the predicting capability of two methods was comparable, LGBM was superior to XGB in light of six-fold higher rate of machine learning. It is also noted this work has verified the LGBM approach in solving the metallurgical problem for the first time.

Performance Comparison of Neural Network and Gradient Boosting Machine for Dropout Prediction of University Students

  • Hyeon Gyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권8호
    • /
    • pp.49-58
    • /
    • 2023
  • 학생들의 중도 탈락은 대학의 재정적 손실 뿐 아니라, 학생 개개인 및 사회적으로도 부정적인 영향을 끼친다. 이러한 문제를 해결하기 위해 기계 학습을 이용하여 대학생들의 중도 탈락 여부를 예측하고자 하는 다양한 시도가 이루어지고 있다. 본 논문에서는 대학생들의 중도 탈락 여부를 예측하기 위해 DNN(Deep Neural Network)과 LGBM(Light Gradient Boosting Machine)을 이용한 모델을 구현하고 성능을 비교하였다. 학습 데이터로는 서울 소재 중소규모 4년제 대학인 A 대학의 20,050명의 학생을 대상으로 수집된 학적 및 성적 데이터를 학습에 이용하였다. 원본 데이터의 140여개의 속성 중 중도 탈락 여부를 나타내는 속성과의 상관계수가 0.1 이상인 속성들만 추출하여 학습하였다. 두 모델의 성능 실험 결과, DNN과 LGBM의 F1-스코어는 0.798과 0.826이었으며, LGBM이 DNN에 비해 2.5% 나은 예측 성능을 보였다.

Machine learning application to seismic site classification prediction model using Horizontal-to-Vertical Spectral Ratio (HVSR) of strong-ground motions

  • Francis G. Phi;Bumsu Cho;Jungeun Kim;Hyungik Cho;Yun Wook Choo;Dookie Kim;Inhi Kim
    • Geomechanics and Engineering
    • /
    • 제37권6호
    • /
    • pp.539-554
    • /
    • 2024
  • This study explores development of prediction model for seismic site classification through the integration of machine learning techniques with horizontal-to-vertical spectral ratio (HVSR) methodologies. To improve model accuracy, the research employs outlier detection methods and, synthetic minority over-sampling technique (SMOTE) for data balance, and evaluates using seven machine learning models using seismic data from KiK-net. Notably, light gradient boosting method (LGBM), gradient boosting, and decision tree models exhibit improved performance when coupled with SMOTE, while Multiple linear regression (MLR) and Support vector machine (SVM) models show reduced efficacy. Outlier detection techniques significantly enhance accuracy, particularly for LGBM, gradient boosting, and voting boosting. The ensemble of LGBM with the isolation forest and SMOTE achieves the highest accuracy of 0.91, with LGBM and local outlier factor yielding the highest F1-score of 0.79. Consistently outperforming other models, LGBM proves most efficient for seismic site classification when supported by appropriate preprocessing procedures. These findings show the significance of outlier detection and data balancing for precise seismic soil classification prediction, offering insights and highlighting the potential of machine learning in optimizing site classification accuracy.

타이타늄 압연재의 기계학습 기반 극저온/상온 변형거동 예측 (Prediction of Cryogenic- and Room-Temperature Deformation Behavior of Rolled Titanium using Machine Learning)

  • 천세호;유진영;이성호;이민수;전태성;이태경
    • 소성∙가공
    • /
    • 제32권2호
    • /
    • pp.74-80
    • /
    • 2023
  • A deformation behavior of commercially pure titanium (CP-Ti) is highly dependent on material and processing parameters, such as deformation temperature, deformation direction, and strain rate. This study aims to predict the multivariable and nonlinear tensile behavior of CP-Ti using machine learning based on three algorithms: artificial neural network (ANN), light gradient boosting machine (LGBM), and long short-term memory (LSTM). The predictivity for tensile behaviors at the cryogenic temperature was lower than those in the room temperature due to the larger data scattering in the train dataset used in the machine learning. Although LGBM showed the lowest value of root mean squared error, it was not the best strategy owing to the overfitting and step-function morphology different from the actual data. LSTM performed the best as it effectively learned the continuous characteristics of a flow curve as well as it spent the reduced time for machine learning, even without sufficient database and hyperparameter tuning.

농림위성을 위한 기계학습을 활용한 복사전달모델기반 대기보정 모사 알고리즘 개발 및 검증: 식생 지역을 위주로 (Machine Learning-Based Atmospheric Correction Based on Radiative Transfer Modeling Using Sentinel-2 MSI Data and ItsValidation Focusing on Forest)

  • 강유진;김예진;임정호;임중빈
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.891-907
    • /
    • 2023
  • Compact Advanced Satellite 500-4 (CAS500-4) is scheduled to be launched to collect high spatial resolution data focusing on vegetation applications. To achieve this goal, accurate surface reflectance retrieval through atmospheric correction is crucial. Therefore, a machine learning-based atmospheric correction algorithm was developed to simulate atmospheric correction from a radiative transfer model using Sentinel-2 data that have similarspectral characteristics as CAS500-4. The algorithm was then evaluated mainly for forest areas. Utilizing the atmospheric correction parameters extracted from Sentinel-2 and GEOKOMPSAT-2A (GK-2A), the atmospheric correction algorithm was developed based on Random Forest and Light Gradient Boosting Machine (LGBM). Between the two machine learning techniques, LGBM performed better when considering both accuracy and efficiency. Except for one station, the results had a correlation coefficient of more than 0.91 and well-reflected temporal variations of the Normalized Difference Vegetation Index (i.e., vegetation phenology). GK-2A provides Aerosol Optical Depth (AOD) and water vapor, which are essential parameters for atmospheric correction, but additional processing should be required in the future to mitigate the problem caused by their many missing values. This study provided the basis for the atmospheric correction of CAS500-4 by developing a machine learning-based atmospheric correction simulation algorithm.

SHAP 기반 NSL-KDD 네트워크 공격 분류의 주요 변수 분석 (Analyzing Key Variables in Network Attack Classification on NSL-KDD Dataset using SHAP)

  • 이상덕;김대규;김창수
    • 한국재난정보학회 논문집
    • /
    • 제19권4호
    • /
    • pp.924-935
    • /
    • 2023
  • Purpose: The central aim of this study is to leverage machine learning techniques for the classification of Intrusion Detection System (IDS) data, with a specific focus on identifying the variables responsible for enhancing overall performance. Method: First, we classified 'R2L(Remote to Local)' and 'U2R (User to Root)' attacks in the NSL-KDD dataset, which are difficult to detect due to class imbalance, using seven machine learning models, including Logistic Regression (LR) and K-Nearest Neighbor (KNN). Next, we use the SHapley Additive exPlanation (SHAP) for two classification models that showed high performance, Random Forest (RF) and Light Gradient-Boosting Machine (LGBM), to check the importance of variables that affect classification for each model. Result: In the case of RF, the 'service' variable and in the case of LGBM, the 'dst_host_srv_count' variable were confirmed to be the most important variables. These pivotal variables serve as key factors capable of enhancing performance in the context of classification for each respective model. Conclusion: In conclusion, this paper successfully identifies the optimal models, RF and LGBM, for classifying 'R2L' and 'U2R' attacks, while elucidating the crucial variables associated with each selected model.

Water level forecasting for extended lead times using preprocessed data with variational mode decomposition: A case study in Bangladesh

  • Shabbir Ahmed Osmani;Roya Narimani;Hoyoung Cha;Changhyun Jun;Md Asaduzzaman Sayef
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.179-179
    • /
    • 2023
  • This study suggests a new approach of water level forecasting for extended lead times using original data preprocessing with variational mode decomposition (VMD). Here, two machine learning algorithms including light gradient boosting machine (LGBM) and random forest (RF) were considered to incorporate extended lead times (i.e., 5, 10, 15, 20, 25, 30, 40, and 50 days) forecasting of water levels. At first, the original data at two water level stations (i.e., SW173 and SW269 in Bangladesh) and their decomposed data from VMD were prepared on antecedent lag times to analyze in the datasets of different lead times. Mean absolute error (MAE), root mean squared error (RMSE), and mean squared error (MSE) were used to evaluate the performance of the machine learning models in water level forecasting. As results, it represents that the errors were minimized when the decomposed datasets were considered to predict water levels, rather than the use of original data standalone. It was also noted that LGBM produced lower MAE, RMSE, and MSE values than RF, indicating better performance. For instance, at the SW173 station, LGBM outperformed RF in both decomposed and original data with MAE values of 0.511 and 1.566, compared to RF's MAE values of 0.719 and 1.644, respectively, in a 30-day lead time. The models' performance decreased with increasing lead time, as per the study findings. In summary, preprocessing original data and utilizing machine learning models with decomposed techniques have shown promising results for water level forecasting in higher lead times. It is expected that the approach of this study can assist water management authorities in taking precautionary measures based on forecasted water levels, which is crucial for sustainable water resource utilization.

  • PDF

GOCI-II 대기상한 반사도와 기계학습을 이용한 남한 지역 시간별 에어로졸 광학 두께 산출 (Retrieval of Hourly Aerosol Optical Depth Using Top-of-Atmosphere Reflectance from GOCI-II and Machine Learning over South Korea)

  • 양세영;최현영;임정호
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.933-948
    • /
    • 2023
  • 대기 중 에어로졸은 인체에 악영향을 끼칠 뿐 아니라 기후 시스템에도 직간접적인 영향을 미치므로 에어로졸의 특성과 시공간적인 분포에 대한 이해는 매우 중요하다. 이를 위해 위성기반 관측을 통해 에어로졸 광학 두께(Aerosol Optical Depth, AOD)를 산출하여 에어로졸을 모니터링하는 다양한 연구가 수행되어 왔다. 하지만 이는 주로 조견표를 활용한 역 산출 알고리즘에 기반하여 이루어지기 때문에 많은 계산량을 요구하며 불확실성이 존재한다. 따라서, 본 연구에서는 Geostationary Ocean Color Imager-II (GOCI-II)의 대기상한반사도와 30일 동안의 대기상한반사도 중 최솟값과 관측 시점 값의 차이 값, 수치 모델 기반 기상학적 변수 등을 활용하여 기계학습 기반 고해상도 AOD 직접 산출 알고리즘을 개발하였다. Light Gradient Boosting Machine (LGBM) 기법이 사용되었으며, 추정된 결과는 지상 관측 자료인 Aerosol Robotic Network (AERONET) AOD를 활용하여 랜덤, 시간 및 공간별 N-fold 교차검증을 통해 검증되었다. 세 가지 교차검증 결과 R2=0.70-0.80, RMSE=0.08-0.09, 기대오차(Expected Error, EE) 안에 있는 비율은 75.2-85.1% 수준으로 안정적인 성능을 보였다. Shapley Additive exPlanations (SHAP) 분석에서는 반사도 관련 변수들이 기여도의 상위권 대부분을 차지하고 있는 것을 통해 반사도 자료가 AOD 추정에 많은 기여를 하는 것을 확인하였다. 서울과 울산 지역에 대한 시간 별 AOD의 공간 분포를 분석한 결과, 개발된 LGBM 모델은 시간의 흐름에 따라 AERONET AOD 값과 유사한 수준으로 AOD를 추정하고 있었다. 이를 통해 높은 시공간 해상도(i.e., 시간별, 250 m)에서의 AOD 산출이 가능함을 확인하였다. 또한, 산출 커버리지 비교에서 LGBM 모델의 평균 산출 빈도가 GOCI-II L2 AOD 산출물 대비 8.8%가량 증가한 것을 통해 기존 물리모델기반 AOD 산출 과정에서 발생하던 밝은 지표면에 대한 과도한 마스킹의 문제점을 개선시킨 것을 확인하였다.

댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구 (Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction)

  • 조영식;정관수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF

다종 위성자료와 인공지능 기법을 이용한 한반도 주변 해역의 고해상도 해수면온도 자료 생산 (Generation of Daily High-resolution Sea Surface Temperature for the Seas around the Korean Peninsula Using Multi-satellite Data and Artificial Intelligence)

  • 정시훈;추민기;임정호;조동진
    • 대한원격탐사학회지
    • /
    • 제38권5_2호
    • /
    • pp.707-723
    • /
    • 2022
  • 위성기반 해수면온도는 광역 모니터링이 가능한 장점이 있지만, 다양한 환경적 그리고 기계적 이유로 인한 시공간적 자료공백이 발생한다. 자료공백으로 인한 활용성의 한계가 있으므로, 공백이 없는 자료 생산이 필수적이다. 따라서 본 연구에서는 한반도 주변 해역에 대해 극궤도와 정지궤도 위성에서 생산되는 해수면온도 자료를 두 단계의 기계학습을 통해 융합하여 4 km의 공간해상도를 가지는 일별 해수면온도 합성장을 만들었다. 첫번째 복원 단계에서는 Data INterpolate Convolutional AutoEncoder (DINCAE) 모델을 이용하여 다종 위성기반 해수면온도 자료를 합성하여 복원하였고, 두번째 보정 단계에서는 복원된 해수면온도 자료를 현장관측자료에 맞춰 Light Gradient Boosting Machine (LGBM) 모델로 학습시켜 최종적인 일별 해수면온도 합성장을 만들었다. 개발된 모델의 검증을 위해 복원 단계에서 무작위 50일의 자료 중 일부분을 제거하여 복원한 뒤 제거된 영역에 대해 검증하였으며, 보정 단계에서는 Leave One Year Out Cross Validation (LOYOCV) 기법을 이용하여 현장자료와의 정확도를 검증하였다. DINCAE 모델의 해수면온도 복원 결과는 상당히 높은 정확도(R2=0.98, bias=0.27℃, RMSE=0.97℃, MAE=0.73℃)를 보였다. 두번째 단계의 LGBM 보정 모델의 정확도 개선은 표층 뜰개 부이와 계류형 부이 현장자료와의 비교에서 모두 상당한 향상(RMSE=∆0.21-0.29℃, rRMSE=∆0.91-1.65%, MAE=∆0.17-0.24℃)을 보여주었다. 특히, 모든 현장 자료를 이용한 보정 모델의 표층 뜰개 부이와의 정확도는 동일한 현장 자료가 동화된 기존 해수면온도 합성장보다 나은 정확도를 보였다. 또한 LGBM 보정 모델은 랜덤포레스트(random forest)를 사용한 선행연구에서 보고된 과적합의 문제를 상당부분 해결하였다. 보정된 해수면온도는 기존의 초고해상도 해수면온도 합성장들과 유사한 수준으로 수온 전선과 와동 등의 중규모 해양현상을 뚜렷하게 모의하였다. 본 연구는 다종위성 자료와 기계학습 기법을 사용해 시공간적 공백 없는 고해상도 해수면온도 합성장 제작 방법을 제시하였다는 점에서 가치가 있다.