• 제목/요약/키워드: Random Forest, RF

검색결과 193건 처리시간 0.029초

SHAP 기반 NSL-KDD 네트워크 공격 분류의 주요 변수 분석 (Analyzing Key Variables in Network Attack Classification on NSL-KDD Dataset using SHAP)

  • 이상덕;김대규;김창수
    • 한국재난정보학회 논문집
    • /
    • 제19권4호
    • /
    • pp.924-935
    • /
    • 2023
  • Purpose: The central aim of this study is to leverage machine learning techniques for the classification of Intrusion Detection System (IDS) data, with a specific focus on identifying the variables responsible for enhancing overall performance. Method: First, we classified 'R2L(Remote to Local)' and 'U2R (User to Root)' attacks in the NSL-KDD dataset, which are difficult to detect due to class imbalance, using seven machine learning models, including Logistic Regression (LR) and K-Nearest Neighbor (KNN). Next, we use the SHapley Additive exPlanation (SHAP) for two classification models that showed high performance, Random Forest (RF) and Light Gradient-Boosting Machine (LGBM), to check the importance of variables that affect classification for each model. Result: In the case of RF, the 'service' variable and in the case of LGBM, the 'dst_host_srv_count' variable were confirmed to be the most important variables. These pivotal variables serve as key factors capable of enhancing performance in the context of classification for each respective model. Conclusion: In conclusion, this paper successfully identifies the optimal models, RF and LGBM, for classifying 'R2L' and 'U2R' attacks, while elucidating the crucial variables associated with each selected model.

기계학습 기반 철근콘크리트 기둥에 대한 신속 파괴유형 예측 모델 개발 연구 (Machine Learning-Based Rapid Prediction Method of Failure Mode for Reinforced Concrete Column)

  • 김수빈;오근영;신지욱
    • 한국지진공학회논문집
    • /
    • 제28권2호
    • /
    • pp.113-119
    • /
    • 2024
  • Existing reinforced concrete buildings with seismically deficient column details affect the overall behavior depending on the failure type of column. This study aims to develop and validate a machine learning-based prediction model for the column failure modes (shear, flexure-shear, and flexure failure modes). For this purpose, artificial neural network (ANN), K-nearest neighbor (KNN), decision tree (DT), and random forest (RF) models were used, considering previously collected experimental data. Using four machine learning methodologies, we developed a classification learning model that can predict the column failure modes in terms of the input variables using concrete compressive strength, steel yield strength, axial load ratio, height-to-dept aspect ratio, longitudinal reinforcement ratio, and transverse reinforcement ratio. The performance of each machine learning model was compared and verified by calculating accuracy, precision, recall, F1-Score, and ROC. Based on the performance measurements of the classification model, the RF model represents the highest average value of the classification model performance measurements among the considered learning methods, and it can conservatively predict the shear failure mode. Thus, the RF model can rapidly predict the column failure modes with simple column details.

Prediction models of rock quality designation during TBM tunnel construction using machine learning algorithms

  • Byeonghyun Hwang;Hangseok Choi;Kibeom Kwon;Young Jin Shin;Minkyu Kang
    • Geomechanics and Engineering
    • /
    • 제38권5호
    • /
    • pp.507-515
    • /
    • 2024
  • An accurate estimation of the geotechnical parameters in front of tunnel faces is crucial for the safe construction of underground infrastructure using tunnel boring machines (TBMs). This study was aimed at developing a data-driven model for predicting the rock quality designation (RQD) of the ground formation ahead of tunnel faces. The dataset used for the machine learning (ML) model comprises seven geological and mechanical features and 564 RQD values, obtained from an earth pressure balance (EPB) shield TBM tunneling project beneath the Han River in the Republic of Korea. Four ML algorithms were employed in developing the RQD prediction model: k-nearest neighbor (KNN), support vector regression (SVR), random forest (RF), and extreme gradient boosting (XGB). The grid search and five-fold cross-validation techniques were applied to optimize the prediction performance of the developed model by identifying the optimal hyperparameter combinations. The prediction results revealed that the RF algorithm-based model exhibited superior performance, achieving a root mean square error of 7.38% and coefficient of determination of 0.81. In addition, the Shapley additive explanations (SHAP) approach was adopted to determine the most relevant features, thereby enhancing the interpretability and reliability of the developed model with the RF algorithm. It was concluded that the developed model can successfully predict the RQD of the ground formation ahead of tunnel faces, contributing to safe and efficient tunnel excavation.

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

공공 기상데이터와 기계학습 모델을 이용한 토양수분 예측 (Prediction of Soil Moisture with Open Source Weather Data and Machine Learning Algorithms)

  • 장영빈;장익훈;최영찬
    • 한국농림기상학회지
    • /
    • 제22권1호
    • /
    • pp.1-12
    • /
    • 2020
  • 토양수분은 농업에서 필수적인 자원으로 이의 변화와 부족을 예측함으로써 관리되어왔다. 최근 현장에서의 적용 용이성과 다양한 지역에 대한 일반화 가능성이 뛰어난 통계 및 기계학습 알고리즘을 활용한 토양수분 예측 연구가 활발히 진행되고 있다. 하지만 국내에서 생성되는 데이터를 이용한 연구들은 부족한 실정이다. 이에 본 연구는 1) 국내 공공기상 데이터만으로 충분한 성능을 내는 토양수분 예측 모델을 만들 수 있는지, 2) 어떠한 기계학습 모델이 국내에서 생산되는 데이터와 토양환경에서 가장 높은 예측 성능을 보이는지, 3) 단일 기계학습 모델을 이용해 다양한 지역에 적용 가능한지를 확인해보려 한다. 본 연구에서 Support Vector Machines (SVM), Random Forest (RF), Extremely Randomized Trees (ET), Gradient Boosting Machines (GBM), and Deep Feedforward Network (DFN) 알고리즘과 종관기상관측 자료, 농업기상관측자료를 활용하여 안동, 보성, 철원, 순천 지역의 토양 수분을 예측하는 모델을 만들었다. 그 결과, GBM을 이용한 모델이 R2 : 0.96, Root Mean Squared Error(RMSE) : 1.8로 가장 낮은 예측 오차를 보였다. 또한 GBM을 사용한 모델이 가장 낮은 지역간 예측 오차 분산을 보여 가장 일반화하기에 적절한 모델로 확인되었다.

기계학습을 통한 주간 반투명 구름탐지 연구: GK-2A/AMI를 이용하여 (A Study on Daytime Transparent Cloud Detection through Machine Learning: Using GK-2A/AMI)

  • 변유경;진동현;성노훈;우종호;전우진;한경수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1181-1189
    • /
    • 2022
  • 구름은 대기 중에 떠 있는 작은 물방울이나 얼음 알갱이들 또는 혼합물 등으로 구성되며 지구 표면의 약 2/3를 덮고 있다. 위성영상내에서의 구름은 일부 다른 지상 물체 또는 지표면과 유사한 반사도 특성으로 인해 구름과 구름이 아닌 영역을 분리하는 구름탐지는 매우 어려운 작업이다. 특히 뚜렷한 특징을 가지는 두꺼운 구름과 달리 얇은 반투명 구름은 위성영상내에서 구름과 배경의 대비가 약하고 지표면과 혼합되어져 나타나기 때문에 대부분 구름탐지에서 쉽게 놓쳐지고 많은 어려움을 주는 대상으로 작용한다. 이러한 구름탐지의 반투명 구름의 한계점을 극복하기 위해, 본 연구에서는 머신러닝 기법(Random Forest [RF], Convolutional Neural Networks [CNN])을 활용하여 반투명 구름을 중점으로 한 구름탐지 연구를 수행하였다. Reference자료로는 MOderate Resolution Imaging Spectroradiometer (MODIS)에서 제공하는 MOD35자료에서 Cloud Mask와 Cirrus Mask를 활용하였으며 반투명 구름 픽셀을 고려한 모델 훈련을 위해 훈련 데이터의 픽셀 비율을 구름, 반투명 구름, 청천이 약 1:1:1이 되도록 구성하였다. 연구의 정성적 비교 결과, RF와 CNN 모두 반투명 구름을 포함한 다양한 형태의 구름 등을 잘 탐지하였고, RF 모델 결과와 CNN 모델 결과를 혼합한 RF+CNN경우에는 개별 모델의 한계점을 개선시키며 구름탐지가 잘 수행되어진 것을 확인하였다. 연구의 정량적 결과 RF의 전체 정확도(OA) 값은 92%, CNN은 94.11%를 보였고, RF+CNN은 94.29%의 정확도를 보였다.

앙상블 학습기법을 활용한 보행자 교통사고 심각도 분류: 대전시 사례를 중심으로 (Classifying the severity of pedestrian accidents using ensemble machine learning algorithms: A case study of Daejeon City)

  • 강흥식;노명규
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.39-46
    • /
    • 2022
  • 교통사고와 사회·경제적 손실 간의 연계성이 확인됨에 따라 사고 데이터에 기반을 둔 안전 정책 마련 및 중상·사망 등 그 심각도가 높은 교통사고의 절감 방안의 필요성이 제기되고 있다. 본 연구에서는 인구 대비 교통사고 사망자 비율이 높은 대전시를 대상지역으로 설정하고 보행자 교통사고 데이터를 수집한 후, 기계학습을 통해 최적알고리즘과 심각도 분류의 주요 인자를 도출하였다. 연구의 결과에 따르면, 적용한 9개 알고리즘 중 앙상블 기반의 학습 기법인 AdaBoost (Adaptive Boosting)와 RF (Random Forest)가 최적의 성능을 보여주었다. 이를 기반으로 도출된 대전시 보행자 교통사고 심각도의 주요 인자는 보행자의 연령이 70대 및 20대이거나 사고유형이 횡단사고에 의한 경우로 나타남에 따라 대전시 보행자 사고 저감 대책을 위한 고려요인으로 제안하였다.

GOCI-II 영상 기반 Random Forest 모델을 이용한 해빙 모니터링 적용 가능성 평가: 2021-2022년 랴오둥만을 대상으로 (Evaluation of Applicability of Sea Ice Monitoring Using Random Forest Model Based on GOCI-II Images: A Study of Liaodong Bay 2021-2022)

  • 김진영;장소영;권재엽;김태호
    • 대한원격탐사학회지
    • /
    • 제39권6_2호
    • /
    • pp.1651-1669
    • /
    • 2023
  • 해빙(sea ice)은 현재 전 세계 해양 면적의 약 7%를 차지하고 있으며 계절적, 연간 변화를 보이고 주로 극지방과 고위도 지역에 나타난다. 해빙은 대규모 공간 규모에서 다양한 종류로 형성되며 석유 및 가스탐사, 기타 해양활동이 급속히 증가하는 발해해는 해양 구조물 피해 및 해상 운송, 해양 생태계에 심각한 영향을 미치기 때문에 시계열 모니터링을 통해 해빙의 면적 및 유형 분류를 분석하는 것이 매우 중요하다. 현재 고해상도 위성영상 및 현장 실측 자료를 바탕으로 해빙의 종류 및 영역에 대한 연구가 진행되고 있지만 현장 실측자료를 획득하여 해빙 모니터링에는 한계가 있다. 고해상도 광학 위성영상은 광범위에서 해빙의 유형을 육안으로 탐지하고 식별할 수 있고, 짧은 시간해상도를 갖는 해양위성인 천리안 2B호(Geostationary Ocean Color Imager-II, GOCI-II)를 이용하여 해빙 모니터링의 공백을 보완할 수 있다. 이 연구에서는 고해상도 광학위성영상을 이용하여 생산된 학습자료를 기반으로 규칙기반 기계학습 모델을 훈련시키고 이를 GOCI-II 영상에서 탐지를 수행함으로써, 해빙 모니터링 활용 가능성을 알아보고자 하였다. 학습 자료는 발해(Bohai Sea)의 2021-2022년 랴오둥만(Liaodong Bay)을 대상으로 추출하였으며, GOCI-II를 활용한 Random Forest (RF) 모델을 구축하여 기존 normalized difference snow index (NDSI) 지수 기반 및 고해상도 위성영상에서 획득된 해빙 영역과 정성적 및 정량적 비교 분석하였다. 본 연구 결과 해빙의 영역을 과소평가한 NDSI 지수 기반 결과와 달리 비교적 자세한 해빙 영역을 탐지하였으며 유형별 해빙을 분류할 수 있어 해빙 모니터링이 가능함을 확인하였다. 향후 지속적인 학습 자료 및 해빙형성에 영향인자 구축을 통해 탐지 모델의 정확도를 향상시킨다면 고위도 해양 지역에서 해빙 모니터링 분야에 활용할 수 있을 것으로 기대된다.

머신러닝 기법의 산림 총일차생산성 예측 모델 비교 (Predicting Forest Gross Primary Production Using Machine Learning Algorithms)

  • 이보라;장근창;김은숙;강민석;천정화;임종환
    • 한국농림기상학회지
    • /
    • 제21권1호
    • /
    • pp.29-41
    • /
    • 2019
  • 산림생태계에서 총일차생산성(Gross Primary Production, GPP)은 기후변화에 따른 산림의 생산성과 그에 영향을 미치는 식물계절, 건강성, 탄소 순환 등을 대표하는 지표이다. 총일차생산성을 추정하기 위해서는 에디공분산 타워 자료나 위성영상관측자료를 이용하기도 하고 물리지형적 한계나 기후변화 등을 고려하기 위해 기작기반모델링을 활용하기도 한다. 그러나 총일차생산성을 포함한 산림 탄소 순환의 기작기반 모델링은 식물의 생물, 생리, 화학적 기작들의 반응과 지형, 기후 및 시간 등과 같은 환경 조건들이 복잡하게 얽혀 있어 비선형적이고 유연성이 떨어져 반응에 영향을 주는 조건들을 모두 적용하기가 어렵다. 본 연구에서는 산림 생산성 추정 모델을 에디공분산 자료와 인공위성영상 정보를 사용하여 기계학습 알고리즘을 사용한 모델들로 구축해 보고 그 사용 및 확장 가능성을 검토해 보고자 하였다. 설명변수들로는 에디공분산자료와 인공위성자료에서 나온 대기기상인자들을 사용하였고 검증자료로 에디공분산 타워에서 관측된 총일차생산성을 사용하였다. 산림생산성 추정 모델은 1) 에디공분산 관측 기온($T_{air}$), 태양복사($R_d$), 상대습도(RH), 강수(PPT), 증발산(ET) 자료, 2) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD 자료(개량식생지수 제외), 3) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD, 개량식생지수(EVI) 자료를 사용하는 세 가지 경우로 나누어 구축하여 2006 - 2013년 자료로 훈련시키고 2014, 2015년 자료로 검증하였다. 기계학습 알고리즘은 support vector machine (SVM), random forest (RF), artificial neural network (ANN)를 사용하였고 단순 비교를 위해 고전적 방법인 multiple linear regression model (LM)을 사용하였다. 그 결과, 에디공분산 입력자료로 훈련시킨 모델의 예측력은 피어슨 상관계수 0.89 - 0.92 (MSE = 1.24 - 1.62), MODIS 입력자료로 훈련시킨 모델의 예측력은 개량식생지수 제외된 모델은 0.82 - 0.86 (MSE = 1.99 - 2.45), 개량식생지수가 포함된 모델은 0.92 - 0.93(MSE = 1.00 - 1.24)을 보였다. 이러한 결과는 산림총일차생산성 추정 모델 구축에 있어 MODIS인공위성 영상 정보 기반으로 기계학습 알고리즘을 사용하는 것에 대한 높은 활용가능성을 보여주었다.

댐 유입량 예측을 위한 머신러닝 알고리즘 평가 및 CombML 개발 (Machine Learning Algorithms Evaluation and CombML Development for Dam Inflow Prediction)

  • 홍지영;배주현;정연석;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.317-317
    • /
    • 2021
  • 효율적인 물관리를 위한 댐 유입량 대한 연구는 필수적이다. 본 연구에서는 다양한 머신러닝 알고리즘을 통해 40년동안의 기상 및 댐 유입량 데이터를 이용하여 소양강댐 유입량을 예측하였으며, 그 중 고유량과 저유량예측에 적합한 알고리즘을 각각 선정하여 머신러닝 알고리즘을 결합한 CombML을 개발하였다. 의사 결정 트리 (DT), 멀티 레이어 퍼셉트론 (MLP), 랜덤 포레스트(RF), 그래디언트 부스팅 (GB), RNN-LSTM 및 CNN-LSTM 알고리즘이 사용되었으며, 그 중 가장 정확도가 높은 모형과 고유량이 아닌 경우에서 특별히 예측 정확도가 높은 모형을 결합하여 결합 머신러닝 알고리즘 (CombML)을 개발 및 평가하였다. 사용된 알고리즘 중 MLP가 NSE 0.812, RMSE 77.218 m3/s, MAE 29.034 m3/s, R 0.924, R2 0.817로 댐 유입량 예측에서 최상의 결과를 보여주었으며, 댐 유입량이 100 m3/s 이하인 경우 앙상블 모델 (RF, GB) 이 댐 유입 예측에서 MLP보다 더 나은 성능을 보였다. 따라서, 유입량이 100 m3/s 이상 시의 평균 일일 강수량인 16 mm를 기준으로 강수가 16mm 이하인 경우 앙상블 방법 (RF 및 GB)을 사용하고 강수가 16 mm 이상인 경우 MLP를 사용하여 댐 유입을 예측하기 위해 두 가지 복합 머신러닝(CombML) 모델 (RF_MLP 및 GB_MLP)을 개발하였다. 그 결과 RF_MLP에서 NSE 0.857, RMSE 68.417 m3/s, MAE 18.063 m3/s, R 0.927, R2 0.859, GB_MLP의 경우 NSE 0.829, RMSE 73.918 m3/s, MAE 18.093 m3/s, R 0.912, R2 0.831로 CombML이 댐 유입을 가장 정확하게 예측하는 것으로 평가되었다. 본 연구를 통해 하천 유황을 고려한 여러 머신러닝 알고리즘의 결합을 통한 유입량 예측 결과, 알고리즘 결합 시 예측 모형의 정확도가 개선되는 것이 확인되었으며, 이는 추후 효율적인 물관리에 이용될 수 있을 것으로 판단된다.

  • PDF