• 제목/요약/키워드: ensemble machine learning

검색결과 227건 처리시간 0.032초

Water Level Prediction on the Golok River Utilizing Machine Learning Technique to Evaluate Flood Situations

  • Pheeranat Dornpunya;Watanasak Supaking;Hanisah Musor;Oom Thaisawasdi;Wasukree Sae-tia;Theethut Khwankeerati;Watcharaporn Soyjumpa
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.31-31
    • /
    • 2023
  • During December 2022, the northeast monsoon, which dominates the south and the Gulf of Thailand, had significant rainfall that impacted the lower southern region, causing flash floods, landslides, blustery winds, and the river exceeding its bank. The Golok River, located in Narathiwat, divides the border between Thailand and Malaysia was also affected by rainfall. In flood management, instruments for measuring precipitation and water level have become important for assessing and forecasting the trend of situations and areas of risk. However, such regions are international borders, so the installed measuring telemetry system cannot measure the rainfall and water level of the entire area. This study aims to predict 72 hours of water level and evaluate the situation as information to support the government in making water management decisions, publicizing them to relevant agencies, and warning citizens during crisis events. This research is applied to machine learning (ML) for water level prediction of the Golok River, Lan Tu Bridge area, Sungai Golok Subdistrict, Su-ngai Golok District, Narathiwat Province, which is one of the major monitored rivers. The eXtreme Gradient Boosting (XGBoost) algorithm, a tree-based ensemble machine learning algorithm, was exploited to predict hourly water levels through the R programming language. Model training and testing were carried out utilizing observed hourly rainfall from the STH010 station and hourly water level data from the X.119A station between 2020 and 2022 as main prediction inputs. Furthermore, this model applies hourly spatial rainfall forecasting data from Weather Research and Forecasting and Regional Ocean Model System models (WRF-ROMs) provided by Hydro-Informatics Institute (HII) as input, allowing the model to predict the hourly water level in the Golok River. The evaluation of the predicted performances using the statistical performance metrics, delivering an R-square of 0.96 can validate the results as robust forecasting outcomes. The result shows that the predicted water level at the X.119A telemetry station (Golok River) is in a steady decline, which relates to the input data of predicted 72-hour rainfall from WRF-ROMs having decreased. In short, the relationship between input and result can be used to evaluate flood situations. Here, the data is contributed to the Operational support to the Special Water Resources Management Operation Center in Southern Thailand for flood preparedness and response to make intelligent decisions on water management during crisis occurrences, as well as to be prepared and prevent loss and harm to citizens.

  • PDF

랜섬웨어 탐지를 위한 머신러닝 기반 암호화 행위 감지 기법 (A Machine Learning-Based Encryption Behavior Cognitive Technique for Ransomware Detection)

  • 황윤철
    • 산업융합연구
    • /
    • 제21권12호
    • /
    • pp.55-62
    • /
    • 2023
  • 최근 등장하는 랜섬웨어들은 다양한 공격 기법과 다양한 경로를 통해 공격을 수행하고 있어 조기 탐지와 방어에 많은 어려움을 겪고 있으며, 그 피해 규모도 날로 증가하고 있다. 따라서 본 논문에서는 효과적인 랜섬웨어 탐지를 위하여 파일 암호화와 암호화 패턴을 머신러닝 기반으로 하는 감지 기법을 제안한다. 파일 암호화는 랜섬웨어가 공격하는데 필수적으로 사용하는 기능으로 암호 행위와 암호화 패턴을 분석함으로써 랜섬웨어를 탐지하고 랜섬웨어의 특정 변종이나 새로운 유형의 랜섬웨어를 탐지할 수 있기 때문에 랜섬웨어 공격을 식별하고 차단하는 데 매우 효과적이다. 제안한 머신러닝 기반의 암호화 행위 감지 기법은 암호화 특성과 암호화 패턴 특성을 추출하여 머신러닝 기반의 분류기를 통해 각각 학습을 시켜 해당 행위에 대한 탐지를 진행하고 최종 결과는 두 분류기의 평가 결과를 기반으로 앙상블 분류기에서 랜섬웨어 유무를 판별하여 좀 더 정확도를 높였다. 또한, 제안한 기법을 numpy와 pandas, 파이썬의 사이킷런 라이브러리를 사용하여 구현하여 평가지표를 사용한 성능를 평가한 결과 평균적으로 94%,의 정확도와 95%의 정밀도, 93%의 재현률과 95%의 F1 스코어가 산출되었다. 성능 평가 결과를 보면 암호화 행위 감지를 통해 랜섬웨어 탐지가 가능하다는 것을 확인할 수 있었고 랜섬웨어의 사전 탐지를 위해 제안한 기법의 성능을 높이기 위한 연구도 계속해서 진행되어야 한다.

신경망 학습앙상블에 관한 연구 - 주가예측을 중심으로 - (A Study on Training Ensembles of Neural Networks - A Case of Stock Price Prediction)

  • 이영찬;곽수환
    • 지능정보연구
    • /
    • 제5권1호
    • /
    • pp.95-101
    • /
    • 1999
  • In this paper, a comparison between different methods to combine predictions from neural networks will be given. These methods are bagging, bumping, and balancing. Those are based on the analysis of the ensemble generalization error into an ambiguity term and a term incorporating generalization performances of individual networks. Neural Networks and AI machine learning models are prone to overfitting. A strategy to prevent a neural network from overfitting, is to stop training in early stage of the learning process. The complete data set is spilt up into a training set and a validation set. Training is stopped when the error on the validation set starts increasing. The stability of the networks is highly dependent on the division in training and validation set, and also on the random initial weights and the chosen minimization procedure. This causes early stopped networks to be rather unstable: a small change in the data or different initial conditions can produce large changes in the prediction. Therefore, it is advisable to apply the same procedure several times starting from different initial weights. This technique is often referred to as training ensembles of neural networks. In this paper, we presented a comparison of three statistical methods to prevent overfitting of neural network.

  • PDF

심층 특징들의 앙상블을 사용한 목조 문화재 영상에서의 배부름 감지 모델 (A Bulge Detection Model in Cultural Asset images using Ensemble of Deep Features)

  • 강재용;김인기;임현석;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.129-131
    • /
    • 2021
  • 본 논문에서는 심층 특징 앙상블을 사용하여 목조 문화재의 변위 현상 중 하나인 배부름 현상을 감지할 수 있는 모델을 제안한다. 우선 총 4개의 서로 다른 사전 학습된 합성 곱 신경망을 사용하여 입력 영상에 대한 심층 특징들을 추출한다. 그 이후 4개의 서로 다른 심층 특징들을 결합하여 하나의 특징 벡터를 생성한다. 그 이후 합쳐진 특징 벡터는 완전 연결 계층의 입력 값으로 들어와서 최종적으로 변위가 존재하는지 아닌지에 대한 예측을 수행하게 된다. 데이터 셋으로는 충주시 근처의 문화재에 방문해서 수집한 목조 문화재 이미지를 가지고 정상 및 비정상으로 구분한 데이터 셋을 사용하였다. 실험 결과 심층 특징 앙상블 기법을 사용한 모델이 앙상블 기법을 사용하지 않은 모델보다 더 좋은 성능을 나타냄을 확인하였다. 이러한 결과로 부터 우리가 제안한 방법이 목재 문화재의 배부름 현상에 대한 변위 검출에 있어서 매우 적합함을 보여준다.

  • PDF

산업제어시스템의 이상 탐지 성능 개선을 위한 데이터 보정 방안 연구 (Research on Data Tuning Methods to Improve the Anomaly Detection Performance of Industrial Control Systems)

  • 전상수;이경호
    • 정보보호학회논문지
    • /
    • 제32권4호
    • /
    • pp.691-708
    • /
    • 2022
  • 머신러닝과 딥러닝의 기술이 보편화되면서 산업제어시스템의 이상(비정상) 탐지 연구에도 적용이 되기 시작하였다. 국내에서는 산업제어시스템의 이상 탐지를 위한 인공지능 연구를 활성화시키기 위하여 HAI 데이터셋을 개발하여 공개하였고, 산업제어시스템 보안위협 탐지 AI 경진대회를 시행하고 있다. 이상 탐지 연구들은 대개 기존의 딥러닝 학습 알고리즘을 변형하거나 다른 알고리즘과 함께 적용하는 앙상블 학습 모델의 방법을 통해 향상된 성능의 학습 모델을 만드는 연구가 대부분 이었다. 본 연구에서는 학습 모델과 데이터 전처리(pre-processing)의 개선을 통한 방법이 아니라, 비정상 데이터를 탐지하여 라벨링 한 결과를 보정하는 후처리(post-processing) 방법으로 이상 탐지의 성능을 개선시키는 연구를 진행하였고, 그 결과 기존 모델의 이상 탐지 성능 대비 약 10%이상의 향상된 결과를 확인하였다.

딥뉴럴네트워크에서의 적대적 샘플에 관한 앙상블 방어 연구 (Detecting Adversarial Example Using Ensemble Method on Deep Neural Network)

  • 권현;윤준혁;김준섭;박상준;김용철
    • 융합보안논문지
    • /
    • 제21권2호
    • /
    • pp.57-66
    • /
    • 2021
  • 딥뉴럴네트워크는 이미지 인식, 음성 인식, 패턴 인식 등에 좋은 성능을 보여주고 있는 대표적인 딥러닝모델 중에 하나이다. 하지만 이러한 딥뉴럴네트워크는 적대적 샘플을 오인식하는 취약점이 있다. 적대적 샘플은 원본 데이터에 최소한의 노이즈를 추가하여 사람이 보기에는 이상이 없지만 딥뉴럴네트워크가 잘못 인식 하게 하는 샘플을 의미한다. 이러한 적대적 샘플은 딥뉴럴네트워크를 활용하는 자율주행차량이나 의료사업에서 차량 표지판 오인식이나 환자 진단의 오인식을 일으키면 큰 사고가 일어나기 때문에 적대적 샘플 공격에 대한 방어연구가 요구된다. 본 논문에서는 여러 가지 파라미터를 조절하여 적대적 샘플에 대한 앙상블 방어방법을 실험적으로 분석하였다. 적대적 샘플의 생성방법으로 fast gradient sign method, DeepFool method, Carlini & Wanger method을 이용하여 앙상블 방어방법의 성능을 분석하였다. 실험 데이터로 MNIST 데이터셋을 사용하였으며, 머신러닝 라이브러리로는 텐서플로우를 사용하였다. 실험방법의 각 파라미터들로 3가지 적대적 샘플 공격방법, 적정기준선, 모델 수, 랜덤노이즈에 따른 성능을 분석하였다. 실험결과로 앙상블 방어방법은 모델수가 7이고 적정기준선이 1일 때, 적대적 샘플에 대한 탐지 성공률 98.3%이고 원본샘플의 99.2% 정확도를 유지하는 성능을 보였다.

1D-CNN을 이용한 항만내 선박 이동시간 예측 (Prediction of Ship Travel Time in Harbour using 1D-Convolutional Neural Network)

  • 유상록;김광일;정초영
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.275-276
    • /
    • 2022
  • 해상교통관제사는 항로폭이 협소한 항만에서 선박 충돌사고 예방을 위해 one-way로 항해하도록 선박의 입·출항 대기 지시를 한다. 현재 해상교통관제사의 입·출항대기 지시는 과학적이고 통계적인 데이터를 기반으로 하지 않고 해상교통관제사의 개인 역량에 따라 편차가 크다. 이에 따라 본 연구에서는 항만에서의 선박 입·출항 대기 지시를 위한 정확한 이동 시간을 예측하기 위해 선박 및 기상 데이터를 수집하여 1d-합성곱신경망 모델을 구축하였다. 제안한 모델이 다른 앙상블 기계학습 모델보다 4.5% 이상 개선된 것을 확인하였다. 본 연구를 통해 다양한 상황에서도 선박 입·출항 소요시간 예측이 가능하여 해상교통관제사는 선박에게 정확한 정보 제공 및 대기지시 판단에 도움이 될 것으로 기대된다.

  • PDF

The evaluation of Spectral Vegetation Indices for Classification of Nutritional Deficiency in Rice Using Machine Learning Method

  • Jaekyeong Baek;Wan-Gyu Sang;Dongwon Kwon;Sungyul Chanag;Hyeojin Bak;Ho-young Ban;Jung-Il Cho
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2022년도 추계학술대회
    • /
    • pp.88-88
    • /
    • 2022
  • Detection of stress responses in crops is important to diagnose crop growth and evaluate yield. Also, the multi-spectral sensor is effectively known to evaluate stress caused by nutrient and moisture in crops or biological agents such as weeds or diseases. Therefore, in this experiment, multispectral images were taken by an unmanned aerial vehicle(UAV) under field condition. The experiment was conducted in the long-term fertilizer field in the National Institute of Crop Science, and experiment area was divided into different status of NPK(Control, N-deficiency, P-deficiency, K-deficiency, Non-fertilizer). Total 11 vegetation indices were created with RGB and NIR reflectance values using python. Variations in nutrient content in plants affect the amount of light reflected or absorbed for each wavelength band. Therefore, the objective of this experiment was to evaluate vegetation indices derived from multispectral reflectance data as input into machine learning algorithm for the classification of nutritional deficiency in rice. RandomForest model was used as a representative ensemble model, and parameters were adjusted through hyperparameter tuning such as RandomSearchCV. As a result, training accuracy was 0.95 and test accuracy was 0.80, and IPCA, NDRE, and EVI were included in the top three indices for feature importance. Also, precision, recall, and f1-score, which are indicators for evaluating the performance of the classification model, showed a distribution of 0.7-0.9 for each class.

  • PDF

스마트관광 시대의 관광숙박업 영업 예측 모형: 코로나19 팬더믹을 중심으로 (Predictive Models for the Tourism and Accommodation Industry in the Era of Smart Tourism: Focusing on the COVID-19 Pandemic)

  • 조유진;김차미;손승연;노미진
    • 스마트미디어저널
    • /
    • 제12권8호
    • /
    • pp.18-25
    • /
    • 2023
  • 2020년 발생한 코로나19는 전세계적으로 지속적인 피해를 미쳤으며, 특히 하늘길 봉쇄 및 외출 자제로 인해 스마트 관광산업은 경제적 직격탄을 맞았다. 해외여행과 국내여행이 크게 감소된 상황에서 계속되는 적자로 인해 휴업과 폐업을 하는 관광호텔들이 늘어나고 있는 상황이다. 따라서 본 연구에서는 행정안전부의 인허가 데이터를 수집한 후 시각화하여 관광숙박업의 운영 현황을 파악하였다. 머신러닝 분류 알고리즘을 적용하여 관광호텔의 생존 예측 모델을 구현하였고 앙상블 알고리즘을 활용하여 예측 모델의 성능을 최적화하였으며 5-Fold 교차검증으로 모델의 성능을 평가하였다. 관광호텔의 생존율이 다소 감소할 것으로 예측되었으나 실제 생존율을 코로나19 이전과 큰 차이를 보이지 않는 것으로 분석되었다. 본 논문의 호텔업 영업 상태 예측을 통해 관광숙박업 전체의 운영 가능성 및 발전 동향을 파악할 수 있는 근거로 활용할 수 있다.

An AutoML-driven Antenna Performance Prediction Model in the Autonomous Driving Radar Manufacturing Process

  • So-Hyang Bak;Kwanghoon Pio Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권12호
    • /
    • pp.3330-3344
    • /
    • 2023
  • This paper proposes an antenna performance prediction model in the autonomous driving radar manufacturing process. Our research work is based upon a challenge dataset, Driving Radar Manufacturing Process Dataset, and a typical AutoML machine learning workflow engine, Pycaret open-source Python library. Note that the dataset contains the total 70 data-items, out of which 54 used as input features and 16 used as output features, and the dataset is properly built into resolving the multi-output regression problem. During the data regression analysis and preprocessing phase, we identified several input features having similar correlations and so detached some of those input features, which may become a serious cause of the multicollinearity problem that affect the overall model performance. In the training phase, we train each of output-feature regression models by using the AutoML approach. Next, we selected the top 5 models showing the higher performances in the AutoML result reports and applied the ensemble method so as for the selected models' performances to be improved. In performing the experimental performance evaluation of the regression prediction model, we particularly used two metrics, MAE and RMSE, and the results of which were 0.6928 and 1.2065, respectively. Additionally, we carried out a series of experiments to verify the proposed model's performance by comparing with other existing models' performances. In conclusion, we enhance accuracy for safer autonomous vehicles, reduces manufacturing costs through AutoML-Pycaret and machine learning ensembled model, and prevents the production of faulty radar systems, conserving resources. Ultimately, the proposed model holds significant promise not only for antenna performance but also for improving manufacturing quality and advancing radar systems in autonomous vehicles.