• 제목/요약/키워드: Random forest models

검색결과 385건 처리시간 0.025초

기계학습을 이용한 염화물 확산계수 예측모델 개발 (Development of Prediction Model of Chloride Diffusion Coefficient using Machine Learning)

  • 김현수
    • 한국공간구조학회논문집
    • /
    • 제23권3호
    • /
    • pp.87-94
    • /
    • 2023
  • Chloride is one of the most common threats to reinforced concrete (RC) durability. Alkaline environment of concrete makes a passive layer on the surface of reinforcement bars that prevents the bar from corrosion. However, when the chloride concentration amount at the reinforcement bar reaches a certain level, deterioration of the passive protection layer occurs, causing corrosion and ultimately reducing the structure's safety and durability. Therefore, understanding the chloride diffusion and its prediction are important to evaluate the safety and durability of RC structure. In this study, the chloride diffusion coefficient is predicted by machine learning techniques. Various machine learning techniques such as multiple linear regression, decision tree, random forest, support vector machine, artificial neural networks, extreme gradient boosting annd k-nearest neighbor were used and accuracy of there models were compared. In order to evaluate the accuracy, root mean square error (RMSE), mean square error (MSE), mean absolute error (MAE) and coefficient of determination (R2) were used as prediction performance indices. The k-fold cross-validation procedure was used to estimate the performance of machine learning models when making predictions on data not used during training. Grid search was applied to hyperparameter optimization. It has been shown from numerical simulation that ensemble learning methods such as random forest and extreme gradient boosting successfully predicted the chloride diffusion coefficient and artificial neural networks also provided accurate result.

머신러닝 기법을 활용한 논 순용수량 예측 (Prediction of Net Irrigation Water Requirement in paddy field Based on Machine Learning)

  • 김수진;배승종;장민원
    • 농촌계획
    • /
    • 제28권4호
    • /
    • pp.105-117
    • /
    • 2022
  • This study tested SVM(support vector machine), RF(random forest), and ANN(artificial neural network) machine-learning models that can predict net irrigation water requirements in paddy fields. For the Jeonju and Jeongeup meteorological stations, the net irrigation water requirement was calculated using K-HAS from 1981 to 2021 and set as the label. For each algorithm, twelve models were constructed based on cumulative precipitation, precipitation, crop evapotranspiration, and month. Compared to the CE model, the R2 of the CEP model was higher, and MAE, RMSE, and MSE were lower. Comprehensively considering learning performance and learning time, it is judged that the RF algorithm has the best usability and predictive power of five-days is better than three-days. The results of this study are expected to provide the scientific information necessary for the decision-making of on-site water managers is expected to be possible through the connection with weather forecast data. In the future, if the actual amount of irrigation and supply are measured, it is necessary to develop a learning model that reflects this.

도시가스 배관 위험 예측 모델 개발 (A development of the gas pipeline risk prediction models)

  • 박길주;김영찬;이창열;조영도;정원희
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2017년 정기학술대회
    • /
    • pp.360-361
    • /
    • 2017
  • 도시가스 배관의 안전을 위해 다양한 시스템이 가동되고 있지만 대부분 현장점검에 의존하는 한계점을 가지고 있다. 본 연구에서는 국내 도시가스 공급업체들 중 하나인 중부도시가스사의 실시간 배관운영 데이터를 분석해 배관의 위험을 예측한다. 배관의 압력, 출력전압, 출력전류, 방식전위, 전위값 데이터와 기타 도시가스 관련요인 데이터를 통합해 상관분석을 진행한다. 그리고 특정 공급권역의 실시간 배관 압력 데이터를 분석해 압력 수치를 예측한다. Random forest regression과 support vector regression(SVR) 알고리즘을 사용해 모델을 구성한 결과 배관 데이터의 시계열 정보를 추가한 데이터 셋과 random forest regression을 사용한 모델에서 가장 우수한 예측 성능을 보인다.

  • PDF

인턴십 지원자를 위한 기계학습기반 취업예측 모델 개발 (Development of the Machine Learning-based Employment Prediction Model for Internship Applicants)

  • 김현수;김선호;김도현
    • 반도체디스플레이기술학회지
    • /
    • 제21권2호
    • /
    • pp.138-143
    • /
    • 2022
  • The employment prediction model proposed in this paper uses 16 independent variables, including self-introductions of M University students who applied for IPP and work-study internship, and 3 dependent variable data such as large companies, mid-sized companies, and unemployment. The employment prediction model for large companies was developed using Random Forest and Word2Vec with the result of F1_Weighted 82.4%. The employment prediction model for medium-sized companies and above was developed using Logistic Regression and Word2Vec with the result of F1_Weighted 73.24%. These two models can be actively used in predicting employment in large and medium-sized companies for M University students in the future.

A Novel Feature Selection Approach to Classify Breast Cancer Drug using Optimized Grey Wolf Algorithm

  • Shobana, G.;Priya, N.
    • International Journal of Computer Science & Network Security
    • /
    • 제22권9호
    • /
    • pp.258-270
    • /
    • 2022
  • Cancer has become a common disease for the past two decades throughout the globe and there is significant increase of cancer among women. Breast cancer and ovarian cancers are more prevalent among women. Majority of the patients approach the physicians only during their final stage of the disease. Early diagnosis of cancer remains a great challenge for the researchers. Although several drugs are being synthesized very often, their multi-benefits are less investigated. With millions of drugs synthesized and their data are accessible through open repositories. Drug repurposing can be done using machine learning techniques. We propose a feature selection technique in this paper, which is novel that generates multiple populations for the grey wolf algorithm and classifies breast cancer drugs efficiently. Leukemia drug dataset is also investigated and Multilayer perceptron achieved 96% prediction accuracy. Three supervised machine learning algorithms namely Random Forest classifier, Multilayer Perceptron and Support Vector Machine models were applied and Multilayer perceptron had higher accuracy rate of 97.7% for breast cancer drug classification.

다중 선형 회귀 분석과 랜덤 포레스트를 이용한 SS, T-P 대리모니터링 기법 평가 (Evaluation of Surrogate Monitoring Parameters for SS and T-P Using Multiple Linear Regression and Random Forest)

  • 정민혁;범진아;최동호;김영주;허용구;윤광식
    • 한국농공학회논문집
    • /
    • 제63권2호
    • /
    • pp.51-60
    • /
    • 2021
  • Effective nonpoint source (NPS) pollution management requires frequent water quality monitoring, which is, however, often costly to be implemented in practice. Statistical techniques and machine learning methods allow us to identify and focus on fundamental environmental variables that have close relationships with NPS pollutants of interest. This study developed surrogate models to predict the concentrations of suspended sediment (SS) and total phosphorus (T-P) from turbidity and runoff discharge rates using multiple linear regression (MLR) and random forest (RF) methods. The RF models provided acceptable performance in predicting SS and T-P, especially when runoff discharge rates were high. The RF models outperformed the MLR models in all the cases. Such finding highlights the potential of RF techniques and models as a tool to identify fundamental environmental variables that are measured in relatively inexpensive ways or freely available but still able to provide information required to quantify the concentrations of NP S pollutants. The analysis of relative importance rates showed that the temporal variations of SS and T-P concentrations could be more effectively explained by that of turbidity than runoff discharge rate. This study demonstrated that the advanced statistical techniques such as machine learning could help to improve the efficiency of NPS pollutants monitoring.

로지스틱 회귀, 랜덤포레스트, LSTM 기법을 활용한 서리예측모형 평가 (Comparative assessment of frost event prediction models using logistic regression, random forest, and LSTM networks)

  • 전종안;이현주;임슬희;김대하;백상수
    • 한국수자원학회논문집
    • /
    • 제54권9호
    • /
    • pp.667-680
    • /
    • 2021
  • 이 연구의 목적은 서리 발생일과 무상일 기간의 특성을 분석하고 로지스틱 회귀, 랜덤 포레스트, Long-short Term Memory (LSTM) 기법을 활용하여 서리발생 예측모델을 개발하고 평가하는데 있다. 수원, 청주, 광주 지점에서 봄철과 가을철 서리발생 예측모델 개발을 위한 기상변수들을 수집하였으며, 수집기간은 1973년부터 2019년까지이다. 프리시전(precision), 리콜(Recall), f-1 스코어와, AUC 및 Reliability Diagram과 같은 그래피컬 평가기법을 이용해 서리발생 예측모델을 평가하였다. 봄철과 가을철 모두 서리발생일이 줄어드는 경향성(유의수준: 0.01)을 보였다. 0.9 이상의 높은 AUC 값에도 불구하고, 신뢰도는 일정한 값을 보여주지는 않았다. 서리발생일 측뿐만 아니라, 초상일과 종상일을 정확히 예측할 수 있도록 모형 개선이 필요해 보이며, 다른 지역의 더 많은 지점에서 동일한 기법을 적용해 보는 연구가 필요해 보인다.

기계학습법을 이용한 서리 발생 구분 추정 연구 (Study on the Estimation of Frost Occurrence Classification Using Machine Learning Methods)

  • 김용석;심교문;정명표;최인태
    • 한국농림기상학회지
    • /
    • 제19권3호
    • /
    • pp.86-92
    • /
    • 2017
  • 본 연구에서는 기상청 예보자료를 이용할 것을 전제로 서리가 발생하는 날과 서리가 발생하지 않는 날을 구분하는 모형을 구축하였다. 서리가 발생한 날과 서리가 발생하지 않은 날을 구분할 수 있는 기상인자로서 최저기온, 평균풍속, 평균상대습도, 평균이슬점온도로 나타났다. 기상인자별로 두 날을 비교한 결과 서리가 발생한 날이 서리가 발생하지 않은 날에 비해 최저기온, 이슬점온도, 평균풍속은 낮게 나타났고 상대습도는 높게 나타났다. 이러한 기상인자로 인공신경망, 랜덤포레스트, 서포트벡터 머신의 기계학습법을 이용한 모형을 연구한 결과 70%이상의 정확도를 나타내어 활용 가능성이 있을 것으로 판단된다.

기계학습 기반의 산불위험 중기예보 모델 개발 (Development of Mid-range Forecast Models of Forest Fire Risk Using Machine Learning)

  • 박수민;손보경;임정호;강유진;권춘근;김성용
    • 대한원격탐사학회지
    • /
    • 제38권5_2호
    • /
    • pp.781-791
    • /
    • 2022
  • 산불로 인한 피해를 최소화하기 위해서 산불위험 예보 정보를 제공하는 것은 필수적이다. 따라서 본 연구에서는 우리나라를 대상으로 기계학습 기반의 산불위험 중기예보(1일 후부터 7일 후까지) 모델을 개발하였다. Global Data Assimilation and Prediction System (GDAPS)의 기상예보 자료와 기 개발된 산불위험지수(Fire Risk Index, FRI)의 과거 및 현재 정보, 그리고 기타 환경요소(i.e., 고도, 산불다발지수, 가뭄지수)의 현재 정보를 반영하여 모델을 개발하였다. 본 연구에서는 실시간 학습을 통해 모델을 개발하였으며, 효율적인 모델 개발을 목적으로 과거 산불위험지수와 가뭄지수의 유무를 고려하여 세가지 경우(Scheme 1: 과거 산불위험지수 및 가뭄지수, Scheme 2: 과거 산불위험지수, Scheme 3: 과거 산불위험지수 변화 추세 및 가뭄지수)로 연구를 수행하였다. 본 연구에서 개발된 산불위험예보모델은 예보기간에 상관없이 높은 정확도(피어슨 상관계수(Pearson correlation) >0.8, relative root mean square error <10%)를 나타냈으며, 실제 산불 발생 건에 대해서도 유의미한 결과를 보였다. 과거 산불위험지수의 추세보다는 산불위험지수 값 자체를 입력변수로 사용하는 것이 높은 정확도를 보였으며, 가뭄지수 사용과 관계없이 좋은 결과를 나타냈다.

Sentinel 위성영상과 기계학습을 이용한 국내산불 피해강도 탐지 (Wildfire Severity Mapping Using Sentinel Satellite Data Based on Machine Learning Approaches)

  • 심성문;김우혁;이재세;강유진;임정호;권춘근;김성용
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1109-1123
    • /
    • 2020
  • 국토 대부분이 산림으로 구성되어 있는 대한민국은 매 년 많은 산불이 발생한다. 산불은 토양의 전단강도를 약화시켜 산사태에 취약한 토양층을 만들기도 하고, 수목의 복구가능여부에 따라 다른 계획 설립이 필요하기 때문에 산불피해면적 뿐만 아니라 피해강도에 대한 파악도 중요하다. 위성 원격탐사를 통한 산불피해강도 추정 연구가 많이 수행되어 왔으나, NDVI(Normalized Difference Vegetation Index)와 NBR(Normalized Burn Ratio) 등과 같은 단일 인자의 시계열 변화만을 이용하여 피해강도를 파악하기에는 한계가 있다. 본 연구에서는 Sentinel-1A SAR-C (Synthetic Aperture Radar-C)와 Sentinel-2A MSI(Multi Spectral Instrument)센서의 자료를 이용하여 기계학습방법을 통한 산불 피해강도 탐지 모델들을 제시하였다. 2017년 5월 삼척, 2019년 4월 강릉·동해, 2019년 4월 고성·속초 총 세개의 산불사례를 이용하여 RF(Random forest), LR(Logistic regression), SVM(Support Vector Machine)기계학습 모델을 구축하였다. 연구결과, random forest 모델이 82.3%의 총정확도로 가장 높은 성능을 보여주었다. 모델의 범용성 및 학습자료 민감도 확인을 위해 사례교차검증도 추가 시행하였는데, 그 결과 사례들의 시기적 차이에 의한 식생활력 및 재생도의 차이에 민감도가 높음을 확인하였다. 이는 추후 다양한 시공간적 사례를 추가할 시 개선이 될 것으로 보인다.