• Title/Summary/Keyword: 랜덤포레스트

Search Result 320, Processing Time 0.033 seconds

A study on the application of LSMS object-oriented classification based on GIS (GIS 기반 LSMS 객체지향 분류 적용 연구)

  • Han Yong Lee;Jong Woo Jung;Hye Won Jeong;Chung Dea Lee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.408-408
    • /
    • 2023
  • 하천공간은 하도, 사주, 식생, 하천구조물 등에 대한 특성을 지니고 있으며, 현장조사를 통해 하천공간에 대한 자료를 분석하여 기초자료를 생산한다. 기존에는 현장에서 육안조사나 지상에서 사진촬영, 스케치방법으로 하천공간특성에 대한 조사를 수행하였으나, 지상에서 조사한 자료은 하천특성에 대한 물리적·공간적 특성을 파악하기 어렵고 자료의 활용성이 낮은 한계점이 존재한다. 이와 같은 한계를 극복하기 위해 GIS 및 RS 기술을 활용한 고도화된 첨단조사 기술 및 장비가 도입되어 활용되고 있다. 본 연구에서는 하천공간특성을 GIS 기반으로 객체지향 분류 적용 연구와 분류 항목에 따른 공간분석 연구를 수행하였다. 연구를 위한 대상지역은 섬진강권역의 지석천 유역 하류부에 위치하고 있는 지석천 친수공원을 대상으로 선정하였다. 대상지역의 고해상도 항공영상을 수집 및 정합한 후 QGIS에서 제공하는 Orfeo ToolBox(OTB)의 LSMS(Large Scale Mean-Shift) 기법으로 정합한 항공영상의 객체지향 영상분할을 실시하여 벡터 레이어를 생성하였고, 하천공간특성에 따른 항목을 선정하여 각 항목의 영역에 대한 선별을 통해 훈련데이터를 생성하였다. 훈련데이터는 랜덤 포레스트를 이용하여 각 항목에 대한 자동 분류를 확인하였으며, 하천공간특성의 정량적 평가를 위해 분류된 각 항목별 공간분석을 통해 면적, 위치정보(위도, 경도, 표고)를 산정하였다. 분석 결과, 하천공간특성을 GIS 기반의 벡터 레이어와 각 항목에 대한 정량적 분석을 통해 하천공간의 DB를 구축하였다. 이와 같이 하천공간 DB 구축을 통해 전국 하천관리체계를 위한 기초자료를 구축하고자 하였다.

  • PDF

On classification model of disaster severity level based on machine learning (머신러닝 기반의 재해 강도 단계 분류모형에 관한 연구)

  • Seungmin Lee;Wonjoon Wang;Yujin Kang;Seongcheol Shin;Hung Soo Kim;Soojun Kim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.239-239
    • /
    • 2023
  • 최근 도시화 및 기후변화에 따른 재난의 피해가 증가하고 있다. 국내 기상청에서는 호우 및 태풍에 대한 예·경보(주의보, 경보)를 전국적으로 통일된 기준(3시간, 12시간 누적강우량)에 따라 발령하고 있다. 이에 따라 현재 예·경보 기준에는 피해가 발생한 사상에 대한 지역별 특성이 고려되지 않는 문제점이 있다. 본 연구에서는 이러한 문제점을 해결하기 위하여 서울특별시, 인천광역시, 경기도의 호우 및 태풍에 대한 재해사상별 발생한 피해액 및 누적강우량을 활용하여 재해강도의 단계별 기준을 수립하고, 입력자료로 관측된 강우값을 활용하여 발생할 수 있는 재해의 발생 강도를 분류하는 모형을 개발하고자 하였다. 본 연구에서는 호우 및 태풍에 의한 재해 피해액의 분위별로 재해강도 단계(관심, 주의, 경계, 심각)를 분류하였고, 재해강도 단계에 따른 누적강우량 기준을 지자체별로 제시하였으며, 분류한 재해의 강도 단계를 모형의 종속변수로 활용하였다. 재해피해가 발생하지 않은 무강우 지속시간을 산정하여 호우 사상을 분류하였다. 지자체별로 재해 발생강도 분류 모형 개발을 위하여 머신러닝 모형 4가지(의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, XGBoost)를 활용하였다. 본 연구에서 분류한 피해가 발생하지 않은 호우사상 및 피해가 발생한 사상별로 강우량, 지속시간 최대 강우량(3시간, 12시간), 선행강우량, 누적강우량을 독립변수로 입력하여 종속변수인 재해 발생 강도를 분류하였다. 각 모형별로 F1 Score를 이용한 정확도 평가 결과, 의사결정나무의 F1 Score가 평균 0.56으로 가장 우수한 정확도를 가지는 것으로 평가되었다. 본 연구에서 제시하는 머신러닝 기반 재해 발생 강도 분류모형을 활용하면 호우 및 태풍에 의한 재해에 대하여 지자체별로 재해 발생 강도를 단계별로 파악할 수 있어, 재난 담당자들의 의사결정을 위한 참고 자료로 활용될 수 있을 것으로 판단된다.

  • PDF

A Case Study on Text Analysis Using Meal Kit Product Review Data (밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구)

  • Choi, Hyeseon;Yeon, Kyupil
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.5
    • /
    • pp.1-15
    • /
    • 2022
  • In this study, text analysis was performed on the mealkit product review data to identify factors affecting the evaluation of the mealkit product. The data used for the analysis were collected by scraping 334,498 reviews of mealkit products in Naver shopping site. After preprocessing the text data, wordclouds and sentiment analyses based on word frequency and normalized TF-IDF were performed. Logistic regression model was applied to predict the polarity of reviews on mealkit products. From the logistic regression models derived for each product category, the main factors that caused positive and negative emotions were identified. As a result, it was verified that text analysis can be a useful tool that provides a basis for maximizing positive factors for a specific category, menu, and material and removing negative risk factors when developing a mealkit product.

Application of machine learning technique for runoff prediction in watershed with limited data (자료 과소 유역 유출 모의을 위한 머신러닝 기법 적용)

  • Jeung, Minhyuk;Beom, Jina;Park, Minkyeong;Jeong, Jiyeon;Yoon, Kwangsik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.254-254
    • /
    • 2021
  • 기후변화로 인한 자연재해는 해마다 크게 증가하고있으며, 홍수 및 가뭄의 강도와 빈도 증가, 지구온난화로 인한 하천 건천화 등 많은 문제들이 대두되고 있다. 특히, 물 순환과정의 핵심요소로 설명되는 유출량의 변동은 용수 공급과 홍수 대응 및 관리, 하천생태계 유지를 위한 환경에 영향을 미치고 있다. 따라서, 갈수량, 풍수량 등을 산정하여 하천별 유황특성을 결정하는 방법을 사용하고 있으나, 이와같은 지표는 계측자료가 과소한 경우 하천의 유황특성을 세부적으로 이해하고 정량적으로 제시하는데에 한계가있다. 따라서, 미계측 유역에서 Soil and Water Assessment Tool (SWAT)과 같은 수리해석모델이 광범위하게 이용되고있으며, SWAT 모델은 유역의 수치표고모형, 토양 특성, 토지이용 현황, 기상 현황, 유역의 매개변수 등을 반영하여 모델이 구동되고 있다. 하지만, 광범위하게 이용되고 적용성이 입증된 모델임에도 불구하고 입력자료의 불확실성 및 조사되지 않은 영농활동 등으로 인해 결과에 불확실성이 내포되어있으며, 불확실성을 줄이기 위해 실측된 하천의 유량 자료를 이용하여 검정 및 보정작업을 거치고 있다. 모델의 보정 방법으로는 SWAT-CUP과 같은 프로그램 이용되고 있지만, 모델에서 이용되는 매개변수로는 보정할수 있는 범위가 한정적이기 때문에 모델의 정확성을 높이는데에 한계가 있다. 따라서, 본 연구에서는 선암천 유역을 대상으로 모델의 매개변수를 보정하지 않고도 머신러닝 기법을 이용하여 모델의 결과를 향상시켰다. 보정 결과, 유량의 경우 R2가 0.42에서 0.91으로 향상되었으며, 특히 고유량 구간에서의 정확성이 매우 향상되었다. 본 연구에서 평가된 SWAT+머신러닝 결합 모형은 향후 모델 구동에 필요한 입력자료가 부족한 경우와 빠른 검정 및 보정 작업이 필요할 경우 활용될수 있을것으로 판단된다.

  • PDF

Machine Learning Algorithms Evaluation and CombML Development for Dam Inflow Prediction (댐 유입량 예측을 위한 머신러닝 알고리즘 평가 및 CombML 개발)

  • Hong, Jiyeong;Bae, Juhyeon;Jeong, Yeonseok;Lim, Kyoung Jae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.317-317
    • /
    • 2021
  • 효율적인 물관리를 위한 댐 유입량 대한 연구는 필수적이다. 본 연구에서는 다양한 머신러닝 알고리즘을 통해 40년동안의 기상 및 댐 유입량 데이터를 이용하여 소양강댐 유입량을 예측하였으며, 그 중 고유량과 저유량예측에 적합한 알고리즘을 각각 선정하여 머신러닝 알고리즘을 결합한 CombML을 개발하였다. 의사 결정 트리 (DT), 멀티 레이어 퍼셉트론 (MLP), 랜덤 포레스트(RF), 그래디언트 부스팅 (GB), RNN-LSTM 및 CNN-LSTM 알고리즘이 사용되었으며, 그 중 가장 정확도가 높은 모형과 고유량이 아닌 경우에서 특별히 예측 정확도가 높은 모형을 결합하여 결합 머신러닝 알고리즘 (CombML)을 개발 및 평가하였다. 사용된 알고리즘 중 MLP가 NSE 0.812, RMSE 77.218 m3/s, MAE 29.034 m3/s, R 0.924, R2 0.817로 댐 유입량 예측에서 최상의 결과를 보여주었으며, 댐 유입량이 100 m3/s 이하인 경우 앙상블 모델 (RF, GB) 이 댐 유입 예측에서 MLP보다 더 나은 성능을 보였다. 따라서, 유입량이 100 m3/s 이상 시의 평균 일일 강수량인 16 mm를 기준으로 강수가 16mm 이하인 경우 앙상블 방법 (RF 및 GB)을 사용하고 강수가 16 mm 이상인 경우 MLP를 사용하여 댐 유입을 예측하기 위해 두 가지 복합 머신러닝(CombML) 모델 (RF_MLP 및 GB_MLP)을 개발하였다. 그 결과 RF_MLP에서 NSE 0.857, RMSE 68.417 m3/s, MAE 18.063 m3/s, R 0.927, R2 0.859, GB_MLP의 경우 NSE 0.829, RMSE 73.918 m3/s, MAE 18.093 m3/s, R 0.912, R2 0.831로 CombML이 댐 유입을 가장 정확하게 예측하는 것으로 평가되었다. 본 연구를 통해 하천 유황을 고려한 여러 머신러닝 알고리즘의 결합을 통한 유입량 예측 결과, 알고리즘 결합 시 예측 모형의 정확도가 개선되는 것이 확인되었으며, 이는 추후 효율적인 물관리에 이용될 수 있을 것으로 판단된다.

  • PDF

Study on Soil Moisture Predictability using Machine Learning Technique (머신러닝 기법을 활용한 토양수분 예측 가능성 연구)

  • Jo, Bongjun;Choi, Wanmin;Kim, Youngdae;kim, Kisung;Kim, Jonggun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.248-248
    • /
    • 2020
  • 토양수분은 증발산, 유출, 침투 등 물수지 요소들과 밀접한 연관이 있는 주요한 변수 중에 하나이다. 토양수분의 정도는 토양의 특성, 토지이용 형태, 기상 상태 등에 따라 공간적으로 상이하며, 특히 기상 상태에 따라 시간적 변동성을 보이고 있다. 기존 토양수분 측정은 토양시료 채취를 통한 실내 실험 측정과 측정 장비를 통한 현장 조사 방법이 있으나 시간적, 경제적 한계점이 있으며, 원격탐사 기법은 공간적으로 넓은 범위를 포함하지만 시간 해상도가 낮은 단점이 있다. 또한, 모델링을 통한 토양수분 예측 기술은 전문적인 지식이 요구되며, 복잡한 입력자료의 구축이 요구된다. 최근 머신러닝 기법은 수많은 자료 학습을 통해 사용자가 원하는 출력값을 도출하는데 널리 활용되고 있다. 이에 본 연구에서는 토양수분과 연관된 다양한 기상 인자들(강수량, 풍속, 습도 등)을 활용하여 머신러닝기법의 반복학습을 통한 토양수분의 예측 가능성을 분석하고자 한다. 이를 위해 시공간적으로 토양수분 실측 자료가 잘 구축되어 있는 청미천과 설마천 유역을 대상으로 머신러닝 기법을 적용하였다. 두 대상지에서 2008년~2012년 수문자료를 확보하였으며, 기상자료는 기상자료개방포털과 WAMIS를 통해 자료를 확보하였다. 토양수분 자료와 기상자료를 머신러닝 알고리즘을 통해 학습하고 2012년 기상 자료를 바탕으로 토양수분을 예측하였다. 사용되는 머신러닝 기법은 의사결정 나무(Decision Tree), 신경망(Multi Layer Perceptron, MLP), K-최근접 이웃(K-Nearest Neighbors, KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), 그래디언트 부스팅 (Gradient Boosting)이다. 토양수분과 기상인자 간의 상관관계를 분석하기 위해 히트맵(Heat Map)을 이용하였다. 히트맵 분석 결과 토양수분의 시간적 변동은 다양한 기상 자료 중 강수량과 상대습도가 가장 큰 영향력을 보여주었다. 또한 다양한 기상 인자 기반 머신러닝 기법 적용 결과에서는 두 지역 모두 신경망(MLP) 기법을 제외한 모든 기법이 전반적으로 실측값과 유사한 형태를 보였으며 비교 그래프에서도 실측값과 예측 값이 유사한 추세를 나타냈다. 따라서 상관관계있는 과거 기상자료를 통해 머신러닝 기법 기반 토양수분의 시간적 변동 예측이 가능할 것으로 판단된다.

  • PDF

A study on the impact on predicted soil moisture based on machine learning-based open-field environment variables (머신러닝 기반 노지 환경 변수에 따른 예측 토양 수분에 미치는 영향에 대한 연구)

  • Gwang Hoon Jung;Meong-Hun Lee
    • Smart Media Journal
    • /
    • v.12 no.10
    • /
    • pp.47-54
    • /
    • 2023
  • As understanding sudden climate change and agricultural productivity becomes increasingly important due to global warming, soil moisture prediction is emerging as a key topic in agriculture. Soil moisture has a significant impact on crop growth and health, and proper management and accurate prediction are key factors in improving agricultural productivity and resource management. For this reason, soil moisture prediction is receiving great attention in agricultural and environmental fields. In this paper, we collected and analyzed open field environmental data using a pilot field through random forest, a machine learning algorithm, obtained the correlation between data characteristics and soil moisture, and compared the actual and predicted values of soil moisture. As a result of the comparison, the prediction rate was about 92%. It was confirmed that the accuracy was . If soil moisture prediction is carried out by adding crop growth data variables through future research, key information such as crop growth speed and appropriate irrigation timing according to soil moisture can be accurately controlled to increase crop quality and improve productivity and water management efficiency. It is expected that this will have a positive impact on resource efficiency.

Predicting Forest Fires Using Machine Learning Considering Human Factors (인적요인을 고려한 머신러닝 활용 산림화재 예측)

  • Jin-Myeong Jang;Joo-Chan Kim;Hwa-Joong Kim;Kwang-Tae Kim
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.5
    • /
    • pp.109-126
    • /
    • 2023
  • Early detection of forest fires is essential in preventing large-scale forest fires. Predicting forest fires serves as a vital early detection method, leading to various related studies. However, many previous studies focused solely on climate and geographic factors, overlooking human factors, which significantly contribute to forest fires. This study aims to develop forest fire prediction models that take into account human, weather and geographical factors. This study conducted a comparative analysis of four machine learning models alongside the logistic regression model, using forest fire data from Gangwon-do spanning 2003 to 2020. The results indicate that XG Boost models performed the best (AUC=0.925), closely followed by Random Forest (AUC=0.920), both of which are machine learning techniques. Lastly, the study analyzed the relative importance of various factors through permutation feature importance analysis to derive operational insights. While meteorological factors showed a greater impact compared to human factors, various human factors were also found to be significant.

Analysis of Risk Factors for Youth Population Outflow in Busan Based on Machine Learning (머신러닝 기반 부산 청년인구 유출위험 요인 분석)

  • Seoyoung Sohn;Hyeseong Yang;Minseo Park
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.6
    • /
    • pp.131-136
    • /
    • 2023
  • Local youth outmigration is increasingly growing. Various studies are being conducted to identify the factors contributing to this problem, but there is a lack of research analyzing each region individually. Therefore, this study aims to analyze the factors influencing youth outmigration in Busan and predict the risk levels of youth population outflow using machine learning techniques. By utilizing district-level data collected from the KOSIS, we divided the population into three groups based on age (the early 20s, late 20s, and early 30s) and employed Decision Tree and Random Forest algorithms to classify and predict the risk levels of youth population outmigration. The results indicate that the predictive model for youth outmigration risk levels achieves the highest accuracies of 0.93, 0.75, and 0.63 for each age group, respectively.

Development of Type 2 Prediction Prediction Based on Big Data (빅데이터 기반 2형 당뇨 예측 알고리즘 개발)

  • Hyun Sim;HyunWook Kim
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.18 no.5
    • /
    • pp.999-1008
    • /
    • 2023
  • Early prediction of chronic diseases such as diabetes is an important issue, and improving the accuracy of diabetes prediction is especially important. Various machine learning and deep learning-based methodologies are being introduced for diabetes prediction, but these technologies require large amounts of data for better performance than other methodologies, and the learning cost is high due to complex data models. In this study, we aim to verify the claim that DNN using the pima dataset and k-fold cross-validation reduces the efficiency of diabetes diagnosis models. Machine learning classification methods such as decision trees, SVM, random forests, logistic regression, KNN, and various ensemble techniques were used to determine which algorithm produces the best prediction results. After training and testing all classification models, the proposed system provided the best results on XGBoost classifier with ADASYN method, with accuracy of 81%, F1 coefficient of 0.81, and AUC of 0.84. Additionally, a domain adaptation method was implemented to demonstrate the versatility of the proposed system. An explainable AI approach using the LIME and SHAP frameworks was implemented to understand how the model predicts the final outcome.