• 제목/요약/키워드: 랜덤포레스트

검색결과 307건 처리시간 0.032초

GIS 기반 LSMS 객체지향 분류 적용 연구 (A study on the application of LSMS object-oriented classification based on GIS)

  • 이한용;정종우;정혜원;이충대
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.408-408
    • /
    • 2023
  • 하천공간은 하도, 사주, 식생, 하천구조물 등에 대한 특성을 지니고 있으며, 현장조사를 통해 하천공간에 대한 자료를 분석하여 기초자료를 생산한다. 기존에는 현장에서 육안조사나 지상에서 사진촬영, 스케치방법으로 하천공간특성에 대한 조사를 수행하였으나, 지상에서 조사한 자료은 하천특성에 대한 물리적·공간적 특성을 파악하기 어렵고 자료의 활용성이 낮은 한계점이 존재한다. 이와 같은 한계를 극복하기 위해 GIS 및 RS 기술을 활용한 고도화된 첨단조사 기술 및 장비가 도입되어 활용되고 있다. 본 연구에서는 하천공간특성을 GIS 기반으로 객체지향 분류 적용 연구와 분류 항목에 따른 공간분석 연구를 수행하였다. 연구를 위한 대상지역은 섬진강권역의 지석천 유역 하류부에 위치하고 있는 지석천 친수공원을 대상으로 선정하였다. 대상지역의 고해상도 항공영상을 수집 및 정합한 후 QGIS에서 제공하는 Orfeo ToolBox(OTB)의 LSMS(Large Scale Mean-Shift) 기법으로 정합한 항공영상의 객체지향 영상분할을 실시하여 벡터 레이어를 생성하였고, 하천공간특성에 따른 항목을 선정하여 각 항목의 영역에 대한 선별을 통해 훈련데이터를 생성하였다. 훈련데이터는 랜덤 포레스트를 이용하여 각 항목에 대한 자동 분류를 확인하였으며, 하천공간특성의 정량적 평가를 위해 분류된 각 항목별 공간분석을 통해 면적, 위치정보(위도, 경도, 표고)를 산정하였다. 분석 결과, 하천공간특성을 GIS 기반의 벡터 레이어와 각 항목에 대한 정량적 분석을 통해 하천공간의 DB를 구축하였다. 이와 같이 하천공간 DB 구축을 통해 전국 하천관리체계를 위한 기초자료를 구축하고자 하였다.

  • PDF

머신러닝 기반의 재해 강도 단계 분류모형에 관한 연구 (On classification model of disaster severity level based on machine learning)

  • 이승민;왕원준;강유진;신성철;김형수;김수전
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.239-239
    • /
    • 2023
  • 최근 도시화 및 기후변화에 따른 재난의 피해가 증가하고 있다. 국내 기상청에서는 호우 및 태풍에 대한 예·경보(주의보, 경보)를 전국적으로 통일된 기준(3시간, 12시간 누적강우량)에 따라 발령하고 있다. 이에 따라 현재 예·경보 기준에는 피해가 발생한 사상에 대한 지역별 특성이 고려되지 않는 문제점이 있다. 본 연구에서는 이러한 문제점을 해결하기 위하여 서울특별시, 인천광역시, 경기도의 호우 및 태풍에 대한 재해사상별 발생한 피해액 및 누적강우량을 활용하여 재해강도의 단계별 기준을 수립하고, 입력자료로 관측된 강우값을 활용하여 발생할 수 있는 재해의 발생 강도를 분류하는 모형을 개발하고자 하였다. 본 연구에서는 호우 및 태풍에 의한 재해 피해액의 분위별로 재해강도 단계(관심, 주의, 경계, 심각)를 분류하였고, 재해강도 단계에 따른 누적강우량 기준을 지자체별로 제시하였으며, 분류한 재해의 강도 단계를 모형의 종속변수로 활용하였다. 재해피해가 발생하지 않은 무강우 지속시간을 산정하여 호우 사상을 분류하였다. 지자체별로 재해 발생강도 분류 모형 개발을 위하여 머신러닝 모형 4가지(의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, XGBoost)를 활용하였다. 본 연구에서 분류한 피해가 발생하지 않은 호우사상 및 피해가 발생한 사상별로 강우량, 지속시간 최대 강우량(3시간, 12시간), 선행강우량, 누적강우량을 독립변수로 입력하여 종속변수인 재해 발생 강도를 분류하였다. 각 모형별로 F1 Score를 이용한 정확도 평가 결과, 의사결정나무의 F1 Score가 평균 0.56으로 가장 우수한 정확도를 가지는 것으로 평가되었다. 본 연구에서 제시하는 머신러닝 기반 재해 발생 강도 분류모형을 활용하면 호우 및 태풍에 의한 재해에 대하여 지자체별로 재해 발생 강도를 단계별로 파악할 수 있어, 재난 담당자들의 의사결정을 위한 참고 자료로 활용될 수 있을 것으로 판단된다.

  • PDF

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

자료 과소 유역 유출 모의을 위한 머신러닝 기법 적용 (Application of machine learning technique for runoff prediction in watershed with limited data)

  • 정민혁;범진아;박민경;정지연;윤광식
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.254-254
    • /
    • 2021
  • 기후변화로 인한 자연재해는 해마다 크게 증가하고있으며, 홍수 및 가뭄의 강도와 빈도 증가, 지구온난화로 인한 하천 건천화 등 많은 문제들이 대두되고 있다. 특히, 물 순환과정의 핵심요소로 설명되는 유출량의 변동은 용수 공급과 홍수 대응 및 관리, 하천생태계 유지를 위한 환경에 영향을 미치고 있다. 따라서, 갈수량, 풍수량 등을 산정하여 하천별 유황특성을 결정하는 방법을 사용하고 있으나, 이와같은 지표는 계측자료가 과소한 경우 하천의 유황특성을 세부적으로 이해하고 정량적으로 제시하는데에 한계가있다. 따라서, 미계측 유역에서 Soil and Water Assessment Tool (SWAT)과 같은 수리해석모델이 광범위하게 이용되고있으며, SWAT 모델은 유역의 수치표고모형, 토양 특성, 토지이용 현황, 기상 현황, 유역의 매개변수 등을 반영하여 모델이 구동되고 있다. 하지만, 광범위하게 이용되고 적용성이 입증된 모델임에도 불구하고 입력자료의 불확실성 및 조사되지 않은 영농활동 등으로 인해 결과에 불확실성이 내포되어있으며, 불확실성을 줄이기 위해 실측된 하천의 유량 자료를 이용하여 검정 및 보정작업을 거치고 있다. 모델의 보정 방법으로는 SWAT-CUP과 같은 프로그램 이용되고 있지만, 모델에서 이용되는 매개변수로는 보정할수 있는 범위가 한정적이기 때문에 모델의 정확성을 높이는데에 한계가 있다. 따라서, 본 연구에서는 선암천 유역을 대상으로 모델의 매개변수를 보정하지 않고도 머신러닝 기법을 이용하여 모델의 결과를 향상시켰다. 보정 결과, 유량의 경우 R2가 0.42에서 0.91으로 향상되었으며, 특히 고유량 구간에서의 정확성이 매우 향상되었다. 본 연구에서 평가된 SWAT+머신러닝 결합 모형은 향후 모델 구동에 필요한 입력자료가 부족한 경우와 빠른 검정 및 보정 작업이 필요할 경우 활용될수 있을것으로 판단된다.

  • PDF

댐 유입량 예측을 위한 머신러닝 알고리즘 평가 및 CombML 개발 (Machine Learning Algorithms Evaluation and CombML Development for Dam Inflow Prediction)

  • 홍지영;배주현;정연석;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.317-317
    • /
    • 2021
  • 효율적인 물관리를 위한 댐 유입량 대한 연구는 필수적이다. 본 연구에서는 다양한 머신러닝 알고리즘을 통해 40년동안의 기상 및 댐 유입량 데이터를 이용하여 소양강댐 유입량을 예측하였으며, 그 중 고유량과 저유량예측에 적합한 알고리즘을 각각 선정하여 머신러닝 알고리즘을 결합한 CombML을 개발하였다. 의사 결정 트리 (DT), 멀티 레이어 퍼셉트론 (MLP), 랜덤 포레스트(RF), 그래디언트 부스팅 (GB), RNN-LSTM 및 CNN-LSTM 알고리즘이 사용되었으며, 그 중 가장 정확도가 높은 모형과 고유량이 아닌 경우에서 특별히 예측 정확도가 높은 모형을 결합하여 결합 머신러닝 알고리즘 (CombML)을 개발 및 평가하였다. 사용된 알고리즘 중 MLP가 NSE 0.812, RMSE 77.218 m3/s, MAE 29.034 m3/s, R 0.924, R2 0.817로 댐 유입량 예측에서 최상의 결과를 보여주었으며, 댐 유입량이 100 m3/s 이하인 경우 앙상블 모델 (RF, GB) 이 댐 유입 예측에서 MLP보다 더 나은 성능을 보였다. 따라서, 유입량이 100 m3/s 이상 시의 평균 일일 강수량인 16 mm를 기준으로 강수가 16mm 이하인 경우 앙상블 방법 (RF 및 GB)을 사용하고 강수가 16 mm 이상인 경우 MLP를 사용하여 댐 유입을 예측하기 위해 두 가지 복합 머신러닝(CombML) 모델 (RF_MLP 및 GB_MLP)을 개발하였다. 그 결과 RF_MLP에서 NSE 0.857, RMSE 68.417 m3/s, MAE 18.063 m3/s, R 0.927, R2 0.859, GB_MLP의 경우 NSE 0.829, RMSE 73.918 m3/s, MAE 18.093 m3/s, R 0.912, R2 0.831로 CombML이 댐 유입을 가장 정확하게 예측하는 것으로 평가되었다. 본 연구를 통해 하천 유황을 고려한 여러 머신러닝 알고리즘의 결합을 통한 유입량 예측 결과, 알고리즘 결합 시 예측 모형의 정확도가 개선되는 것이 확인되었으며, 이는 추후 효율적인 물관리에 이용될 수 있을 것으로 판단된다.

  • PDF

머신러닝 기법을 활용한 토양수분 예측 가능성 연구 (Study on Soil Moisture Predictability using Machine Learning Technique)

  • 조봉준;최완민;김영대;김기성;김종건
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.248-248
    • /
    • 2020
  • 토양수분은 증발산, 유출, 침투 등 물수지 요소들과 밀접한 연관이 있는 주요한 변수 중에 하나이다. 토양수분의 정도는 토양의 특성, 토지이용 형태, 기상 상태 등에 따라 공간적으로 상이하며, 특히 기상 상태에 따라 시간적 변동성을 보이고 있다. 기존 토양수분 측정은 토양시료 채취를 통한 실내 실험 측정과 측정 장비를 통한 현장 조사 방법이 있으나 시간적, 경제적 한계점이 있으며, 원격탐사 기법은 공간적으로 넓은 범위를 포함하지만 시간 해상도가 낮은 단점이 있다. 또한, 모델링을 통한 토양수분 예측 기술은 전문적인 지식이 요구되며, 복잡한 입력자료의 구축이 요구된다. 최근 머신러닝 기법은 수많은 자료 학습을 통해 사용자가 원하는 출력값을 도출하는데 널리 활용되고 있다. 이에 본 연구에서는 토양수분과 연관된 다양한 기상 인자들(강수량, 풍속, 습도 등)을 활용하여 머신러닝기법의 반복학습을 통한 토양수분의 예측 가능성을 분석하고자 한다. 이를 위해 시공간적으로 토양수분 실측 자료가 잘 구축되어 있는 청미천과 설마천 유역을 대상으로 머신러닝 기법을 적용하였다. 두 대상지에서 2008년~2012년 수문자료를 확보하였으며, 기상자료는 기상자료개방포털과 WAMIS를 통해 자료를 확보하였다. 토양수분 자료와 기상자료를 머신러닝 알고리즘을 통해 학습하고 2012년 기상 자료를 바탕으로 토양수분을 예측하였다. 사용되는 머신러닝 기법은 의사결정 나무(Decision Tree), 신경망(Multi Layer Perceptron, MLP), K-최근접 이웃(K-Nearest Neighbors, KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), 그래디언트 부스팅 (Gradient Boosting)이다. 토양수분과 기상인자 간의 상관관계를 분석하기 위해 히트맵(Heat Map)을 이용하였다. 히트맵 분석 결과 토양수분의 시간적 변동은 다양한 기상 자료 중 강수량과 상대습도가 가장 큰 영향력을 보여주었다. 또한 다양한 기상 인자 기반 머신러닝 기법 적용 결과에서는 두 지역 모두 신경망(MLP) 기법을 제외한 모든 기법이 전반적으로 실측값과 유사한 형태를 보였으며 비교 그래프에서도 실측값과 예측 값이 유사한 추세를 나타냈다. 따라서 상관관계있는 과거 기상자료를 통해 머신러닝 기법 기반 토양수분의 시간적 변동 예측이 가능할 것으로 판단된다.

  • PDF

머신러닝 기반 노지 환경 변수에 따른 예측 토양 수분에 미치는 영향에 대한 연구 (A study on the impact on predicted soil moisture based on machine learning-based open-field environment variables)

  • 정광훈;이명훈
    • 스마트미디어저널
    • /
    • 제12권10호
    • /
    • pp.47-54
    • /
    • 2023
  • 지구 온난화로 인해 갑작스러운 기후변화와 농업 생산성에 대한 이해가 점점 중요해지면서, 토양 수분 예측은 농업에서 핵심 주제로 떠오르고 있다. 토양 수분은 농작물의 성장과 건강에 큰 영향을 미치며, 적절한 관리와 정확한 예측은 농업 생산성 향상과 자원 관리의 핵심 요소이다. 이러한 이유로 토양 수분 예측은 농업 및 환경 분야에서 큰 주목을 받고 있다. 본 논문에서는 머신러닝 알고리즘인 랜덤 포레스트를 통하여 시범포를 이용하여 노지 환경 데이터를 수집하고 분석하여 데이터 특성들과 토양 수분의 상관관계를 구하고 토양 수분 실제 값과 예측값을 비교하였으며 비교 결과 예측률이 약 92%의 정확성을 갖는다는 것을 확인하였다. 추후 연구를 통해 작물의 생장 데이터 변수들을 추가하여 토양 수분 예측을 진행한다면 토양 수분에 따른 작물의 생장 속도, 적절한 관수 타이밍 등의 주요 정보를 정확하게 제어함으로써 작물의 품질 상승, 물 관리 효율 증가 등 생산성 및 자원 효율성에 좋은 영향을 미칠 것이라고 기대된다.

인적요인을 고려한 머신러닝 활용 산림화재 예측 (Predicting Forest Fires Using Machine Learning Considering Human Factors)

  • 장진명;김주찬;김화중;김광태
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.109-126
    • /
    • 2023
  • 대형 산림화재를 예방하기 위해 산림화재의 조기발견은 매우 중요하다. 조기발견을 위한 하나의 방안으로 산림화재 발생 예측이 고려되고 있으며 다양한 관련 연구가 진행되었다. 그러나 대다수의 선행연구가 산림화재의 주요 발화 원인 중의 하나인 인적요인을 고려하지 않고 기상요인과 지리적 요인만을 주로 다루고 있다. 따라서 본 연구는 기상 및 지리적 요인뿐만 아니라 인적요인을 고려한 산림화재 예측모형을 개발하기 위해 2003년부터 2020년까지의 강원도 산림화재 데이터를 활용하여 로지스틱 회귀모형과 다양한 머신러닝 기법 기반의 예측모형을 개발하고 성능을 비교분석하였다. 성능분석 결과, 머신러닝 기법인 랜덤 포레스트(AUC=0.920)와 XG Boost 모형(AUC=0.925)이 가장 우수한 성능을 나타냈다. 운영시사점을 도출하기 위해 순열특성중요도 분석을 활용하여 요인들의 상대적 중요도를 분석하였으며, 기상요인이 인적요인보다 높은 영향도를 나타냈지만 다양한 인적요인도 유효한 것으로 확인되었다.

머신러닝 기반 부산 청년인구 유출위험 요인 분석 (Analysis of Risk Factors for Youth Population Outflow in Busan Based on Machine Learning)

  • 손서영;양혜성;박민서
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.131-136
    • /
    • 2023
  • 지방을 떠나 수도권으로 이동하는 청년들이 나날이 늘고 있다. 청년 유출의 요인을 파악하기 위한 연구들이 다양하게 진행되고 있으나 각 지방별로 분석하는 연구는 부족한 실정이다. 이에 따라 본 연구는 부산의 청년 인구 유출 요인을 분석하고, 머신러닝 기법을 사용해 청년 인구 유출 위험 등급을 예측하고자 한다. 국가통계포털에서 수집한 부산의 구별 데이터를 활용하여 나이대(20대 초반, 20대 후반, 30대 초반)별로 세 그룹으로 나눈 뒤, 의사결정나무와 랜덤 포레스트 알고리즘을 이용해 청년 인구 유출 위험 등급을 분류하고 예측한다. 그 결과, 청년 인구 유출 위험 등급 예측 모델은 나이 그룹별 각각 최고 정확도 0.93, 0.75, 0.63을 갖는다.

빅데이터 기반 2형 당뇨 예측 알고리즘 개발 (Development of Type 2 Prediction Prediction Based on Big Data)

  • 심현;김현욱
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.999-1008
    • /
    • 2023
  • 당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.