• 제목/요약/키워드: Random Forest (RF)

검색결과 182건 처리시간 0.029초

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

공공 기상데이터와 기계학습 모델을 이용한 토양수분 예측 (Prediction of Soil Moisture with Open Source Weather Data and Machine Learning Algorithms)

  • 장영빈;장익훈;최영찬
    • 한국농림기상학회지
    • /
    • 제22권1호
    • /
    • pp.1-12
    • /
    • 2020
  • 토양수분은 농업에서 필수적인 자원으로 이의 변화와 부족을 예측함으로써 관리되어왔다. 최근 현장에서의 적용 용이성과 다양한 지역에 대한 일반화 가능성이 뛰어난 통계 및 기계학습 알고리즘을 활용한 토양수분 예측 연구가 활발히 진행되고 있다. 하지만 국내에서 생성되는 데이터를 이용한 연구들은 부족한 실정이다. 이에 본 연구는 1) 국내 공공기상 데이터만으로 충분한 성능을 내는 토양수분 예측 모델을 만들 수 있는지, 2) 어떠한 기계학습 모델이 국내에서 생산되는 데이터와 토양환경에서 가장 높은 예측 성능을 보이는지, 3) 단일 기계학습 모델을 이용해 다양한 지역에 적용 가능한지를 확인해보려 한다. 본 연구에서 Support Vector Machines (SVM), Random Forest (RF), Extremely Randomized Trees (ET), Gradient Boosting Machines (GBM), and Deep Feedforward Network (DFN) 알고리즘과 종관기상관측 자료, 농업기상관측자료를 활용하여 안동, 보성, 철원, 순천 지역의 토양 수분을 예측하는 모델을 만들었다. 그 결과, GBM을 이용한 모델이 R2 : 0.96, Root Mean Squared Error(RMSE) : 1.8로 가장 낮은 예측 오차를 보였다. 또한 GBM을 사용한 모델이 가장 낮은 지역간 예측 오차 분산을 보여 가장 일반화하기에 적절한 모델로 확인되었다.

기계학습을 통한 주간 반투명 구름탐지 연구: GK-2A/AMI를 이용하여 (A Study on Daytime Transparent Cloud Detection through Machine Learning: Using GK-2A/AMI)

  • 변유경;진동현;성노훈;우종호;전우진;한경수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1181-1189
    • /
    • 2022
  • 구름은 대기 중에 떠 있는 작은 물방울이나 얼음 알갱이들 또는 혼합물 등으로 구성되며 지구 표면의 약 2/3를 덮고 있다. 위성영상내에서의 구름은 일부 다른 지상 물체 또는 지표면과 유사한 반사도 특성으로 인해 구름과 구름이 아닌 영역을 분리하는 구름탐지는 매우 어려운 작업이다. 특히 뚜렷한 특징을 가지는 두꺼운 구름과 달리 얇은 반투명 구름은 위성영상내에서 구름과 배경의 대비가 약하고 지표면과 혼합되어져 나타나기 때문에 대부분 구름탐지에서 쉽게 놓쳐지고 많은 어려움을 주는 대상으로 작용한다. 이러한 구름탐지의 반투명 구름의 한계점을 극복하기 위해, 본 연구에서는 머신러닝 기법(Random Forest [RF], Convolutional Neural Networks [CNN])을 활용하여 반투명 구름을 중점으로 한 구름탐지 연구를 수행하였다. Reference자료로는 MOderate Resolution Imaging Spectroradiometer (MODIS)에서 제공하는 MOD35자료에서 Cloud Mask와 Cirrus Mask를 활용하였으며 반투명 구름 픽셀을 고려한 모델 훈련을 위해 훈련 데이터의 픽셀 비율을 구름, 반투명 구름, 청천이 약 1:1:1이 되도록 구성하였다. 연구의 정성적 비교 결과, RF와 CNN 모두 반투명 구름을 포함한 다양한 형태의 구름 등을 잘 탐지하였고, RF 모델 결과와 CNN 모델 결과를 혼합한 RF+CNN경우에는 개별 모델의 한계점을 개선시키며 구름탐지가 잘 수행되어진 것을 확인하였다. 연구의 정량적 결과 RF의 전체 정확도(OA) 값은 92%, CNN은 94.11%를 보였고, RF+CNN은 94.29%의 정확도를 보였다.

앙상블 학습기법을 활용한 보행자 교통사고 심각도 분류: 대전시 사례를 중심으로 (Classifying the severity of pedestrian accidents using ensemble machine learning algorithms: A case study of Daejeon City)

  • 강흥식;노명규
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.39-46
    • /
    • 2022
  • 교통사고와 사회·경제적 손실 간의 연계성이 확인됨에 따라 사고 데이터에 기반을 둔 안전 정책 마련 및 중상·사망 등 그 심각도가 높은 교통사고의 절감 방안의 필요성이 제기되고 있다. 본 연구에서는 인구 대비 교통사고 사망자 비율이 높은 대전시를 대상지역으로 설정하고 보행자 교통사고 데이터를 수집한 후, 기계학습을 통해 최적알고리즘과 심각도 분류의 주요 인자를 도출하였다. 연구의 결과에 따르면, 적용한 9개 알고리즘 중 앙상블 기반의 학습 기법인 AdaBoost (Adaptive Boosting)와 RF (Random Forest)가 최적의 성능을 보여주었다. 이를 기반으로 도출된 대전시 보행자 교통사고 심각도의 주요 인자는 보행자의 연령이 70대 및 20대이거나 사고유형이 횡단사고에 의한 경우로 나타남에 따라 대전시 보행자 사고 저감 대책을 위한 고려요인으로 제안하였다.

GOCI-II 영상 기반 Random Forest 모델을 이용한 해빙 모니터링 적용 가능성 평가: 2021-2022년 랴오둥만을 대상으로 (Evaluation of Applicability of Sea Ice Monitoring Using Random Forest Model Based on GOCI-II Images: A Study of Liaodong Bay 2021-2022)

  • 김진영;장소영;권재엽;김태호
    • 대한원격탐사학회지
    • /
    • 제39권6_2호
    • /
    • pp.1651-1669
    • /
    • 2023
  • 해빙(sea ice)은 현재 전 세계 해양 면적의 약 7%를 차지하고 있으며 계절적, 연간 변화를 보이고 주로 극지방과 고위도 지역에 나타난다. 해빙은 대규모 공간 규모에서 다양한 종류로 형성되며 석유 및 가스탐사, 기타 해양활동이 급속히 증가하는 발해해는 해양 구조물 피해 및 해상 운송, 해양 생태계에 심각한 영향을 미치기 때문에 시계열 모니터링을 통해 해빙의 면적 및 유형 분류를 분석하는 것이 매우 중요하다. 현재 고해상도 위성영상 및 현장 실측 자료를 바탕으로 해빙의 종류 및 영역에 대한 연구가 진행되고 있지만 현장 실측자료를 획득하여 해빙 모니터링에는 한계가 있다. 고해상도 광학 위성영상은 광범위에서 해빙의 유형을 육안으로 탐지하고 식별할 수 있고, 짧은 시간해상도를 갖는 해양위성인 천리안 2B호(Geostationary Ocean Color Imager-II, GOCI-II)를 이용하여 해빙 모니터링의 공백을 보완할 수 있다. 이 연구에서는 고해상도 광학위성영상을 이용하여 생산된 학습자료를 기반으로 규칙기반 기계학습 모델을 훈련시키고 이를 GOCI-II 영상에서 탐지를 수행함으로써, 해빙 모니터링 활용 가능성을 알아보고자 하였다. 학습 자료는 발해(Bohai Sea)의 2021-2022년 랴오둥만(Liaodong Bay)을 대상으로 추출하였으며, GOCI-II를 활용한 Random Forest (RF) 모델을 구축하여 기존 normalized difference snow index (NDSI) 지수 기반 및 고해상도 위성영상에서 획득된 해빙 영역과 정성적 및 정량적 비교 분석하였다. 본 연구 결과 해빙의 영역을 과소평가한 NDSI 지수 기반 결과와 달리 비교적 자세한 해빙 영역을 탐지하였으며 유형별 해빙을 분류할 수 있어 해빙 모니터링이 가능함을 확인하였다. 향후 지속적인 학습 자료 및 해빙형성에 영향인자 구축을 통해 탐지 모델의 정확도를 향상시킨다면 고위도 해양 지역에서 해빙 모니터링 분야에 활용할 수 있을 것으로 기대된다.

머신러닝 기법의 산림 총일차생산성 예측 모델 비교 (Predicting Forest Gross Primary Production Using Machine Learning Algorithms)

  • 이보라;장근창;김은숙;강민석;천정화;임종환
    • 한국농림기상학회지
    • /
    • 제21권1호
    • /
    • pp.29-41
    • /
    • 2019
  • 산림생태계에서 총일차생산성(Gross Primary Production, GPP)은 기후변화에 따른 산림의 생산성과 그에 영향을 미치는 식물계절, 건강성, 탄소 순환 등을 대표하는 지표이다. 총일차생산성을 추정하기 위해서는 에디공분산 타워 자료나 위성영상관측자료를 이용하기도 하고 물리지형적 한계나 기후변화 등을 고려하기 위해 기작기반모델링을 활용하기도 한다. 그러나 총일차생산성을 포함한 산림 탄소 순환의 기작기반 모델링은 식물의 생물, 생리, 화학적 기작들의 반응과 지형, 기후 및 시간 등과 같은 환경 조건들이 복잡하게 얽혀 있어 비선형적이고 유연성이 떨어져 반응에 영향을 주는 조건들을 모두 적용하기가 어렵다. 본 연구에서는 산림 생산성 추정 모델을 에디공분산 자료와 인공위성영상 정보를 사용하여 기계학습 알고리즘을 사용한 모델들로 구축해 보고 그 사용 및 확장 가능성을 검토해 보고자 하였다. 설명변수들로는 에디공분산자료와 인공위성자료에서 나온 대기기상인자들을 사용하였고 검증자료로 에디공분산 타워에서 관측된 총일차생산성을 사용하였다. 산림생산성 추정 모델은 1) 에디공분산 관측 기온($T_{air}$), 태양복사($R_d$), 상대습도(RH), 강수(PPT), 증발산(ET) 자료, 2) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD 자료(개량식생지수 제외), 3) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD, 개량식생지수(EVI) 자료를 사용하는 세 가지 경우로 나누어 구축하여 2006 - 2013년 자료로 훈련시키고 2014, 2015년 자료로 검증하였다. 기계학습 알고리즘은 support vector machine (SVM), random forest (RF), artificial neural network (ANN)를 사용하였고 단순 비교를 위해 고전적 방법인 multiple linear regression model (LM)을 사용하였다. 그 결과, 에디공분산 입력자료로 훈련시킨 모델의 예측력은 피어슨 상관계수 0.89 - 0.92 (MSE = 1.24 - 1.62), MODIS 입력자료로 훈련시킨 모델의 예측력은 개량식생지수 제외된 모델은 0.82 - 0.86 (MSE = 1.99 - 2.45), 개량식생지수가 포함된 모델은 0.92 - 0.93(MSE = 1.00 - 1.24)을 보였다. 이러한 결과는 산림총일차생산성 추정 모델 구축에 있어 MODIS인공위성 영상 정보 기반으로 기계학습 알고리즘을 사용하는 것에 대한 높은 활용가능성을 보여주었다.

댐 유입량 예측을 위한 머신러닝 알고리즘 평가 및 CombML 개발 (Machine Learning Algorithms Evaluation and CombML Development for Dam Inflow Prediction)

  • 홍지영;배주현;정연석;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.317-317
    • /
    • 2021
  • 효율적인 물관리를 위한 댐 유입량 대한 연구는 필수적이다. 본 연구에서는 다양한 머신러닝 알고리즘을 통해 40년동안의 기상 및 댐 유입량 데이터를 이용하여 소양강댐 유입량을 예측하였으며, 그 중 고유량과 저유량예측에 적합한 알고리즘을 각각 선정하여 머신러닝 알고리즘을 결합한 CombML을 개발하였다. 의사 결정 트리 (DT), 멀티 레이어 퍼셉트론 (MLP), 랜덤 포레스트(RF), 그래디언트 부스팅 (GB), RNN-LSTM 및 CNN-LSTM 알고리즘이 사용되었으며, 그 중 가장 정확도가 높은 모형과 고유량이 아닌 경우에서 특별히 예측 정확도가 높은 모형을 결합하여 결합 머신러닝 알고리즘 (CombML)을 개발 및 평가하였다. 사용된 알고리즘 중 MLP가 NSE 0.812, RMSE 77.218 m3/s, MAE 29.034 m3/s, R 0.924, R2 0.817로 댐 유입량 예측에서 최상의 결과를 보여주었으며, 댐 유입량이 100 m3/s 이하인 경우 앙상블 모델 (RF, GB) 이 댐 유입 예측에서 MLP보다 더 나은 성능을 보였다. 따라서, 유입량이 100 m3/s 이상 시의 평균 일일 강수량인 16 mm를 기준으로 강수가 16mm 이하인 경우 앙상블 방법 (RF 및 GB)을 사용하고 강수가 16 mm 이상인 경우 MLP를 사용하여 댐 유입을 예측하기 위해 두 가지 복합 머신러닝(CombML) 모델 (RF_MLP 및 GB_MLP)을 개발하였다. 그 결과 RF_MLP에서 NSE 0.857, RMSE 68.417 m3/s, MAE 18.063 m3/s, R 0.927, R2 0.859, GB_MLP의 경우 NSE 0.829, RMSE 73.918 m3/s, MAE 18.093 m3/s, R 0.912, R2 0.831로 CombML이 댐 유입을 가장 정확하게 예측하는 것으로 평가되었다. 본 연구를 통해 하천 유황을 고려한 여러 머신러닝 알고리즘의 결합을 통한 유입량 예측 결과, 알고리즘 결합 시 예측 모형의 정확도가 개선되는 것이 확인되었으며, 이는 추후 효율적인 물관리에 이용될 수 있을 것으로 판단된다.

  • PDF

밭작물 농업기상을 위한 수치형 산림입지토양도 활용성 평가 (Utilization Evaluation of Numerical forest Soil Map to Predict the Weather in Upland Crops)

  • 강다영;황영은;윤상후
    • 한국농림기상학회지
    • /
    • 제23권1호
    • /
    • pp.34-45
    • /
    • 2021
  • 날씨는 밭작물의 가격 측정과 생산량 및 품질에 영향을 미치기 때문에 농산업에서 가장 많이 고려되는 요소이다. 특히, 밭작물의 경우 평지보다 산지에서 재배되는 등 외부 환경에 많이 노출되어 있다. 본 연구는 수치 산림입지토양도를 이용하여 산지를 구성하고 있는 12개의 토양의 특성 자료와 기상정보 간의 연관성을 파악하였다. 공간적 상관관계가 고려된 GAM, 크리깅, RF를 이용하였으며, 연구자료는 2009년 1월부터 2018년 12월까지의 기상청과 농촌진흥청에서 수집한 일 단위 평균기온, 최고기온, 최저기온, 강우량 자료가 사용되었다. 분석결과 지리적 효과만 반영된 GAM이 상대적으로 추정성능이 우수하였고, 산림입지토양도는 밭작물 재배지 기상정보를 추정에 큰 도움이 되지 않았다. 이에 유의수준을 5%로 통계적 가설검정을 수행하여 중요 요인을 선택하였다. 산림입지토양도의 기후대코드(CLZN_CD)와 토양목본코드 B(SIBFLR_LAR)가 기상정보 추정에 상대적 유의미한 요인으로 선정되었다. 기후대코드를 추가한 모형의 경우 일 평균 기온과 일 최저기온의 공간 보간 성능이 향상되었다. 한반도의 국토는 70%가 산지이고 밭작물은 주로 산지에서 재배되고 있다. 따라서 산지의 기상정보를 추가 수집하여 연구를 수행한다면 생육시기별로 밭작물을 관리하는데 도움이 될 것으로 기대한다.

낙동강 중하류에서 이산화탄소 과포화 및 순배출 특성 분석 (Characterizing CO2 Supersaturation and Net Atmospheric Flux in the Middle and Lower Nakdong River)

  • 이은주;정세웅;박형석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.416-416
    • /
    • 2019
  • 육상 담수는 대기중 이산화탄소($CO_2$) 배출의 중요한 발생원으로 주목되고 있다. 하천 및 강에서 대기중으로 배출되는 $CO_2$는 전 세계 탄소순환의 핵심요소이며, 대부분의 하천과 강은 $CO_2$로 과포화 되어있다. 세계적으로 하천 및 강의 $CO_2$ 배출량은 호수 및 저수지의 배출량보다 약 5배 많은 것으로 보고되고 있으나, 국내연구에서는 연구사례가 드물다. 따라서 본 연구의 목적은 낙동강 중하류에 위치해있는 강정고령보(GGW), 달성보(DSW), 합천창녕보(HCW), 창녕함안보(CHW)에서 발생되는 순 대기 배출 플럭스(Net Atmospheric Flux, NAF)의 동적 변동 특성을 분석하고, 데이터마이닝 기법을 적용하여 쉽게 수집할 수 있는 물리적 및 수질 변수로 $CO_2$ NAF를 추정하는데 사용할 수 있는 간략한 예측 모델을 개발하는데 있다. $CO_2$ NAF는 대기-수면 경계면에서의 $CO_2$ 부분압($pCO_2$)의 차에 기체전달속도를 곱하여 산정하였으며, 기체전달속도는 Cole and Caraco(1998)가 제안한 식을 사용하였다. 담수와 해수의 탄산염 시스템에서 열역학적 화학평형을 모두 고려한 $CO_2$SYS 프로그램을 사용하여 수중의 $pCO_2$를 산정하였고, $CO_2$ NAF는 Henry의 법칙과 Fick의 1차 확산법칙을 사용하여 계산하였다. $CO_2$ NAF의 시간적 변동성에 영향을 미치는 환경요인을 평가하기 위해서 상관분석, 주성분분석(Principal Component Analysis; PCA), 단계적다중회귀모델(Step-wise Multiple Linear Regression; SMLR), 랜덤포레스트(Random Forest; RF)방법을 사용하였다. SMLR 모델은 R package인 olsrr, RF 모델은 R package인 caret, randomForest를 이용하여 분석하였다. 연구 결과, 4개 보 상류 하천구간은 조류의 성장이 활발한 일부 기간을 제외한 대부분의 기간에서 $CO_2$를 대기로 배출하는 종속영양시스템(Heterotrophic system)을 보였다. $CO_2$ NAF의 중위값은 HCW에서 최소 $391.5mg-CO_2/m^2day$, DSW에서 최대 $1472.7mg-CO_2/m^2day$였다. 모든 보에서 NAF는 pH와 강한 음의 상관관계를 보였으며, $pCO_2$와 Chl-a도 음의 상관관계를 보였다. 이는 조류가 수중에서 $CO_2$를 소비하고 pH를 증가시키기 때문이다. PCA 분석 결과, NAF와 $pCO_2$가 높은 공분산을 보였으며, pH와 Chl-a는 반대 방향으로 군집되어 상관분석과 동일한 결과를 보였다. 이 연구를 통해 개발된 SMLR 모델과 RF 모델의 Adj. $R^2$ 값은 모든 보에서 0.77 이상으로 나왔으며, $pCO_2$ 측정 데이터가 없더라도 하천의 $CO_2$ NAF를 추정하는 방법으로 사용될 수 있을 것으로 평가된다.

  • PDF

GOCI 위성영상과 기계학습 기법을 이용한 Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index의 공간 상세화 (Spatial Downscaling of Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index Using GOCI Satellite Image and Machine Learning Technique)

  • 성태준;김영준;최현영;임정호
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.959-974
    • /
    • 2021
  • Forel-Ule Index (FUI)는 자연에 존재하는 담수 및 해수의 색을 남색부터 고동색까지 21 가지의 등급으로 구분하는 지표이다. FUI는 여러 선행연구에서 수계의 부영양화 지수, 수질인자, 광 특성 등과 연관 지어 분석되었으며, 여러 수질인자의 광학적 정보를 동시에 가지고 있는 새로운 수질 지표로써의 가능성이 제시되었다. 본 연구에서는 500 m의 높은 공간해상도를 가지는 정지궤도 해양위성해색탑재체(Geostationary Ocean Color Imager; GOCI) 관측 자료와 Random Forest (RF) 기계학습 기법을 활용하여 Ocean Colour-Climate Change Initiative(OC-CCI) 기반의 4 km FUI 자료를 공간 상세화 시켰다. 이를 활용하여 우리나라 연안 해역에 대한 수질인자와의 상관관계와 주요 해역에 대한 FUI의 공간적 분포 및 계절별 특성 변화를 분석하였다. 검증 결과 RF 기법으로 추정한 RF FUI는 결정계수(R2)=0.81, 평균 제곱근 오차(Root Mean Square Error; RMSE)=0.7784로, Pitarch의 OC-CCI FUI 알고리즘을 적용하여 계산한 GOCI FUI 추정 정확도(R2=0.72, RMSE=0.9708) 대비 향상된 결과를 보였다. RF FUI는 총 질소(Total Nitrogen), 총 인(Total Phosphorus), 클로로필-a(Chlorophyll-a), 총 부유물질(Total Suspended Solids), 투명도(Secchi Disk Depth)를 포함하는 5가지 수질인자와 각각 0.87, 0.88, 0.97, 0.65, -0.98의 상관계수로 강한 상관성을 보였다. 산출된 FUI의 시간적 패턴 역시 여러 수질인자와의 물리적 관계를 반영하며 유의미한 계절적 패턴의 변화를 보였다. 본 연구의 결과로 한반도 연안 수질 관리에서 고해상도 FUI의 활용 가능성을 제시하였다.