• 제목/요약/키워드: 랜덤포레스트기법

검색결과 130건 처리시간 0.029초

낙동강 중하류에서 이산화탄소 과포화 및 순배출 특성 분석 (Characterizing CO2 Supersaturation and Net Atmospheric Flux in the Middle and Lower Nakdong River)

  • 이은주;정세웅;박형석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.416-416
    • /
    • 2019
  • 육상 담수는 대기중 이산화탄소($CO_2$) 배출의 중요한 발생원으로 주목되고 있다. 하천 및 강에서 대기중으로 배출되는 $CO_2$는 전 세계 탄소순환의 핵심요소이며, 대부분의 하천과 강은 $CO_2$로 과포화 되어있다. 세계적으로 하천 및 강의 $CO_2$ 배출량은 호수 및 저수지의 배출량보다 약 5배 많은 것으로 보고되고 있으나, 국내연구에서는 연구사례가 드물다. 따라서 본 연구의 목적은 낙동강 중하류에 위치해있는 강정고령보(GGW), 달성보(DSW), 합천창녕보(HCW), 창녕함안보(CHW)에서 발생되는 순 대기 배출 플럭스(Net Atmospheric Flux, NAF)의 동적 변동 특성을 분석하고, 데이터마이닝 기법을 적용하여 쉽게 수집할 수 있는 물리적 및 수질 변수로 $CO_2$ NAF를 추정하는데 사용할 수 있는 간략한 예측 모델을 개발하는데 있다. $CO_2$ NAF는 대기-수면 경계면에서의 $CO_2$ 부분압($pCO_2$)의 차에 기체전달속도를 곱하여 산정하였으며, 기체전달속도는 Cole and Caraco(1998)가 제안한 식을 사용하였다. 담수와 해수의 탄산염 시스템에서 열역학적 화학평형을 모두 고려한 $CO_2$SYS 프로그램을 사용하여 수중의 $pCO_2$를 산정하였고, $CO_2$ NAF는 Henry의 법칙과 Fick의 1차 확산법칙을 사용하여 계산하였다. $CO_2$ NAF의 시간적 변동성에 영향을 미치는 환경요인을 평가하기 위해서 상관분석, 주성분분석(Principal Component Analysis; PCA), 단계적다중회귀모델(Step-wise Multiple Linear Regression; SMLR), 랜덤포레스트(Random Forest; RF)방법을 사용하였다. SMLR 모델은 R package인 olsrr, RF 모델은 R package인 caret, randomForest를 이용하여 분석하였다. 연구 결과, 4개 보 상류 하천구간은 조류의 성장이 활발한 일부 기간을 제외한 대부분의 기간에서 $CO_2$를 대기로 배출하는 종속영양시스템(Heterotrophic system)을 보였다. $CO_2$ NAF의 중위값은 HCW에서 최소 $391.5mg-CO_2/m^2day$, DSW에서 최대 $1472.7mg-CO_2/m^2day$였다. 모든 보에서 NAF는 pH와 강한 음의 상관관계를 보였으며, $pCO_2$와 Chl-a도 음의 상관관계를 보였다. 이는 조류가 수중에서 $CO_2$를 소비하고 pH를 증가시키기 때문이다. PCA 분석 결과, NAF와 $pCO_2$가 높은 공분산을 보였으며, pH와 Chl-a는 반대 방향으로 군집되어 상관분석과 동일한 결과를 보였다. 이 연구를 통해 개발된 SMLR 모델과 RF 모델의 Adj. $R^2$ 값은 모든 보에서 0.77 이상으로 나왔으며, $pCO_2$ 측정 데이터가 없더라도 하천의 $CO_2$ NAF를 추정하는 방법으로 사용될 수 있을 것으로 평가된다.

  • PDF

정지 궤도 기상 위성을 이용한 기계 학습 기반 강우 강도 추정: 한반도 여름철을 대상으로 (Rainfall Intensity Estimation Using Geostationary Satellite Data Based on Machine Learning: A Case Study in the Korean Peninsula in Summer)

  • 신예지;한대현;임정호
    • 대한원격탐사학회지
    • /
    • 제37권5_3호
    • /
    • pp.1405-1423
    • /
    • 2021
  • 강우 현상은 물 순환과 에너지 순환의 주요 요소 중 하나이며 강우량 추정은 수자원 확보와 수재해 예측 및 피해 감축에 매우 중요한 역할을 한다. 위성 기반 강우량 추정은 시공간적으로 고해상도인 자료를 통하여 넓은 지역을 연속적으로 감시할 수 있다는 장점이 있다. 본 연구에서는 Himawari-8 Advanced Himawari Imager(AHI) 수증기 채널(6.7 ㎛), 적외 채널(10.8 ㎛)과 기상 레이더 Column Max (CMAX) 합성장을 이용하여 기계학습 기반 정량적 강우량 추정 모델을 개발하였다. 기계학습 기법으로는 랜덤 포레스트(Random Forest, RF)를 사용하였으며 기상 레이더 반사도(dBZ)와 Z-R식으로 변환한 강우강도(mm/hr)를 타겟으로 하는 모델을 구축하여 비교하였다. 레이더 강우강도를 통해 검증하였을 때 임계성공지수(Critical Success Index, CSI)는 0.34, Mean-Absolute-Error (MAE) 4.82 mm/hr였다. GeoKompsat-2(GK-2A) 강우강도 산출물, Precipitation Estimation from Remotely Sensed Information Using Artificial Neural Networks (PERSIANN)-Cloud Classification System (CCS) 산출물과 비교하였을 때 강우 유무 분류에서 CSI 21.73%, 10.81%, 강우강도 정량적 평가에서 MAE 31.33%, 23.49% 높은 성능을 보였다. 강우량 산출물을 지도화 한 결과, 실제 강우강도 분포와 유사한 분포를 모의하여 기존 산출물 대비 높은 정확도의 강우량을 추정했다.

농림위성 활용 수종분류 가능성 평가를 위한 래피드아이 영상 기반 시험 분석 (A Study on Pre-evaluation of Tree Species Classification Possibility of CAS500-4 Using RapidEye Satellite Imageries)

  • 권수경;김경민;임중빈
    • 대한원격탐사학회지
    • /
    • 제37권2호
    • /
    • pp.291-304
    • /
    • 2021
  • 기후변화나 여러 환경문제들로부터 지속 가능한 산림자원 관리 및 모니터링을 위해 임상도의 지속적인 갱신은 필수적이다. 따라서 효율적이고 광역적인 산림 원격탐사의 필요성에 따라 차세대 중형위성 4호의 사업이 확정되어 2023년 발사 예정에 있다. 농림위성(차세대 중형위성 4호)는 5 m급 공간해상도와 Blue, Green, Red, Red Edge, Near Infra Red 총 5개 밴드를 가진다. 본 연구는 농림위성의 발사 및 활용에 앞서 농림위성과 유사한 사양을 가지는 RapidEye를 이용하여 위성 기반 수종분류의 가능성을 모의 평가하기 수행되었다. 본 연구는 춘천 선도산림경영단지를 연구 대상지로 하였으며, RapidEye 위성 영상기반 모의 수종분류는 생육기 영상으로부터 추출한 분광정보와 생육기와 비생육기의 NIR 밴드로부터 추출한 GLCM 질감특성 정보가 활용되었고, 이를 입력데이터로 하여 랜덤 포레스트(Random Forest) 기법을 적용하였다. 본 연구에서는 침엽수종 3종(소나무, 잣나무, 낙엽송), 활엽수종 5종(신갈나무, 굴참나무, 자작나무, 밤나무, 기타활엽수), 침활혼효림 총 9종으로 임상을 분류하였다. 분류 정확도는 임상도와 분류 결과를 대조하여 산출하였으며, 분류 정확도는 분광정보만 사용한 경우 39.41%, 분광정보과 질감정보를 모두 사용한 경우 69.29%의 정확도를 보였으며, 다중시기 분광정보 및 질감정보의 활용을 통해 5 m 해상도의 위성영상으로부터 수종분류의 가능성이 있음을 확인하였다. 향후 식생의 생태적 특성을 더욱 효과적으로 반영한 추가 변수를 대입하여 농림위성 활용 가능성을 제고하고자 한다.

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

양파의 생육시기별 생육요인과 기상요인 간의 관계 탐색 (A Correlation between Growth Factors and Meteorological Factors by Growing Season of Onion)

  • 김재휘;최성천;김준기;서홍석
    • 한국농림기상학회지
    • /
    • 제23권1호
    • /
    • pp.1-14
    • /
    • 2021
  • 양파는 생산량 변동에 따른 가격 변화폭이 커 수급조절 대책이 필요한 대표적인 농산물로 대책의 실효성 증대를 위해서는 정확한 생산량 예측이 요구된다. 양파는 주로 노지에서 재배되기 때문에 기상변화로 인해 생산량의 정확한 추정이 어렵다. 많은 선행연구가 다양하게 시도되었지만 신뢰도 높은 분석결과를 도출하기 위한 양질의 생육 실측자료가 부족한 실정이었다. 선행연구는 기상여건을 통제한 실험설계를 통해 얻어낸 자료를 분석하거나 기상자료와 생육자료 간 지역적 범위가 동일하지 않는 연구가 대다수여서 생육요인과 기상요인 간의 관계를 명확하게 규명하기에는 한계가 있었다. 본 연구는 자연적으로 노출된 환경에서 수집한 생육 실측조사 자료와 함께 실측 대상 지역의 추정 기상자료를 사용하여 생육요인과 기상요인 간 관계를 실증적으로 분석하였다. 양파의 생산량은 구중으로 결정되지만 지상부 생육상황에 따라 구의 생장이 부진할 수 있기 때문에 본 연구에서는 구중뿐만 아니라 지상부 생장과 어떤 기상요인이 중요한지 탐색하였다. 시기별로 생육요인과 통계적으로 유의한 상관관계를 갖는 기상요인을 탐색한 후, 랜덤 포레스트 기법을 이용하여 요인들의 영향력 및 중요도를 분석하였다. 주목할만한 결과로 3월 초에는 일사량이 지상부 생육에 긍정적인 영향을 주었으며, 3월 말에는 강수량과 지상부 생장 간 음의 상관관계에 있어 가뭄에 의한 피해를 언급한 기존 문헌과 상이하였다. 또한 수확기에는 강수량과 일조시간이 지상부와 지하부 생육에 미치는 영향이 유의하게 반대로 나타났다. 본 연구에서 밝혀낸 생육시기별 중요 기상요인은 양파의 생육모형과 생산량 예측모형 개발 연구를 위한 기초자료로 유용하게 활용될 것으로 기대된다.

머신러닝 기법을 활용한 토압식 쉴드TBM 막장압 예측에 관한 연구 (A study on EPB shield TBM face pressure prediction using machine learning algorithms)

  • 권기범;최항석;오주영;김동구
    • 한국터널지하공간학회 논문집
    • /
    • 제24권2호
    • /
    • pp.217-230
    • /
    • 2022
  • 쉴드TBM (Tunnel Boring Machine) 터널 시공에 있어 막장압 관리는 막장면 붕괴, 지반침하 등을 방지하여 막장 안정성을 유지하는 데 중요한 역할을 담당한다. 특히, 챔버 내부의 굴착토로 막장압을 조절하는 토압식 쉴드TBM의 경우, 이수식 쉴드TBM에 비해 막장압의 관리가 어렵다. 본 연구에서는 국내 토압식 쉴드TBM 터널 시공 현장의 지반조건 및 굴진특성 데이터를 분석하여, 토압식 쉴드TBM 터널의 세그먼트 링별 막장압 예측모델을 제시하였다. 예측모델의 입력특성으로 7가지를 선정하였으며, 912개의 학습 데이터 세트(Training data set)와 228개의 시험 데이터 세트(Test data set)를 확보하였다. 최적의 토압식 쉴드TBM 막장압 예측모델 선정을 위하여 KNN (K-Nearest Neighbors), SVM (Support Vector Machine), RF (Random Forest), XGB (eXtreme Gradient Boosting) 모델의 하이퍼파라미터(Hyperparameter)를 최적화하여 예측성능을 비교한 결과, RF 모델이 7.35 kPa의 평균 제곱근 오차(Root Mean Square Error, RMSE)로 가장 우수한 성능을 나타냈다. 추가적으로, RF 모델의 특성 중요도(Feature importance) 분석을 수행한 결과, 입력특성 중 수압의 영향도가 0.38로 가장 높았으며, 전반적으로 지반조건이 굴진특성보다 높은 중요도를 보여주었다.

머신러닝을 활용한 뇌졸중 환자의 기능적 결과 예측: 체계적 고찰 (Predicting Functional Outcomes of Patients With Stroke Using Machine Learning: A Systematic Review)

  • 배수영;;남상훈;홍익표
    • 재활치료과학
    • /
    • 제11권4호
    • /
    • pp.23-39
    • /
    • 2022
  • 목적 : 본 연구는 뇌졸중 환자의 기능적 결과를 예측하기 위한 인구통계학적 및 임상학적 특징과 머신러닝의 사용을 체계적으로 분석하고 요약하기 위해 수행되었다. 연구방법 : PubMed, CINAHL과 Web of Science를 사용하여 2010년부터 2021년 사이에 게재된 연구를 검색하였다. 주요 검색어는 "machine learning OR data mining AND stroke AND function OR prediction OR/AND rehabilitation"을 사용하였다. 뇌 이미지 처리 기법만을 분석한 연구, 딥러닝만 적용한 연구와 전체 본문을 열람할 수 없는 연구는 제외되었다. 결과 : 검색한 결과, 총 9편의 국내외 논문을 선정했다. 선정된 논문에서 가장 많이 사용된 머신러닝 알고리즘은 서포트 벡터 머신(support vector machine, 19.05%)과 랜덤포레스트(random forest, 19.05%)였다. 9개 중 7개의 연구에서 뇌졸중 환자의 기능을 예측하기 위해 중요하다고 추출된 변수를 결과로 제시했다. 그 결과, 5개(55.56%)의 연구에서 뇌졸중 환자의 기능을 예측하기 위해 환자의 임상적 특성이 아닌 modified ranking scale (mRS) 및 functional independence measure (FIM)과 같은 초기 또는 퇴원 평가 점수가 중요하다고 도출되었다. 결론 : 이 연구는 mRS 및 FIM과 같은 뇌졸중 환자의 초기 또는 퇴원 평가 점수가 임상적 특성보다 기능적 결과에 더 많은 영향을 미칠 수 있음을 나타냈다. 따라서, 뇌졸중 환자의 기능적 결과를 향상시키기 위한 최적의 중재를 개발하고 적용하기 위해서는 뇌졸중 환자의 초기 및 퇴원 시 기능적 결과를 평가하고 검토하는 것이 필요하다.

스태킹 앙상블 모델을 이용한 시간별 지상 오존 공간내삽 정확도 향상 (Improved Estimation of Hourly Surface Ozone Concentrations using Stacking Ensemble-based Spatial Interpolation)

  • 김예진;강은진;조동진;이시우;임정호
    • 한국지리정보학회지
    • /
    • 제25권3호
    • /
    • pp.74-99
    • /
    • 2022
  • 지상 오존은 차량 및 산업 현장에서 배출된 질소화합물(Nitrogen oxides; NOx)과 휘발성 유기화합물(Volatile Organic Compounds; VOCs)의 광화학 반응을 통해 생성되어 식생 및 인체에 악영향을 끼친다. 국내에서는 실시간 오존 모니터링을 수행하고 있지만 관측소 기반으로, 미관측 지역의 공간 분포 분석에 어려움이 있다. 본 연구에서는 스태킹 앙상블 기법을 활용하여 매시간 남한 지역의 지상 오존 농도를 1.5km의 공간해상도로 공간내삽하였고, 5-fold 교차검증을 수행하였다. 스태킹 앙상블의 베이스 모델로는 코크리깅(Cokriging), 다중 선형 회귀(Multi-Linear Regression; MLR), 랜덤 포레스트(Random Forest; RF), 서포트 벡터 회귀(Support Vector Regression; SVR)를 사용하였다. 각 모델의 정확도 비교 평가 결과, 스태킹 앙상블 모델이 연구 기간 내 시간별 평균 R 및 RMSE이 0.76, 0.0065ppm으로 가장 높은 성능을 보여주었다. 스태킹 앙상블 모델의 지상 오존 농도 지도는 복잡한 지형 및 도시화 변수의 특징이 잘 드러나며 더 넓은 농도 범위를 보여주었다. 개발된 모델은 매시간 공간적으로 연속적인 공간 지도를 산출할 수 있을 뿐만 아니라 8시간 평균치 산출 및 시계열 분석에 있어서도 활용 가능성이 클 것으로 기대된다.

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.