• 제목/요약/키워드: Random forest models

검색결과 385건 처리시간 0.025초

머신러닝 기반 대학생 중도 탈락 예측 모델의 성능 비교 (Performance Comparison of Machine Learning based Prediction Models for University Students Dropout)

  • 정석봉;김두연
    • 한국시뮬레이션학회논문지
    • /
    • 제32권4호
    • /
    • pp.19-26
    • /
    • 2023
  • 전국 대학생의 중도 탈락 비율의 증가는 학생 개인 뿐만 아니라 대학과 사회에 심각한 부정적 영향을 끼친다. 본 연구에서는 중도 탈락이 예상되는 학생을 사전에 식별하기 위하여, 각 대학의 학사관리 시스템에서 손쉽게 얻을 수 있는 학적 데이터를 기반으로 머신러닝 분야의 결정트리, 랜덤 포레스트, 로지스틱 회귀 및 딥러닝 기반의 중도 탈락 예측 모델을 구축하고, 그 성능을 비교·분석하였다. 분석 결과 로지스틱 회귀 기반 예측 모델의 재현율이 가장 높았으나 f-1 및 auc 값이 낮은 한계를 보였고, 랜덤 포레스트 기반의 예측 모델의 경우 재현율을 제외한 다른 모든 지표에서 가장 우수한 성능을 보였다. 또한 예측 기간에 따른 예측 모델의 성능을 확인하기 위하여 예측 기간을 단기(1개 학기 이내), 중기(2개 학기 이내) 및 장기(3개 학기 이내)로 나누어 분석해 본 결과, 장기 예측 시 가장 높은 예측력을 보였다. 본 연구를 통해 각 대학은 중도 탈락이 예상되는 학생들을 조기에 식별하고, 이들에 대한 집중 관리를 통해 중도 탈락 비율을 줄이며 나아가 대학 재정 안정화에 기여할 수 있을 것으로 기대된다.

머신러닝 알고리즘을 이용한 포유류 종 풍부도 매핑 구축 연구 (Mapping Mammalian Species Richness Using a Machine Learning Algorithm)

  • 김지영;이동근;김은섭;최지영;전윤호
    • 환경영향평가
    • /
    • 제33권2호
    • /
    • pp.53-63
    • /
    • 2024
  • 생물다양성은 환경영향평가 제도의 목표에 중요한 부문으로, 개발대상지 입지 선정, 주변 환경 파악 및 교란으로 인한 생물종 영향 등에서 활용되고 있다. 환경영향평가 분야에서 새로운 기술과 모델을 활용하여 생물다양성을 보다 정확하게 평가하고 예측하는 방안에 대한 연구가 많이 진행되고 있다. 비록 현장, 문헌조사를 통한 데이터를 바탕으로 종 풍부도 지수를 평가하고 있으나, 현장 데이터는 시·공간적으로 미흡하므로 고해상도의 종 풍부도 매핑을 통한 기초자료를 활용함으로서, 모니터링 실효성 문제 해결이 필요하다. 따라서 본 연구에서는 제4차 전국자연환경조사 데이터와 환경변수를 바탕으로 Random forest 모델을 활용하여 종 분포모형을 개발하였다. 해당 모델은 24종의 포유류 종 분포 매핑 결과를 species richness index를 활용하여 100m 해상도의 종 풍부도 매핑 결과를 도출하였다. 연구 결과, 종 분포모형은 평균 0.82의 AUC값으로 우수한 예측 정확도를 보였다. 또한, 전국자연환경조사 데이터와 비교결과, 고 해상도의 종 풍부도 매핑 결과의 종 풍부도 분포는 정규분포의 형태를 가지고 있어 환경영향평가에서의 기초자료로 사용함에 있어 신뢰성이 높다. 본 연구의 분석결과는 추후 도시개발과 사업을 함에 있어 생물다양성 평가, 서식지 보전 등에 새로운 참고자료로 활용될 수 있을 것으로 사료된다.

Google Earth Engine 기반의 한반도 토양수분 모니터링 자동화 기법 연구 (A study on automated soil moisture monitoring methods for the Korean peninsula based on Google Earth Engine)

  • 장원진;정지훈;이용관;김진욱;김성준
    • 한국수자원학회논문집
    • /
    • 제57권9호
    • /
    • pp.615-626
    • /
    • 2024
  • 본 연구에서는 우리나라 전역에 대해 정확하고 시간 및 비용 효율적으로 토양수분 모니터링을 수행하기 위해 클라우드 컴퓨팅 플랫폼 Google Earth Engine (GEE)와 자동화기계학습(Automated Machine Learning, AutoML)을 결합한 토양수분 산정모형을 개발하였다. Terra MODIS (Moderate Resolution Imaging Spectroradiometer), 전구 강수 관측 위성 GPM (Global Precipitation Measurement)을 기반으로 다양한 공간정보를 활용해 최적의 입력 자료 조합을 테스트하였다. 그 결과, GPM 기반의 무강우누적일수 및 5일 평균강수량, NDVI (Normalized Difference Vegetation Index)와 밤 및 낮시간에 촬영된 LST (Land Surface Temperature)의 합계, 토양특성(사토 및 점토 함량, 용적밀도), 지형자료(고도 및 경사도), 계절 구분이 변수중요도(Feature importance)가 높은 것으로 나타났다. 상기 자료의 조합을 AutoML 통해 목적함수 (Determination of coefficient, R2 ; Root Mean Square Error, RMSE; Mean Absolute Percent Error, MAPE)를 설정 후 기계학습 기법별 비교평가를 수행한 결과, Tree 계열의 모형이 높은 성능을 보였으며, 그 중, Random Forest의 성능이 가장 우수하였다(R2 : 0.72, RMSE: 2.70 vol%, MAPE: 0.14).

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

기계학습을 활용한 주식 가격의 이동 방향 예측 (Prediction of the direction of stock prices by machine learning techniques)

  • 김용환;송성주
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.745-760
    • /
    • 2021
  • 금융시장에서 주식 가격 자체 또는 가격의 방향성에 대한 예측은 오래 전부터 관심의 대상이 되어 왔기에 여러 방면에서 다양한 연구가 이어져 왔다. 특히 1960년대에 들어서며 많은 연구가 진행되었고 예측가능성에 대해 찬반의 의견들이 있었는데, 1970년대에 나타난 효율적 시장 가설이 지지를 받으면서 주식 가격의 예측은 불가능하다는 의견이 주를 이루었다. 그러나 최근 기계학습 등 예측기술의 발달로 인해 주식 시장에서 미래를 예측해 보려는 새로운 시도가 이어져, 주식시장의 효율성을 부정하고 높은 예측력을 주장하는 연구들이 등장하고 있다. 이 논문에서는 과거 연구들을 평가방법 별로 정리하고, 새로운 주장의 신빙성을 확인하기 위해 이차판별분석, support vector machine, random forest, extreme gradient boost, 심층신경망 등 다양한 기계학습 모형을 적용하여 한국유가증권시장에 상장된 종목 중 삼성전자, LG화학, Naver 주식 가격의 방향성을 예측해보았다. 이때, 널리 사용되는 기술적 지표 변수들과 더불어 price earning ratio, price book-value ratio 등 회계지표를 활용한 변수와, 은닉마르코프모형의 출력값 변수를 사용하였다. 분석결과, 이번 연구의 조건 하에서는 통계적으로 유의미한 예측력을 제시하는 모형이 존재하지 않았고, 현 시점에서 단기 주가 방향성의 예측은 어렵다고 판단되었다. 비교적 단순한 이차판별분석 모형과 회계지표를 활용한 변수를 추가한 모형이 상대적으로 높은 예측력을 보였다는 점에서, 복잡한 모형을 시도하기 보다는 주식 가격에 대한 투자자들의 의견 및 심리가 반영될 수 있는 다양한 변수를 개발하여 활용한다면 향후 유의미한 예측이 가능할 수도 있을 것이다.

기계학습을 이용한 기업가적 혁신성 예측 모델에 관한 연구 (Machine Learning for Predicting Entrepreneurial Innovativeness)

  • 정두희;윤진섭;양성민
    • 벤처창업연구
    • /
    • 제16권3호
    • /
    • pp.73-86
    • /
    • 2021
  • 이 연구의 목적은 기업가적 혁신성을 정확하게 예측하는 고도화된 분석 모델을 탐색하는 것이다. 기업가정신 연구 분야에서는 최초로, 데이터 과학적 접근방식에 해당되는 기계학습(Machine learning)을 이용해 기업가적 혁신성(entrepreneurial innovativeness)을 예측하는 모델을 제시한다. 예측모델을 구축하기 위하여 Global Entrepreneurship Monitor(GEM)의 62개국 22,099건 데이터를 이용한다. 27개 설명변수로 이뤄진 데이터 셋을 토대로 전통적 통계방법인 다중회귀분석과, 회귀트리, 랜덤포레스트, XG부스트, 인공신경망 등 기계학습을 이용한 예측모델을 구축하고 각 모델의 성능을 비교한다. 모델의 성능 평가를 위해 RMSE(Root mean square error), MAE(Mean absolute error)와 상관관계(Correlation) 등 지표를 사용한다. 분석 결과 5가지 기계학습 기반 모델은 모두 전통적 방법에 비해 우수한 성능을 보였으며, 예측 성능이 가장 좋은 모델은 XG부스트였다. XG부스트를 통한 기업가적 혁신성 예측에 있어서 기여도가 높은 변수는 창업가의 기회인지 및 시장 확장의 교차항 변수이며, 이는 신시장에서 기회를 획득하고자 하는 유형의 창업기업이 높은 혁신성을 보인다는 점을 확인했다. 이 연구는 고도화된 분석방법인 기계학습을 이용해 새로운 예측모델을 제시, 기업가정신 연구의 시야를 확장했다는 점에서 의의를 지닌다.

이분형 자료의 분류문제에서 불균형을 다루기 위한 표본재추출 방법 비교 (Comparison of resampling methods for dealing with imbalanced data in binary classification problem)

  • 박근우;정인경
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.349-374
    • /
    • 2019
  • 이분형 자료의 분류에서 자료의 불균형 정도가 심한 경우 분류 결과가 좋지 않을 수 있다. 이런 문제 해결을 위해 학습 자료를 변형시키는 등의 연구가 활발히 진행되고 있다. 본 연구에서는 이러한 이분형 자료의 분류문제에서 불균형을 다루기 위한 방법들 중 표본재추출 방법들을 비교하였다. 이를 통해 자료에서 희소계급의 탐지를 보다 효과적으로 하는 방법을 찾고자 하였다. 모의실험을 통하여 여러 오버샘플링, 언더샘플링, 오버샘플링과 언더샘플링 혼합방법의 총 20가지를 비교하였다. 분류문제에서 대표적으로 쓰이는 로지스틱 회귀분석, support vector machine, 랜덤포레스트 모형을 분류기로 사용하였다. 모의실험 결과, 정확도가 0.5 이상이면서 민감도가 높았던 표본재추출 방법은 random under sampling (RUS)였다. 그 다음으로 민감도가 높았던 방법은 오버샘플링 ADASYN (adaptive synthetic sampling approach)이었다. 이를 통해 RUS 방법이 희소계급값을 찾기 위한 방안으로는 적합했다는 것을 알 수 있었다. 몇 가지 실제 자료에 적용한 결과도 모의실험의 결과와 비슷한 양상을 보였다.

기계학습법을 이용한 동해 남서부해역의 표층 이산화탄소분압(fCO2) 추정 (Estimation of Surface fCO2 in the Southwest East Sea using Machine Learning Techniques)

  • 함도식;박소예나;최상화;강동진;노태근;이동섭
    • 한국해양학회지:바다
    • /
    • 제24권3호
    • /
    • pp.375-388
    • /
    • 2019
  • 지구의 탄소순환을 이해하고 미래 대기 $CO_2$의 농도와 기후 변화를 예측하기 위해서는 해양과 대기 사이 $CO_2$ 교환율(sea-to-air $CO_2$ flux)의 시공간 변화를 정확하게 추정하는 것이 필요하다. 연구선을 이용한 현장 관측이 갖고 있는 시공간 제약으로 인해 동해에는 매우 제한적인 표층 이산화탄소분압($fCO_2$) 자료만 존재한다. 이 연구에서는 위성 및 수치모형에서 얻은 수온, 염분, 엽록소, 혼합층 자료를 세 종류의 기계학습 모형에 입력하여 동해 남서부해역의 고해상도 표층 $fCO_2$ 시계열 자료를 산출하였다. 세 모형 중 현장 관측 자료를 가장 잘 재현하는 Random Forest (RF) 모형의 평균제곱근오차는 $7.1{\mu}atm$이었다. RF 모형을 이용한 $fCO_2$ 예측에 중요한 역할을 하는 변수는 수온, 염분과 시간 정보였으며, 엽록소와 혼합층 깊이는 $fCO_2$ 예측에 미미한 역할을 하였다. RF 모형에서 예측한 표층 $fCO_2$를 이용하여 계산한 동해 남서부해역의 $CO_2$ 교환율은 $-0.76{\pm}1.15mol\;m^{-2}yr^{-1}$로 이전 현장 관측 연구에서 제시한 교환율( $-0.66{\sim}-2.47mol\;m^{-2}yr^{-1}$) 범위 중 작은 값에 해당한다. RF 모형의 표층 $fCO_2$ 시계열 자료는 1주일 내외의 짧은 시간 사이에도 $CO_2$ 교환율이 상당히 변할 수 있음을 보여주었다. 앞으로 보다 정확한 $CO_2$ 교환율 산출을 위해서는 $fCO_2$가 급격하게 변화하는 봄철에 높은 해상도의 현장 관측을 수행할 필요가 있다.

위성영상과 머신러닝 활용 도시열섬 지역 옥상녹화 효과 예측과 이산화탄소 흡수량 평가 (Predicting the Effects of Rooftop Greening and Evaluating CO2 Sequestration in Urban Heat Island Areas Using Satellite Imagery and Machine Learning)

  • 김민주;박정우;박주현;박지수;현창욱
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.481-493
    • /
    • 2023
  • 고밀도 도심지의 열섬현상이 도시 기온을 더 높이고 있으며 이로부터 대기오염 악화, 냉방 에너지 소비 증가 및 온실가스 배출 증대와 같은 부정적 영향들이 발생한다. 녹지의 추가 확보가 어려운 도시 환경에서 옥상녹화는 효율적인 온실가스 감축 전략이다. 본 연구에서는 열섬현상 현황 분석에서 더 나아가 고해상도 위성자료 및 공간정보를 활용하여 연구 지역 내 옥상녹화 가용면적 산정 후 옥상녹화가 가져오는 온도 분포 예측을 통한 열섬현상 완화도 및 이산화탄소 흡수량 평가를 수행하였다. 이를 위해 WorldView-2 위성자료를 활용하여 부산시 도시열섬 지역의 기존 토지피복을 분류하고 머신러닝 기법을 적용하여 옥상녹화 전 후 온도 분포 예측 모델을 개발하였다. 옥상녹화 면적 변화에 따른 열섬현상 완화도를 평가하기 위해 랜덤포레스트 기법을 통해 온도가 종속변수인 온도 분포 예측모델을 구축하였고, 이 과정에서 랜덤포레스트 모델의 훈련자료로 사용될 고해상도 지표 온도 도출을 위해 Google Earth Engine을 활용하여 Landsat-8과 Sentinel-2 위성자료를 융합하는 다중회귀모델을 적용하였다. 또한, 옥상녹화용 초본식생별 이산화탄소 흡수량을 기반으로 녹화 면적에 따른 이산화탄소 흡수량을 평가하였다. 연구 결과를 통해 개발된 위성자료 활용 도시 열섬현상 평가 및 랜덤포레스트 모델 기반 온도 분포 예측 기술은 도시열섬 취약 지역에 확대 적용이 가능할 것으로 기대된다.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.