• 제목/요약/키워드: Random Forest Regression

검색결과 271건 처리시간 0.026초

돌발홍수 예보를 위한 빅데이터 분석방법 (The big data method for flash flood warning)

  • 박다인;윤상후
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.245-250
    • /
    • 2017
  • 돌발홍수는 강우유출수가 하천으로 모여드는 유역이 좁은 지역에 집중호우로 인해 유입되는 물의 양이 급증하여 나타난다. 돌발홍수는 유속이 빠르고 홍수를 대비할 수 있는 시간이 부족하므로 인명과 재산상의 피해를 발생시킨다. 본 연구에서는 돌발홍수를 예보를 위한 빅데이터 분석방법을 수행하였다. 연구 자료는 2009년에서 2012년까지 국민안전처 국가재난정보센터에 보고된 38건의 홍수 피해 자료와 지표수문모형(TOPLATS)에 의해 생성된 수문기상정보인 강우량, 토양수분 상태, 지표유출량이다. 돌발홍수 발생 선행 6시간의 강우량, 토양수분 상태, 지표유출량 데이터를 요인분석을 통해 토양수분 상태, 장기요인에 의한 강우량과 지표유출량, 단기요인에 의한 강우량과 지표유출량으로 축소하였다. 빅데이터 분석 방법으로는 유형분석인 의사결정나무, 랜덤포레스트, 나이브베이즈, 서포트벡터머신, 로지스틱 회귀모형을 사용하였다. 돌발홍수 사고발생 자료가 38건으로 한정되어 있기 때문에 예측성능 정확도 판단이 중요하다. 예측성능 정확도 평가방법으로 kappa계수, TP Rate, FP Rate, F-Measure를 이용하였다. 이 외에 돌발홍수 발생 선행 시점별 재현성 평가와 과거 4년간 돌발홍수 경보 횟수를 통해 최적 유형분석 방법을 제시하였다. 연구결과 로지스틱회귀모형과 랜덤포레스트가 돌발홍수 예보를 위한 예측 성능이 가장 좋았다. 사고발생 자료가 2009년부터 2012년까지 38건으로 한정되어 있어 분석을 위한 훈련자료와 검증자료 구축에 한계가 있었다. 장기간의 자료가 수집된다면 더욱 정확한 빅데이터 분석을 수행할 수 있다.

심박변이도를 이용한 적응적 뉴로 퍼지 감정예측 모형에 관한 연구 (Implementing an Adaptive Neuro-Fuzzy Model for Emotion Prediction Based on Heart Rate Variability(HRV))

  • 박성수;이건창
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.239-247
    • /
    • 2019
  • 감정을 정확히 예측하는 것은 환자중심의 의료디바이스 개발 및 감성관련 산업에서 매우 중요한 이슈이다. 감정예측에 관한 많은 연구 중 감정 예측에 심박 변동성과 뉴로-퍼지 접근법을 적용한 연구는 없다. 본 연구는 HRV를 이용한 ANFEP(Adaptive Neuro Fuzzy system for Emotion Prediction)을 제안한다. ANFEP의 핵심 기능은 인공 신경망과 퍼지시스템을 통합해 예측 모델을 학습하는 ANFIS(Adaptive Neuro-Fuzzy Inference System)에 기반한다. 제안 모형의 검증을 위해 50명의 실험자를 대상으로 청각자극으로 감정을 유발하고, 심박변이도를 구하여 ANFEP 모형에 입력하였다. STDRR과 RMSSD를 입력으로 하고 입력변수 당 2개의 소속함수로 하는 ANFEP모형이 가장 좋은 결과를 나타났다. 제안한 감정예측 모형을 선형회귀 분석, 서포트 벡터 회귀, 인공신경망, 랜덤 포레스트와 비교한 결과 본 제안모형이 가장 우수한 성능을 보였다. 연구 결과는 보다 적은 입력으로 신뢰성 높은 감정인식이 가능함을 입증했고, 이를 활용해 보다 정확하고 신뢰성 높은 감정인식 시스템 개발에 대한 연구가 필요하다.

기계학습을 이용한 기업가적 혁신성 예측 모델에 관한 연구 (Machine Learning for Predicting Entrepreneurial Innovativeness)

  • 정두희;윤진섭;양성민
    • 벤처창업연구
    • /
    • 제16권3호
    • /
    • pp.73-86
    • /
    • 2021
  • 이 연구의 목적은 기업가적 혁신성을 정확하게 예측하는 고도화된 분석 모델을 탐색하는 것이다. 기업가정신 연구 분야에서는 최초로, 데이터 과학적 접근방식에 해당되는 기계학습(Machine learning)을 이용해 기업가적 혁신성(entrepreneurial innovativeness)을 예측하는 모델을 제시한다. 예측모델을 구축하기 위하여 Global Entrepreneurship Monitor(GEM)의 62개국 22,099건 데이터를 이용한다. 27개 설명변수로 이뤄진 데이터 셋을 토대로 전통적 통계방법인 다중회귀분석과, 회귀트리, 랜덤포레스트, XG부스트, 인공신경망 등 기계학습을 이용한 예측모델을 구축하고 각 모델의 성능을 비교한다. 모델의 성능 평가를 위해 RMSE(Root mean square error), MAE(Mean absolute error)와 상관관계(Correlation) 등 지표를 사용한다. 분석 결과 5가지 기계학습 기반 모델은 모두 전통적 방법에 비해 우수한 성능을 보였으며, 예측 성능이 가장 좋은 모델은 XG부스트였다. XG부스트를 통한 기업가적 혁신성 예측에 있어서 기여도가 높은 변수는 창업가의 기회인지 및 시장 확장의 교차항 변수이며, 이는 신시장에서 기회를 획득하고자 하는 유형의 창업기업이 높은 혁신성을 보인다는 점을 확인했다. 이 연구는 고도화된 분석방법인 기계학습을 이용해 새로운 예측모델을 제시, 기업가정신 연구의 시야를 확장했다는 점에서 의의를 지닌다.

EEG Feature Engineering for Machine Learning-Based CPAP Titration Optimization in Obstructive Sleep Apnea

  • Juhyeong Kang;Yeojin Kim;Jiseon Yang;Seungwon Chung;Sungeun Hwang;Uran Oh;Hyang Woon Lee
    • International journal of advanced smart convergence
    • /
    • 제12권3호
    • /
    • pp.89-103
    • /
    • 2023
  • Obstructive sleep apnea (OSA) is one of the most prevalent sleep disorders that can lead to serious consequences, including hypertension and/or cardiovascular diseases, if not treated promptly. Continuous positive airway pressure (CPAP) is widely recognized as the most effective treatment for OSA, which needs the proper titration of airway pressure to achieve the most effective treatment results. However, the process of CPAP titration can be time-consuming and cumbersome. There is a growing importance in predicting personalized CPAP pressure before CPAP treatment. The primary objective of this study was to optimize the CPAP titration process for obstructive sleep apnea patients through EEG feature engineering with machine learning techniques. We aimed to identify and utilize the most critical EEG features to forecast key OSA predictive indicators, ultimately facilitating more precise and personalized CPAP treatment strategies. Here, we analyzed 126 OSA patients' PSG datasets before and after the CPAP treatment. We extracted 29 EEG features to predict the features that have high importance on the OSA prediction index which are AHI and SpO2 by applying the Shapley Additive exPlanation (SHAP) method. Through extracted EEG features, we confirmed the six EEG features that had high importance in predicting AHI and SpO2 using XGBoost, Support Vector Machine regression, and Random Forest Regression. By utilizing the predictive capabilities of EEG-derived features for AHI and SpO2, we can better understand and evaluate the condition of patients undergoing CPAP treatment. The ability to predict these key indicators accurately provides more immediate insight into the patient's sleep quality and potential disturbances. This not only ensures the efficiency of the diagnostic process but also provides more tailored and effective treatment approach. Consequently, the integration of EEG analysis into the sleep study protocol has the potential to revolutionize sleep diagnostics, offering a time-saving, and ultimately more effective evaluation for patients with sleep-related disorders.

기계학습을 활용한 계란가격 예측 모델링 (Modeling for Egg Price Prediction by Using Machine Learning)

  • 조호현;이대겸;채영훈;장동일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.15-17
    • /
    • 2022
  • 2020년 하반기부터 2021년 초까지 발생한 조류인플루엔자의 여파로 1,780만수의 산란계가 살처분되면서 계란 공급 부족으로 계란 1판에 1만원을 넘는 사태가 벌어지기도 했다. 이에 정부는 물가 안정 대책으로 1,000억원 이상의 국고를 계란 수입에 투입하였지만, 계란 가격의 안정화는 쉽지 않았다. 계란 가격의 급격한 변동성은 소비자와 양계농가 모두에게 부정적인 영향을 미치므로 계란 가격의 안정화 방안을 위한 대책이 필요하다. 이를 위해 본 연구에서는 머신러닝 회귀분석 알고리즘을 활용하여 계란 가격을 예측하였으며, 가격 예측을 위해서 대한양계협회 2012~2021년도의 월간 산란계 생산통계와 국가통계포털(KOSIS)의 도축실적 등 총 8개의 독립변수를 선택하였다. 실제 가격과 모델에 의한 예측 가격의 차이를 나타내는 평균 제곱근 오차(RMSE)는 약 103원이며, 이는 개발된 모델이 계란 가격을 비교적 잘 예측한 결과라고 판단된다. 정확한 계란 가격 예측은 산란계 계란 생산주령의 유연한 조정과 산란계 입식에 대한 의사결정을 도울 수 있고, 계란 가격 안정성 확보에 도움을 줄 것으로 보인다.

  • PDF

머신러닝 기법을 이용한 납축전지 열화 예측 모델 개발 (Building battery deterioration prediction model using real field data)

  • 최근호;김건우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.243-264
    • /
    • 2018
  • 현재 전세계 배터리 시장은 이차전지 개발에 박차를 가하고 있는 실정이지만, 실제로 소비되는 배터리 중 가격 대비 성능이 좋고 재충전을 통해 다시 재사용이 가능한 납축전지(이차전지)의 소비가 광범위하게 이루어지고 있다. 하지만 납축전지는 복합적 셀(cell)을 묶어 하나의 배터리를 구성하여 활용하는 배터리의 특성상 하나의 셀에서 열화가 발생하면 전체 배터리의 손상을 가져와 열화가 빨리 진행되는 문제가 존재한다. 이를 극복하기 위해 본 연구는 기계학습을 통한 배터리 상태 데이터를 학습하여 배터리 열화를 예측할 수 있는 모델을 개발하고자 한다. 이를 위해 실제 현장에서 배터리 상태를 지속적으로 모니터링 할 수 있는 센서를 골프장 카트에 부착하여 실시간으로 배터리 상태 데이터를 수집하고, 수집한 데이터를 이용하여 기계학습 기법을 적용한 분석을 통해 열화 전조 현상에 대한 예측 모델을 개발하였다. 총 16,883개의 샘플을 분석 데이터로 사용하였으며, 예측 모델을 만들기 위한 알고리즘으로 의사결정나무, 로지스틱, 베이지언, 배깅, 부스팅, RandomForest를 사용하였다. 실험 결과, 의사결정나무를 기본 알고리즘으로 사용한 배깅 모델이 89.3923%이 가장 높은 적중률을 보이는 것으로 나타났다. 본 연구는 날씨와 운전습관 등 배터리 열화에 영향을 줄 수 있는 추가적인 변수들을 고려하지 못했다는 한계점이 있으나, 이는 향후 연구에서 다루고자 한다. 본 연구에서 제안하는 배터리 열화 예측 모델은 배터리 열화의 전조현상을 사전에 예측함으로써 배터리 관리를 효율적으로 수행하고 이에 따른 비용을 획기적으로 줄일 수 있을 것으로 기대한다.

인공지능을 활용한 경관 지각반응 예측모델 개발 가능성 기초연구 - 머신러닝 기법을 중심으로 - (Basic Research on the Possibility of Developing a Landscape Perceptual Response Prediction Model Using Artificial Intelligence - Focusing on Machine Learning Techniques -)

  • 김진표;서주환
    • 한국조경학회지
    • /
    • 제51권3호
    • /
    • pp.70-82
    • /
    • 2023
  • 최근 IT 기술과 데이터의 범람으로 생활 전반적인 부분의 패러다임이 전환되고 있다. 이러한 기술의 발전과 변화는 학술영역에도 영향을 미치고 있다. 학문적 교류와 연계를 통해 연구주제나 연구 방법의 개선이 이루어지고 있다. 특히, 데이터 기반의 연구 방법이 다양한 학문분야에서 진행되고 있으며 조경학에서도 지속적인 연구가 필요한 시점이다. 따라서 본 연구에서는 이러한 시대적 상황을 반영하여 인공지능의 한 분야인 머신러닝을 활용한 경관 선호 평가 및 예측모델의 개발 가능성을 알아보는 것을 목표로 한다. 본 연구의 목표를 달성하기 위하여 경관 분야에 머신러닝 기법을 적용하여 경관 선호 평가 및 예측 모델을 구축하고, 구축된 모형의 모의정도를 검증하였다. 이를 위해 본 연구에서는 최근 신재생에너지 사업으로 주목받는 풍력발전시설 경관 이미지를 연구대상으로 선정하였다. 분석을 위하여 풍력발전시설 경관 이미지를 웹크롤링 기법을 활용하여 수집하고 분석 테이터셋을 구축하였다. 우수한 성능의 예측모델 도출을 위하여 머신러닝 분석에 활용되는 University of Ljubljana의 프로그램인 오렌지 버전 3.33을 활용하였다. 또, 머신러닝 학습데이터의 평가기준을 통합한 모델과 평가기준 별도 모델 구조를 활용하였으며, 머신러닝 분류모델에 적합한 kNN. SVM, Random Forest, Logistic Regression, Neural Network 알고리즘을 사용해 모델을 생성하였다. 생성된 모델을 성능 평가를 실시하여 본 연구에 가장 적합한 예측모델을 도출하였다. 본 연구에서 도출된 예측모델은 경관의 유형에 따른 분류, 경관과 대상의 시거리에 따른 분류, 선호에 따른 분류 등 3가지 평가기준을 별도로 평가 후 종합해 예측하여 결과를 도출하였다. 연구 결과 경관 유형에 따른 평가 기준 정확도 0.986, 시거리에 따른 평가 기준 정확도 0.973, 선호에 따른 평가 기준 정확도 0.952에 달하는 높은 정확도를 가진 예측모델을 개발하였으며, 평가데이터 예측 결과를 통한 검증과정을 보아도 모델의 성능 치를 상회하는 성과를 도출했음을 알 수 있다. 경관 관련 연구에서 머신러닝을 활용한 예측모델 개발 가능성을 알아본 실험적 시도로 이미지 데이터의 수집 및 정제를 통해 데이터 세트를 구축하여 높은 성능의 예측모델이 생성 가능하며, 이후 경관 관련 연구 분야에 활용될 수 있다는 가능성을 확인할 수 있었다. 본 연구의 결과와 시사점, 한계점을 반영한다면 풍력발전시설의 경관뿐만 아니라 자연경관이나 문화경관 등 다양한 형태의 경관 예측모델 개발이 가능할 것으로 생각되며, 경관 유형에 따라 이미지를 분류하는 모델의 연구를 통해 데이터 분류의 시간을 단축하거나 머신러닝을 활용한 경관예측 인자분석을 통해 경관계획 요소의 중요도 분석 등의 주제에 맞는 연구 방법을 탐색하고 적용하여 후속 연구를 진행한다면 조경학 분야에서도 머신러닝 기법을 보다 유용하고 가치 있게 활용할 수 있을 것으로 생각된다.

심박변이도를 이용한 인공신경망 기반 감정예측 모형에 관한 융복합 연구 (Convergence Implementing Emotion Prediction Neural Network Based on Heart Rate Variability (HRV))

  • 박성수;이건창
    • 한국융합학회논문지
    • /
    • 제9권5호
    • /
    • pp.33-41
    • /
    • 2018
  • 본 연구는 심박변이도(HRV)와 인공신경망을 이용하여 강건하고 정확한 융복합 감정예측 모형인 EPNN (Emotion Prediction Neural Network)을 개발하는 것을 주요 연구목적으로 한다. 본 연구에서 제안하는 EPNN은 기존 유사연구와는 달리 은닉노드의 활성함수로서 하이퍼볼릭 탄젠트, 선형, 가우시안 함수를 융복합적으로 이용하여 모형의 정확도를 향상시킨다. 본 연구에서는 EPNN의 타당성을 검증하기 위하여 20명의 실험자를 대상으로 머니게임으로 감정을 유도한 후에 해당 실험자의 심박변이도 측정값을 입력자료로 사용하였다. 아울러 그들의 Valence와 Arousal을 EPNN의 출력값으로 사용하였다. 실험결과 Valence에 대한 F-Measure는 80%이고, Arousal의 경우 95%로 나타났다. 한편 EPNN의 타당성을 측정하기 위하여 기존 감정예측 연구에 사용된 경쟁모형인 인공신경망, 로지스틱 회귀분석, 서포트 벡터 머신, 랜덤 포레스트 모형과 성과를 비교하였다. 그 결과 본 연구에서 제안하는 EPNN이 더 우수한 감정예측 결과를 보였다. 본 연구의 결과는 향후 유비쿼터스 디지털 헬스 환경에서 사용되는 다양한 웨어러블 기기에 적용되어 사용자들의 일상생활 속에서 시시각각 변하는 감정을 정확히 예측하고 적절하게 관리하는데 적용될 수 있을 것이다.

IoT 및 딥 러닝 기반 스마트 팜 환경 최적화 및 수확량 예측 플랫폼 (A Smart Farm Environment Optimization and Yield Prediction Platform based on IoT and Deep Learning)

  • 최호길;안희학;정이나;이병관
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.672-680
    • /
    • 2019
  • 본 논문은 농장의 바이오 센서 데이터를 수집해서 농장에서 재배중인 농작물의 질병을 진단하고, 그 해 수확량을 예측하는 IoT 및 딥 러닝 기반 스마트 팜 환경 최적화 및 수확량 예측 플랫폼을 제안한다. 이 플랫폼은 현재 날씨, 토양 미생물 등 수집 가능한 모든 정보를 수집하여 작물이 잘 성장할 수 있도록 농장 환경을 최적화하고, 농장에서 재배중인 작물의 잎을 이용하여 작물의 질병을 진단하고, 그리고, 농장의 모든 정보를 사용하여 올해 수확량을 예측한다. 실험 결과 AEOM(Agricultural Environment Optimization Module)의 평균 정확도는 RF(Random Forest)보다 약 15%, GBD(Gradient Boosting Tree)보다 약 8% 높고, 데이터가 증가해도 RF나 GBD에 비해 정확도가 덜 감소한다. 선형 회귀에 따르면 정확도의 기울기는 ReLU의 경우 -3.641E-4, Sigmoid의 경우 -4.0710E-4, 계단함수의 경우 -7.4534E-4이다. 따라서 ReLU 사용시 정확도 기울기가 가장 낮으므로 테스트 데이터의 양이 증가함에 따라 ReLU는 다른 두 가지 활성화 기능보다 더 정확하다. 본 논문에서 제안한 EOYPP는 농장 전체를 관리하는 플랫폼으로 실제 농장에 도입된다면 국내 스마트 팜의 발전에 크게 이바지할 것이다.

낙동강 중하류에서 이산화탄소 순배출 플럭스 산정 및 영향인자 분석 (Estimation of CO2 Net Atmospheric Flux in the Middle and Lower Nakdong River, and Influence Factors Analysis)

  • 이은주;정세웅;박형석;김성진;박대연
    • 한국물환경학회지
    • /
    • 제35권4호
    • /
    • pp.316-331
    • /
    • 2019
  • Carbon dioxide($CO_2$) emission from rivers to the atmosphere is a key component in the global carbon cycle. Most of the rivers are supersaturated with $CO_2$. At a global scale, the amount of $CO_2$ emission from rivers is reported to be five-fold greater than that from lakes and reservoirs, but relevant data are rare in Korea. The objectives of this study is to estimate the $CO_2$ net atmospheric flux(NAF) from the upstream of Gangjeong-Goryeong Weir(GGW), Dalseong Weir(DSW), Hapcheon-Changnyeong Weir(HCW), and Changnyeong-Haman Weir(CHW) located in Nakdong River South Korea) using field and laboratory experiments and to apply data mining techniques to develop parsimonious prediction models that can be used to estimate $CO_2$ NAF with physical and water quality variables that can be collected easily. As a result, the study sites were all heterotrophic systems that often released $CO_2$ to the atmosphere, except when the algal photosynthesis was active.The median $CO_2$ NAF was minimum $391.5mg-CO_2/m^2$ day at GGW and maximum $1472.7mg-CO_2/m^2$ day at DSW. The $CO_2$ NAF showed a negative correlation with pH and Chl-a since the overgrowth of the algae consumed $CO_2$ in the water and increased the pH. As the parsimonious multiple regression model and random forest model developed, this study showed an excellent performance with the $Adj.R^2$ value higher than 0.77 in all weirs. Thus, these methods can be used to estimate $CO_2$ NAF in the river even if there is no $pCO_2$ measurement data.