• 제목/요약/키워드: Model Ensemble

검색결과 638건 처리시간 0.026초

강우앙상블자료 편의보정에 따른 단기강우예측모델의 적용성 분석 (Application Analysis of Short-term Rainfall Forecasting Model according to Bias Correlation in Rainfall Ensemble Data)

  • 이상협;성연정;쉬크샤 바스톨라;추인교;정영훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.119-119
    • /
    • 2019
  • 최근 기후변화와 이상기후의 영향으로 국지성 호우 및 가뭄, 홍수, 태풍 등 재해 발생 규모가 커지고 그 빈도 또한 많아지고 있다. 이러한 자연재해 및 이상현상에 대한 피해를 예방하고 빠르게 대처하기 위해서는 정확한 강우량 추정 및 강우의 시간적 예측이 필요하다. 이러한 강우의 불확실성을 해결하기 위해서 기상청 등에서는 단일 수치예보가 가지는 결정론적인 예측의 한계를 보완한 초기조건, 물리과정, 경계조건 등이 다른 여러 개의 모델을 수행하여, 확률적으로 미래를 예측하는 앙상블 예측 시스템을 예보기술에 응용하고 있으며 기존 수치모델의 정보와 예보 불확실성에 대한 정보를 동시에 제공하고 있다. 그러나 다양한 자연조건에 대한 불완전한 물리적 이해와 연산 능력 등의 한계로 높은 불확실성이 내포되어 있으므로 불확실성을 최소화하기 위한 편의보정이 수행될 필요가 있다. 강우분석의 적용 이전에 해당 자료의 타당성과 신뢰도의 분석이 필요하다. 본 연구에서는 LENS(Local ENsemble prediction System) 예측값과 시강우 관측값을 단기예측모델에 맞추어 3시간 누적하여 비교하였다. 비교 기간은 호우가 집중되는 2016년 10월로 선정하였으며 대상지역은 울산중구로 선정하였다. LENS를 대상 지역의 관측소 지점값과 행정구역 면적값을 따로 추출한 후, 불확실성을 최소화하기 위해 활용되고 있는 CF 기법과 QM 기법을 이용하여 LENS 모델을 재가공하고 이에 따른 편의보정 기법에 따른 LENS 모델을 과거의 실제강우 관측값과의 비교분석을 이용해 적용성을 검토 및 평가하였다.

  • PDF

건물별 화재 위험도 예측 및 분석: 재산 피해액과 화재 발생 여부를 바탕으로 (Risk Prediction and Analysis of Building Fires -Based on Property Damage and Occurrence of Fires-)

  • 이인아;오형록;이준기
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.133-144
    • /
    • 2021
  • 본 논문은 서울시에 존재하는 건물을 대상으로 화재 발생 시 재산 피해액, 화재 발생 여부를 예측하여 건물별 화재 위험도를 도출하였다. 본 연구는 건물의 특성뿐 아니라 해당 건물이 속한 행정동의 특성 및 소방 시설 접근성과 같은 변수를 활용하였다는 점에서 기존 선행연구와의 차이점을 지닌다. 앙상블 보팅(Ensemble Voting) 기법을 활용해 서로 다른 알고리즘을 병합했으며, 이를 통해 재산 피해액과 화재 발생 여부를 예측하고 변수 중요도를 추출하여 화재 위험도를 산출하는 방향으로 연구를 진행하였다. 구축된 모델을 사용하여 서울시에 존재하는 300개 건물을 대상으로 적용한 결과, 화재 위험도 1등급의 경우 건물 내 세대 수가 많으며, 관할 119안전센터가 가장 멀리 위치하는 등 화재 발생 시 그 규모를 키울 수 있는 요인들이 많은 것으로 나타났다. 반면 5등급의 경우, 주변 건물 수나 사업체 수는 많지만, 관할 119안전센터가 가장 가까이 위치해 있어 화재에 적절히 대응할 수 있는 건물들로 나타났다.

악성코드 패밀리 분류를 위한 API 특징 기반 앙상블 모델 학습 (API Feature Based Ensemble Model for Malware Family Classification)

  • 이현종;어성율;황두성
    • 정보보호학회논문지
    • /
    • 제29권3호
    • /
    • pp.531-539
    • /
    • 2019
  • 본 논문에서는 악성코드 패밀리 분류를 위한 훈련 데이터의 특징을 제안하고, 앙상블 모델을 이용한 다중 분류 성능을 분석한다. 악성코드 실행 파일로부터 API와 DLL 데이터를 추출하여 훈련 데이터를 구성하며, 의사 결정 트리기반 Random Forest와 XGBoost 알고리즘으로 모델을 학습한다. 악성코드에서 빈번히 사용되는 API와 DLL 정보를 분석하며, 고차원의 훈련 데이터 특징을 저차원의 특징 표현으로 변환시켜, 악성코드 탐지와 패밀리 분류를 위한 API, API-DLL, DLL-CM 특징을 제안한다. 제안된 특징 선택 방법은 데이터 차원 축소와 빠른 학습의 장점을 제공한다. 성능 비교에서 악성코드 탐지율은 Random Forest가 93.0%, 악성코드 패밀리 분류 정확도는 XGBoost가 92.0%, 그리고 정상코드를 포함하는 테스트 오탐률은 Random Forest와 XGBoost가 3.5%이다.

앙상블 학습기법을 활용한 보행자 교통사고 심각도 분류: 대전시 사례를 중심으로 (Classifying the severity of pedestrian accidents using ensemble machine learning algorithms: A case study of Daejeon City)

  • 강흥식;노명규
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.39-46
    • /
    • 2022
  • 교통사고와 사회·경제적 손실 간의 연계성이 확인됨에 따라 사고 데이터에 기반을 둔 안전 정책 마련 및 중상·사망 등 그 심각도가 높은 교통사고의 절감 방안의 필요성이 제기되고 있다. 본 연구에서는 인구 대비 교통사고 사망자 비율이 높은 대전시를 대상지역으로 설정하고 보행자 교통사고 데이터를 수집한 후, 기계학습을 통해 최적알고리즘과 심각도 분류의 주요 인자를 도출하였다. 연구의 결과에 따르면, 적용한 9개 알고리즘 중 앙상블 기반의 학습 기법인 AdaBoost (Adaptive Boosting)와 RF (Random Forest)가 최적의 성능을 보여주었다. 이를 기반으로 도출된 대전시 보행자 교통사고 심각도의 주요 인자는 보행자의 연령이 70대 및 20대이거나 사고유형이 횡단사고에 의한 경우로 나타남에 따라 대전시 보행자 사고 저감 대책을 위한 고려요인으로 제안하였다.

데이터센터 장애 예방을 위한 인프라 이상징후 분석: RRCF와 Prophet Ensemble 분석 기반 (Infrastructure Anomaly Analysis for Data-center Failure Prevention: Based on RRCF and Prophet Ensemble Analysis)

  • 신현종;김성근;천병환;진경복;양승정
    • 한국빅데이터학회지
    • /
    • 제7권1호
    • /
    • pp.113-124
    • /
    • 2022
  • 데이터센터의 장애 예방을 위해 머신러닝과 빅데이터를 활용한 다양한 방법들이 적용되어 왔다. 그러나 개별 장비 기반의 성능지표를 참조하거나, 인프라 운영환경을 고려하지 않은 접근방법으로 실제 활용되는 데에는 많은 한계가 있었다. 이에 본 연구에서는 개별 인프라 장비들의 성능지표를 통합 모니터링하며, 다양한 장비들의 성능지표를 구간화, 등급화 하여 단일수치화를 진행한다. 인프라 운영에 대한 경험치 기반으로 데이터 전처리를 수행하며, RRCF(Robust Random Cut Forest)분석과 Prophet 분석 모델을 앙상블하여 이상징후 검출에 신뢰도 있는 분석결과를 도출하였다. 데이터센터 내 운영담당자들의 접근을 용이하게 하기 위해 장애분석시스템을 구현하여 데이터센터 장애의 선제 대응과 적정한 튜닝시점을 제시할 수 있다.

Improved prediction of soil liquefaction susceptibility using ensemble learning algorithms

  • Satyam Tiwari;Sarat K. Das;Madhumita Mohanty;Prakhar
    • Geomechanics and Engineering
    • /
    • 제37권5호
    • /
    • pp.475-498
    • /
    • 2024
  • The prediction of the susceptibility of soil to liquefaction using a limited set of parameters, particularly when dealing with highly unbalanced databases is a challenging problem. The current study focuses on different ensemble learning classification algorithms using highly unbalanced databases of results from in-situ tests; standard penetration test (SPT), shear wave velocity (Vs) test, and cone penetration test (CPT). The input parameters for these datasets consist of earthquake intensity parameters, strong ground motion parameters, and in-situ soil testing parameters. liquefaction index serving as the binary output parameter. After a rigorous comparison with existing literature, extreme gradient boosting (XGBoost), bagging, and random forest (RF) emerge as the most efficient models for liquefaction instance classification across different datasets. Notably, for SPT and Vs-based models, XGBoost exhibits superior performance, followed by Light gradient boosting machine (LightGBM) and Bagging, while for CPT-based models, Bagging ranks highest, followed by Gradient boosting and random forest, with CPT-based models demonstrating lower Gmean(error), rendering them preferable for soil liquefaction susceptibility prediction. Key parameters influencing model performance include internal friction angle of soil (ϕ) and percentage of fines less than 75 µ (F75) for SPT and Vs data and normalized average cone tip resistance (qc) and peak horizontal ground acceleration (amax) for CPT data. It was also observed that the addition of Vs measurement to SPT data increased the efficiency of the prediction in comparison to only SPT data. Furthermore, to enhance usability, a graphical user interface (GUI) for seamless classification operations based on provided input parameters was proposed.

근거리 지진관측자료의 S파를 이용한 지진규모 평가 연구 (A Study on Estimating Earthquake Magnitudes Based on the Observed S-Wave Seismograms at the Near-Source Region)

  • 연관희;최신규;이강렬
    • 한국지진공학회논문집
    • /
    • 제28권3호
    • /
    • pp.121-128
    • /
    • 2024
  • There are growing concerns that the recently implemented Earthquake Early Warning service is overestimating the rapidly provided earthquake magnitudes (M). As a result, the predicted damages unnecessarily activate earthquake protection systems for critical facilities and lifeline infrastructures that are far away. This study is conducted to improve the estimation accuracy of M by incorporating the observed S-wave seismograms in the near source region after removing the site effects of the seismograms in real time by filtering in the time domain. The ensemble of horizontal S-wave spectra from at least five seismograms without site effects is calculated and normalized to a hypocentric target distance (21.54 km) by using the distance attenuation model of Q(f)=348f0.52 and a cross-over distance of 50 km. The natural logarithmic mean of the S-wave ensemble spectra is then fitted to Brune's source spectrum to obtain the best estimates for M and stress drop (SD) with the fitting weight of 1/standard deviation. The proposed methodology was tested on the 18 recent inland earthquakes in South Korea, and the condition of at least five records for the near-source region is sufficiently fulfilled at an epicentral distance of 30 km. The natural logarithmic standard deviation of the observed S-wave spectra of the ensemble was calculated to be 0.53 using records near the source for 1~10 Hz, compared to 0.42 using whole records. The result shows that the root-mean-square error of M and ln(SD) is approximately 0.17 and 0.6, respectively. This accuracy can provide a confidence interval of 0.4~2.3 of Peak Ground Acceleration values in the distant range.

유전 알고리즘을 이용한 국소가중회귀의 다중모델 결합을 위한 점진적 앙상블 학습 (Incremental Ensemble Learning for The Combination of Multiple Models of Locally Weighted Regression Using Genetic Algorithm)

  • 김상훈;정병희;이건호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권9호
    • /
    • pp.351-360
    • /
    • 2018
  • 전통적으로 나태한 학습에 해당하는 국소가중회귀(LWR: Locally Weighted Regression)모델은 입력변수인 질의지점에 따라 예측의 해를 얻기 위해 일정구간 범위내의 학습 데이터를 대상으로 질의지점의 거리에 따라 가중값을 달리 부여하여 학습 한 결과로 얻은 짧은 구간내의 회귀식이다. 본 연구는 메모리 기반학습의 형태에 해당하는 LWR을 위한 점진적 앙상블 학습과정을 제안한다. LWR를 위한 본 연구의 점진적 앙상블 학습법은 유전알고리즘을 이용하여 시간에 따라 LWR모델들을 순차적으로 생성하고 통합하는 것이다. 기존의 LWR 한계는 인디케이터 함수와 학습 데이터의 선택에 따라 다중의 LWR모델이 생성될 수 있으며 이 모델에 따라 예측 해의 질도 달라질 수 있다. 하지만 다중의 LWR 모델의 선택이나 결합의 문제 해결을 위한 연구가 수행되지 않았다. 본 연구에서는 인디케이터 함수와 학습 데이터에 따라 초기 LWR 모델을 생성한 후 진화 학습 과정을 반복하여 적절한 인디케이터 함수를 선택하며 또한 다른 학습 데이터에 적용한 LWR 모델의 평가와 개선을 통하여 학습 데이터로 인한 편향을 극복하고자 한다. 모든 구간에 대해 데이터가 발생 되면 점진적으로 LWR모델을 생성하여 보관하는 열심학습(Eager learning)방식을 취하고 있다. 특정 시점에 예측의 해를 얻기 위해 일정구간 내에 신규로 발생된 데이터들을 기반으로 LWR모델을 생성한 후 유전자 알고리즘을 이용하여 구간 내의 기존 LWR모델들과 결합하는 방식이다. 제안하는 학습방법은 기존 단순평균법을 이용한 다중 LWR모델들의 선택방법 보다 적합도 평가에서 우수한 결과를 보여주고 있다. 특정지역의 시간 별 교통량, 고속도로 휴게소의 시간별 매출액 등의 실제 데이터를 적용하여 본 연구의 LWR에 의한 결과들의 연결된 패턴과 다중회귀분석을 이용한 예측결과를 비교하고 있다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.

회귀 모델을 활용한 철강 기업의 에너지 소비 예측 (Forecasting Energy Consumption of Steel Industry Using Regression Model)

  • Sung-Ho KANG;Hyun-Ki KIM
    • Journal of Korea Artificial Intelligence Association
    • /
    • 제1권2호
    • /
    • pp.21-25
    • /
    • 2023
  • The purpose of this study was to compare the performance using multiple regression models to predict the energy consumption of steel industry. Specific independent variables were selected in consideration of correlation among various attributes such as CO2 concentration, NSM, Week Status, Day of week, and Load Type, and preprocessing was performed to solve the multicollinearity problem. In data preprocessing, we evaluated linear and nonlinear relationships between each attribute through correlation analysis. In particular, we decided to select variables with high correlation and include appropriate variables in the final model to prevent multicollinearity problems. Among the many regression models learned, Boosted Decision Tree Regression showed the best predictive performance. Ensemble learning in this model was able to effectively learn complex patterns while preventing overfitting by combining multiple decision trees. Consequently, these predictive models are expected to provide important information for improving energy efficiency and management decision-making at steel industry. In the future, we plan to improve the performance of the model by collecting more data and extending variables, and the application of the model considering interactions with external factors will also be considered.