• 제목/요약/키워드: Stacking Ensemble Model

검색결과 32건 처리시간 0.02초

다중 스태킹을 가진 새로운 앙상블 학습 기법 (A New Ensemble Machine Learning Technique with Multiple Stacking)

  • 이수은;김한준
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.1-13
    • /
    • 2020
  • 기계학습(machine learning)이란 주어진 데이터에 대한 일반화 과정으로부터 특정 문제를 해결할 수 있는 모델(model) 생성 기술을 의미한다. 우수한 성능의 모델을 생성하기 위해서는 양질의 학습데이터와 일반화 과정을 위한 학습 알고리즘이 준비되어야 한다. 성능 개선을 위한 한 가지 방법으로서 앙상블(Ensemble) 기법은 단일 모델(single model)을 생성하기보다 다중 모델을 생성하며, 이는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 학습 기법을 포함한다. 본 논문은 기존 스태킹 기법을 개선한 다중 스태킹 앙상블(Multiple Stacking Ensemble) 학습 기법을 제안한다. 다중 스태킹 앙상블 기법의 학습 구조는 딥러닝 구조와 유사하고 각 레이어가 스태킹 모델의 조합으로 구성되며 계층의 수를 증가시켜 각 계층의 오분류율을 최소화하여 성능을 개선한다. 4가지 유형의 데이터셋을 이용한 실험을 통해 제안 기법이 기존 기법에 비해 분류 성능이 우수함을 보인다.

시각적 특징과 물리적 특징에 기반한 스태킹 앙상블 모델을 이용한 과일의 자동 선별 (Automatic Fruit Grading Using Stacking Ensemble Model Based on Visual and Physical Features)

  • 김민기
    • 한국멀티미디어학회논문지
    • /
    • 제25권10호
    • /
    • pp.1386-1394
    • /
    • 2022
  • As consumption of high-quality fruits increases and sales and packaging units become smaller, the demand for automatic fruit grading systems is increasing. Compared to other crops, the quality of fruit is determined by visual characteristics such as shape, color, and scratches, rather than just physical size and weight. Accordingly, this study presents a CNN model that can effectively extract and classify the visual features of fruits and a perceptron that classifies fruits using physical features, and proposes a stacking ensemble model that can effectively combine the classification results of these two neural networks. The experiments with AI Hub public data show that the stacking ensemble model is effective for grading fruits. However, the ensemble model does not always improve the performance of classifying all the fruit grading. So, it is necessary to adapt the model according to the kind of fruit.

효율적인 의료진단을 위한 앙상블 분류 기법 (Ensemble Classification Method for Efficient Medical Diagnostic)

  • 정용규;허고은
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.97-102
    • /
    • 2010
  • 의료 데이터 마이닝의 목적은 효율적인 알고리즘 및 기법을 통하여 각종 질병을 예측 분류하고 신뢰도를 높이는데 있다. 기존의 연구로 단일모델을 기반으로 하는 알고리즘이 존재하며 나아가 모델의 더 좋은 예측과 분류 정확도를 위하여 다중모델을 기반으로 하는 앙상블 기법을 적용한 연구도 진행되고 있다. 본 논문에서는 의료데이터의 보다 높은 예측의 신뢰도를 위하여 기존의 앙상블 기법에 사분위간 범위를 적용한 I-ENSEMBLE을 제안한다. 갑상선 기능 저하증 진단을 위한 데이터를 통해 실험 적용한 결과 앙상블의 대표적인 기법인 Bagging, Boosting, Stacking기법 모두 기존에 비해 현저하게 향상된 정확도를 나타내었다. 또한 기존 단일모델 기법과 비교하여 다중모델인 앙상블 기법에 사분위간 범위를 적용했을 때 더 뚜렷한 효과를 나타냄을 확인하였다.

Predicting movie audience with stacked generalization by combining machine learning algorithms

  • Park, Junghoon;Lim, Changwon
    • Communications for Statistical Applications and Methods
    • /
    • 제28권3호
    • /
    • pp.217-232
    • /
    • 2021
  • The Korea film industry has matured and the number of movie-watching per capita has reached the highest level in the world. Since then, movie industry growth rate is decreasing and even the total sales of movies per year slightly decreased in 2018. The number of moviegoers is the first factor of sales in movie industry and also an important factor influencing additional sales. Thus it is important to predict the number of movie audiences. In this study, we predict the cumulative number of audiences of films using stacking, an ensemble method. Stacking is a kind of ensemble method that combines all the algorithms used in the prediction. We use box office data from Korea Film Council and web comment data from Daum Movie (www.movie.daum.net). This paper describes the process of collecting and preprocessing of explanatory variables and explains regression models used in stacking. Final stacking model outperforms in the prediction of test set in terms of RMSE.

배깅 및 스태킹 기반 앙상블 기계학습법을 이용한 고성능 콘크리트 압축강도 예측모델 개발 (Development of a High-Performance Concrete Compressive-Strength Prediction Model Using an Ensemble Machine-Learning Method Based on Bagging and Stacking)

  • 곽윤지;고채연;곽신영;임승현
    • 한국전산구조공학회논문집
    • /
    • 제36권1호
    • /
    • pp.9-18
    • /
    • 2023
  • 고성능 콘크리트(HPC) 압축강도는 추가적인 시멘트질 재료의 사용으로 인해 예측하기 어렵고, 개선된 예측 모델의 개발이 필수적이다. 따라서, 본 연구의 목적은 배깅과 스태킹을 결합한 앙상블 기법을 사용하여 HPC 압축강도 예측 모델을 개발하는 것이다. 이 논문의 핵심적 기여는 기존 앙상블 기법인 배깅과 스태킹을 통합하여 새로운 앙상블 기법을 제시하고, 단일 기계학습 모델의 문제점을 해결하여 모델 예측 성능을 높이고자 한다. 단일 기계학습법으로 비선형 회귀분석, 서포트 벡터 머신, 인공신경망, 가우시안 프로세스 회귀를 사용하고, 앙상블 기법으로 배깅, 스태킹을 이용하였다. 결과적으로 본 연구에서 제안된 모델이 단일 기계학습 모델, 배깅 및 스태킹 모델보다 높은 정확도를 보였다. 이는 대표적인 4가지 성능 지표 비교를 통해 확인하였고, 제안된 방법의 유효성을 검증하였다.

Estimation of lightweight aggregate concrete characteristics using a novel stacking ensemble approach

  • Kaloop, Mosbeh R.;Bardhan, Abidhan;Hu, Jong Wan;Abd-Elrahman, Mohamed
    • Advances in nano research
    • /
    • 제13권5호
    • /
    • pp.499-512
    • /
    • 2022
  • This study investigates the efficiency of ensemble machine learning for predicting the lightweight-aggregate concrete (LWC) characteristics. A stacking ensemble (STEN) approach was proposed to estimate the dry density (DD) and 28 days compressive strength (Fc-28) of LWC using two meta-models called random forest regressor (RFR) and extra tree regressor (ETR), and two novel ensemble models called STEN-RFR and STEN-ETR, were constructed. Four standalone machine learning models including artificial neural network, gradient boosting regression, K neighbor regression, and support vector regression were used to compare the performance of the proposed models. For this purpose, a sum of 140 LWC mixtures with 21 influencing parameters for producing LWC with a density less than 1000 kg/m3, were used. Based on the experimental results with multiple performance criteria, it can be concluded that the proposed STEN-ETR model can be used to estimate the DD and Fc-28 of LWC. Moreover, the STEN-ETR approach was found to be a significant technique in prediction DD and Fc-28 of LWC with minimal prediction error. In the validation phase, the accuracy of the proposed STEN-ETR model in predicting DD and Fc-28 was found to be 96.79% and 81.50%, respectively. In addition, the significance of cement, water-cement ratio, silica fume, and aggregate with expanded glass variables is efficient in modeling DD and Fc-28 of LWC.

On successive machine learning process for predicting strength and displacement of rectangular reinforced concrete columns subjected to cyclic loading

  • Bu-seog Ju;Shinyoung Kwag;Sangwoo Lee
    • Computers and Concrete
    • /
    • 제32권5호
    • /
    • pp.513-525
    • /
    • 2023
  • Recently, research on predicting the behavior of reinforced concrete (RC) columns using machine learning methods has been actively conducted. However, most studies have focused on predicting the ultimate strength of RC columns using a regression algorithm. Therefore, this study develops a successive machine learning process for predicting multiple nonlinear behaviors of rectangular RC columns. This process consists of three stages: single machine learning, bagging ensemble, and stacking ensemble. In the case of strength prediction, sufficient prediction accuracy is confirmed even in the first stage. In the case of displacement, although sufficient accuracy is not achieved in the first and second stages, the stacking ensemble model in the third stage performs better than the machine learning models in the first and second stages. In addition, the performance of the final prediction models is verified by comparing the backbone curves and hysteresis loops obtained from predicted outputs with actual experimental data.

Genetic classification of various familial relationships using the stacking ensemble machine learning approaches

  • Su Jin Jeong;Hyo-Jung Lee;Soong Deok Lee;Ji Eun Park;Jae Won Lee
    • Communications for Statistical Applications and Methods
    • /
    • 제31권3호
    • /
    • pp.279-289
    • /
    • 2024
  • Familial searching is a useful technique in a forensic investigation. Using genetic information, it is possible to identify individuals, determine familial relationships, and obtain racial/ethnic information. The total number of shared alleles (TNSA) and likelihood ratio (LR) methods have traditionally been used, and novel data-mining classification methods have recently been applied here as well. However, it is difficult to apply these methods to identify familial relationships above the third degree (e.g., uncle-nephew and first cousins). Therefore, we propose to apply a stacking ensemble machine learning algorithm to improve the accuracy of familial relationship identification. Using real data analysis, we obtain superior relationship identification results when applying meta-classifiers with a stacking algorithm rather than applying traditional TNSA or LR methods and data mining techniques.

스태킹 앙상블 모델을 이용한 시간별 지상 오존 공간내삽 정확도 향상 (Improved Estimation of Hourly Surface Ozone Concentrations using Stacking Ensemble-based Spatial Interpolation)

  • 김예진;강은진;조동진;이시우;임정호
    • 한국지리정보학회지
    • /
    • 제25권3호
    • /
    • pp.74-99
    • /
    • 2022
  • 지상 오존은 차량 및 산업 현장에서 배출된 질소화합물(Nitrogen oxides; NOx)과 휘발성 유기화합물(Volatile Organic Compounds; VOCs)의 광화학 반응을 통해 생성되어 식생 및 인체에 악영향을 끼친다. 국내에서는 실시간 오존 모니터링을 수행하고 있지만 관측소 기반으로, 미관측 지역의 공간 분포 분석에 어려움이 있다. 본 연구에서는 스태킹 앙상블 기법을 활용하여 매시간 남한 지역의 지상 오존 농도를 1.5km의 공간해상도로 공간내삽하였고, 5-fold 교차검증을 수행하였다. 스태킹 앙상블의 베이스 모델로는 코크리깅(Cokriging), 다중 선형 회귀(Multi-Linear Regression; MLR), 랜덤 포레스트(Random Forest; RF), 서포트 벡터 회귀(Support Vector Regression; SVR)를 사용하였다. 각 모델의 정확도 비교 평가 결과, 스태킹 앙상블 모델이 연구 기간 내 시간별 평균 R 및 RMSE이 0.76, 0.0065ppm으로 가장 높은 성능을 보여주었다. 스태킹 앙상블 모델의 지상 오존 농도 지도는 복잡한 지형 및 도시화 변수의 특징이 잘 드러나며 더 넓은 농도 범위를 보여주었다. 개발된 모델은 매시간 공간적으로 연속적인 공간 지도를 산출할 수 있을 뿐만 아니라 8시간 평균치 산출 및 시계열 분석에 있어서도 활용 가능성이 클 것으로 기대된다.

앙상블 러닝 기반 동적 가중치 할당 모델을 통한 보험금 예측 인공지능 연구 (Research on Insurance Claim Prediction Using Ensemble Learning-Based Dynamic Weighted Allocation Model)

  • 최종석
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권4호
    • /
    • pp.221-228
    • /
    • 2024
  • 보험금 예측은 보험사의 리스크 관리와 재무 건전성 유지를 위한 핵심 과제 중 하나이다. 정확한 보험금 예측을 통해 보험사는 적정한 보험료를 책정하고, 예상 외의 손실을 줄이며, 고객 서비스의 질을 향상시킬 수 있다. 본 연구에서는 앙상블 러닝 기법을 적용하여 보험금 예측 모델의 성능을 향상시키고자 한다. 랜덤 포레스트(Random Forest), 그래디언트 부스팅 머신(Gradient Boosting Machine, GBM), XGBoost, Stacking, 그리고 제안한 동적 가중치 할당 모델(Dynamic Weighted Ensemble, DWE) 모델을 사용하여 예측 성능을 비교 분석하였다. 모델의 성능 평가는 평균 절대 오차(MAE), 평균 제곱근 오차(MSE), 결정 계수(R2) 등을 사용하여 수행되었다. 실험 결과, 동적 가중치 할당 모델이 평가 지표에서 가장 우수한 성능을 보였으며, 이는 랜덤 포레스트와 XGBoost, LR, LightGBM의 예측 결과를 결합하여 최적의 예측 성능을 도출한 결과이다. 본 연구는 앙상블 러닝 기법이 보험금 예측의 정확성을 높이는 데 효과적임을 입증하며, 보험업계에서 인공지능 기반 예측 모델의 활용 가능성을 제시한다.