• 제목/요약/키워드: Ensemble Learning

검색결과 390건 처리시간 0.026초

스마트관광 시대의 관광숙박업 영업 예측 모형: 코로나19 팬더믹을 중심으로 (Predictive Models for the Tourism and Accommodation Industry in the Era of Smart Tourism: Focusing on the COVID-19 Pandemic)

  • 조유진;김차미;손승연;노미진
    • 스마트미디어저널
    • /
    • 제12권8호
    • /
    • pp.18-25
    • /
    • 2023
  • 2020년 발생한 코로나19는 전세계적으로 지속적인 피해를 미쳤으며, 특히 하늘길 봉쇄 및 외출 자제로 인해 스마트 관광산업은 경제적 직격탄을 맞았다. 해외여행과 국내여행이 크게 감소된 상황에서 계속되는 적자로 인해 휴업과 폐업을 하는 관광호텔들이 늘어나고 있는 상황이다. 따라서 본 연구에서는 행정안전부의 인허가 데이터를 수집한 후 시각화하여 관광숙박업의 운영 현황을 파악하였다. 머신러닝 분류 알고리즘을 적용하여 관광호텔의 생존 예측 모델을 구현하였고 앙상블 알고리즘을 활용하여 예측 모델의 성능을 최적화하였으며 5-Fold 교차검증으로 모델의 성능을 평가하였다. 관광호텔의 생존율이 다소 감소할 것으로 예측되었으나 실제 생존율을 코로나19 이전과 큰 차이를 보이지 않는 것으로 분석되었다. 본 논문의 호텔업 영업 상태 예측을 통해 관광숙박업 전체의 운영 가능성 및 발전 동향을 파악할 수 있는 근거로 활용할 수 있다.

Development of AI-based Smart Agriculture Early Warning System

  • Hyun Sim;Hyunwook Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.67-77
    • /
    • 2023
  • 본 연구는 스마트팜 환경에서 진행된 혁신적인 연구로, 딥러닝을 기반으로 한 질병 및 해충 탐지 모델을 개발하고, 이를 지능형 사물인터넷(IoT) 플랫폼에 적용하여 디지털 농업 환경 구현의 새로운 가능성을 탐색하였다. 연구의 핵심은 Pseudo-Labeling, RegNet, EfficientNet 등 최신 ImageNet 모델과 전처리 방식을 통합하여, 복잡한 농업 환경에서 다양한 질병과 해충을 높은 정확도로 탐지하는 것이었다. 이를 위해 앙상블 학습 기법을 적용하여 모델의 정확도와 안정성을 극대화했으며, 평균 정밀도(mAP), 정밀도, 재현율, 정확도, 박스 손실 등의 다양한 성능 지표를 통해 모델을 평가하였다. 또한, SHAP 프레임워크를 활용하여 모델의 예측 기준에 대한 깊은 이해를 도모하였고, 이를 통해 모델의 결정 과정을 보다 투명하게 만들었다. 이러한 분석은 모델이 어떻게 다양한 변수들을 고려하여 질병 및 해충을 탐지하는지에 대한 중요한 통찰력을 제공하였다.

An AutoML-driven Antenna Performance Prediction Model in the Autonomous Driving Radar Manufacturing Process

  • So-Hyang Bak;Kwanghoon Pio Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권12호
    • /
    • pp.3330-3344
    • /
    • 2023
  • This paper proposes an antenna performance prediction model in the autonomous driving radar manufacturing process. Our research work is based upon a challenge dataset, Driving Radar Manufacturing Process Dataset, and a typical AutoML machine learning workflow engine, Pycaret open-source Python library. Note that the dataset contains the total 70 data-items, out of which 54 used as input features and 16 used as output features, and the dataset is properly built into resolving the multi-output regression problem. During the data regression analysis and preprocessing phase, we identified several input features having similar correlations and so detached some of those input features, which may become a serious cause of the multicollinearity problem that affect the overall model performance. In the training phase, we train each of output-feature regression models by using the AutoML approach. Next, we selected the top 5 models showing the higher performances in the AutoML result reports and applied the ensemble method so as for the selected models' performances to be improved. In performing the experimental performance evaluation of the regression prediction model, we particularly used two metrics, MAE and RMSE, and the results of which were 0.6928 and 1.2065, respectively. Additionally, we carried out a series of experiments to verify the proposed model's performance by comparing with other existing models' performances. In conclusion, we enhance accuracy for safer autonomous vehicles, reduces manufacturing costs through AutoML-Pycaret and machine learning ensembled model, and prevents the production of faulty radar systems, conserving resources. Ultimately, the proposed model holds significant promise not only for antenna performance but also for improving manufacturing quality and advancing radar systems in autonomous vehicles.

Assessment of compressive strength of high-performance concrete using soft computing approaches

  • Chukwuemeka Daniel;Jitendra Khatti;Kamaldeep Singh Grover
    • Computers and Concrete
    • /
    • 제33권1호
    • /
    • pp.55-75
    • /
    • 2024
  • The present study introduces an optimum performance soft computing model for predicting the compressive strength of high-performance concrete (HPC) by comparing models based on conventional (kernel-based, covariance function-based, and tree-based), advanced machine (least square support vector machine-LSSVM and minimax probability machine regressor-MPMR), and deep (artificial neural network-ANN) learning approaches using a common database for the first time. A compressive strength database, having results of 1030 concrete samples, has been compiled from the literature and preprocessed. For the purpose of training, testing, and validation of soft computing models, 803, 101, and 101 data points have been selected arbitrarily from preprocessed data points, i.e., 1005. Thirteen performance metrics, including three new metrics, i.e., a20-index, index of agreement, and index of scatter, have been implemented for each model. The performance comparison reveals that the SVM (kernel-based), ET (tree-based), MPMR (advanced), and ANN (deep) models have achieved higher performance in predicting the compressive strength of HPC. From the overall analysis of performance, accuracy, Taylor plot, accuracy metric, regression error characteristics curve, Anderson-Darling, Wilcoxon, Uncertainty, and reliability, it has been observed that model CS4 based on the ensemble tree has been recognized as an optimum performance model with higher performance, i.e., a correlation coefficient of 0.9352, root mean square error of 5.76 MPa, and mean absolute error of 4.1069 MPa. The present study also reveals that multicollinearity affects the prediction accuracy of Gaussian process regression, decision tree, multilinear regression, and adaptive boosting regressor models, novel research in compressive strength prediction of HPC. The cosine sensitivity analysis reveals that the prediction of compressive strength of HPC is highly affected by cement content, fine aggregate, coarse aggregate, and water content.

LIME과 SHAP 모델 공유에 의한 모델 해석 (Model Interpretation through LIME and SHAP Model Sharing)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.177-184
    • /
    • 2024
  • 데이터가 빠른 속도로 증가하고 있는 가운데 가능한 최고의 정확도를 달성하기 위해 모든 종류의 복잡한 앙상블 및 딥 러닝 알고리즘이 사용되고 있다. 그렇지만, 이러한 모델이 알 수 없는 데이터를 예측/분류/인식/추적하는 방법과 관련하여 예측, 분류, 인식, 추적이 항상 신뢰할 수 있는 것은 아니다. 데이터 부족, 불균형 데이터 세트, 편향된 데이터 세트 등과 같은 다양한 이유가 학습 모델에 의해 포착되는 결정에 영향을 미칠 수 있다. 이와 관련하여 현재 모델의 설명 가능성에 관한 연구가 관심을 끌고 있다. 현재 설명 가능성 기법과 관련하여 LIME과 SHAP가 보편적으로 사용되고 있지만, 출력 결과들은 다소 상이한 측면을 나타내고 있다. 이에 본 연구에서는 LIME과 SHAP을 결합하는 방식을 소개하고, 데모와 관련해서 IEEE CIS 데이터 세트에서 거래를 사기로 분류할 때 LightGBM 및 Keras 모델이 내린 결정에 대한 설명 가능성을 분석한다.

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

Sketch Recognition Using LSTM with Attention Mechanism and Minimum Cost Flow Algorithm

  • Nguyen-Xuan, Bac;Lee, Guee-Sang
    • International Journal of Contents
    • /
    • 제15권4호
    • /
    • pp.8-15
    • /
    • 2019
  • This paper presents a solution of the 'Quick, Draw! Doodle Recognition Challenge' hosted by Google. Doodles are drawings comprised of concrete representational meaning or abstract lines creatively expressed by individuals. In this challenge, a doodle is presented as a sequence of sketches. From the view of at the sketch level, to learn the pattern of strokes representing a doodle, we propose a sequential model stacked with multiple convolution layers and Long Short-Term Memory (LSTM) cells following the attention mechanism [15]. From the view at the image level, we use multiple models pre-trained on ImageNet to recognize the doodle. Finally, an ensemble and a post-processing method using the minimum cost flow algorithm are introduced to combine multiple models in achieving better results. In this challenge, our solutions garnered 11th place among 1,316 teams. Our performance was 0.95037 MAP@3, only 0.4% lower than the winner. It demonstrates that our method is very competitive. The source code for this competition is published at: https://github.com/ngxbac/Kaggle-QuickDraw.

An Assessment of a Random Forest Classifier for a Crop Classification Using Airborne Hyperspectral Imagery

  • Jeon, Woohyun;Kim, Yongil
    • 대한원격탐사학회지
    • /
    • 제34권1호
    • /
    • pp.141-150
    • /
    • 2018
  • Crop type classification is essential for supporting agricultural decisions and resource monitoring. Remote sensing techniques, especially using hyperspectral imagery, have been effective in agricultural applications. Hyperspectral imagery acquires contiguous and narrow spectral bands in a wide range. However, large dimensionality results in unreliable estimates of classifiers and high computational burdens. Therefore, reducing the dimensionality of hyperspectral imagery is necessary. In this study, the Random Forest (RF) classifier was utilized for dimensionality reduction as well as classification purpose. RF is an ensemble-learning algorithm created based on the Classification and Regression Tree (CART), which has gained attention due to its high classification accuracy and fast processing speed. The RF performance for crop classification with airborne hyperspectral imagery was assessed. The study area was the cultivated area in Chogye-myeon, Habcheon-gun, Gyeongsangnam-do, South Korea, where the main crops are garlic, onion, and wheat. Parameter optimization was conducted to maximize the classification accuracy. Then, the dimensionality reduction was conducted based on RF variable importance. The result shows that using the selected bands presents an excellent classification accuracy without using whole datasets. Moreover, a majority of selected bands are concentrated on visible (VIS) region, especially region related to chlorophyll content. Therefore, it can be inferred that the phenological status after the mature stage influences red-edge spectral reflectance.

패턴 분류 문제에 확장된 데이터 표현 기법을 적용한 응용 사례 (Application Examples Applying Extended Data Expression Technique to Classification Problems)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.9-15
    • /
    • 2018
  • 확장된 데이터 표현의 주요 목표는 유비쿼터스 환경에서 일반적인 문제에 적합한 데이터 구조를 개발하는 것이다. 이 방법의 가장 큰 특징은 속성 값을 확률로 표현할 수 있다는 것이다. 다음 특성은 훈련 데이터의 각 이벤트가 중요도를 나타내는 가중치 값을 갖도록 한다는 것이다. 데이터 구조가 개발된 후에 이를 학습할 수 있는 알고리즘이 고안된다. 그 동안 이 알고리즘은 여러 분야에서 여러 문제에 적용하여 좋은 결과를 산출해 왔다. 본 논문은 먼저 데이터 표현 기법인 UChoo를 소개하고 이론적인 배경이 되는 규칙 개선 문제를 소개한다. 그리고 규칙 개선, 손실 데이터 처리, BEWS 문제, 앙상블 시스템과 같은 응용 분야의 예를 소개한다.

Analyzing behavior of circular concrete-filled steel tube column using improved fuzzy models

  • Zheng, Yuxin;Jin, Hongwei;Jiang, Congying;Moradi, Zohre;Khadimallah, Mohamed Amine;Safa, Maryam
    • Steel and Composite Structures
    • /
    • 제43권5호
    • /
    • pp.625-637
    • /
    • 2022
  • Axial compression capacity (Pu) is a significant yet complex parameter of concrete-filled steel tube (CFST) columns. This study offers a novel ensemble tool, adaptive neuro-fuzzy inference system (ANFIS) supervised by equilibrium optimization (EO), for accurately predicting this parameter. Moreover, grey wolf optimization (GWO) and Harris hawk optimizer (HHO) are considered as comparative supervisors. The used data is taken from earlier literature provided by finite element analysis. ANFIS is trained by several population sizes of the EO, GWO, and HHO to detect the best configurations. At a glance, the results showed the competency of such ensembles for learning and reproducing the Pu behavior. In details, respective mean absolute errors along with correlation values of 4.1809% and 0.99564, 10.5947% and 0.98006, and 4.8947% and 0.99462 obtained for the EO-ANFIS, GWO-ANFIS, and HHO-ANFIS, respectively, indicated that the proposed EO-ANFIS can analyze and predict the behavior of CFST columns with the highest accuracy. Considering both time and accuracy, the EO provides the most efficient optimization of ANFIS and can be a nice substitute for experimental approaches.