• 제목/요약/키워드: ensemble methods

검색결과 284건 처리시간 0.03초

Comparative analysis of model performance for predicting the customer of cafeteria using unstructured data

  • Seungsik Kim;Nami Gu;Jeongin Moon;Keunwook Kim;Yeongeun Hwang;Kyeongjun Lee
    • Communications for Statistical Applications and Methods
    • /
    • 제30권5호
    • /
    • pp.485-499
    • /
    • 2023
  • This study aimed to predict the number of meals served in a group cafeteria using machine learning methodology. Features of the menu were created through the Word2Vec methodology and clustering, and a stacking ensemble model was constructed using Random Forest, Gradient Boosting, and CatBoost as sub-models. Results showed that CatBoost had the best performance with the ensemble model showing an 8% improvement in performance. The study also found that the date variable had the greatest influence on the number of diners in a cafeteria, followed by menu characteristics and other variables. The implications of the study include the potential for machine learning methodology to improve predictive performance and reduce food waste, as well as the removal of subjective elements in menu classification. Limitations of the research include limited data cases and a weak model structure when new menus or foreign words are not included in the learning data. Future studies should aim to address these limitations.

One Step Measurements of hippocampal Pure Volumes from MRI Data Using an Ensemble Model of 3-D Convolutional Neural Network

  • Basher, Abol;Ahmed, Samsuddin;Jung, Ho Yub
    • 스마트미디어저널
    • /
    • 제9권2호
    • /
    • pp.22-32
    • /
    • 2020
  • The hippocampal volume atrophy is known to be linked with neuro-degenerative disorders and it is also one of the most important early biomarkers for Alzheimer's disease detection. The measurements of hippocampal pure volumes from Magnetic Resonance Imaging (MRI) is a crucial task and state-of-the-art methods require a large amount of time. In addition, the structural brain development is investigated using MRI data, where brain morphometry (e.g. cortical thickness, volume, surface area etc.) study is one of the significant parts of the analysis. In this study, we have proposed a patch-based ensemble model of 3-D convolutional neural network (CNN) to measure the hippocampal pure volume from MRI data. The 3-D patches were extracted from the volumetric MRI scans to train the proposed 3-D CNN models. The trained models are used to construct the ensemble 3-D CNN model and the aggregated model predicts the pure volume in one-step in the test phase. Our approach takes only 5 seconds to estimate the volumes from an MRI scan. The average errors for the proposed ensemble 3-D CNN model are 11.7±8.8 (error%±STD) and 12.5±12.8 (error%±STD) for the left and right hippocampi of 65 test MRI scans, respectively. The quantitative study on the predicted volumes over the ground truth volumes shows that the proposed approach can be used as a proxy.

앙상블 학습을 이용한 적조 발생 예측의 성능향상 (Enhancing of Red Tide Blooms Prediction using Ensemble Train)

  • 박선;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제49권1호
    • /
    • pp.41-48
    • /
    • 2012
  • 적조란 유해조류의 일시적인 대 번식으로 바다를 적색으로 변화시키며 양식장의 어패류를 집단 폐사 시킬 뿐 아니라 연안환경 및 바다 생태계에 악영향을 미치는 자연 현상이다. 적조에 의한 양식어업의 피해는 매년 발생하고 있으며 매년 적조방제에 많은 비용을 소비하고 있다. 이 때문에 적조 발생을 미리 예측할 수 있으면 적조에 대한 피해 및 방재 비용을 최소화 시킬수 있다. 본 논문은 앙상블 학습은 이용한 적조발생 예측 방법을 제안한다. 제안방법은 앙상블 학습의 bagging과 boosting 방법을 이용하여서 적조를 예측의 성능을 향상시킨다. 실험결과 제안방법은 단일 분류기에 비하여서 더 좋은 적조 발생 예측 성능을 보였다.

Support Vector Machine을 이용한 문맥 인지형 융합 (Context-Aware Fusion with Support Vector Machine)

  • 허경용;김성훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.19-26
    • /
    • 2014
  • 앙상블 분류기는 여러 개의 분류기에서의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성 높은 예측 결과를 얻을 수 있는 방법으로 널리 사용되고 있다. 앙상블 분류기를 위해서는 여러 가지 방법이 사용되고 있으며 흔히 사용되는 방법으로는 부스팅이 있다. 하지만 부스팅은 단계적인 학습을 통해 이전 단계에서 잘못 분류된 샘플들을 다음 단계에서 다시 분류하는 방식으로 이전 단계로의 피드백이 불완전한 순차적인 방법이라는 한계가 있다. 이 논문에서는 단일 분류기 중 가장 성능이 좋은 것으로 알려진 SVM을 기본분류기로 사용하여 동시에 여러개의 SVM을 학습하는 문맥 감지형 SVM 앙상블알고리즘을 제안한다. 제안하는 방법에서는 특징 공간을 문맥으로 나누는 클러스터링과 SVM 학습을 동시에 진행하므로 특징 공간 분할과 학습이 서로의 결과를 사용할 수 있어 기존 앙상블학습에 비해 더 나은 결과를 얻을 수 있으며 이는 실험 결과를 통해 확인할 수 있다.

시공 중 흙막이 벽체 수평변위 예측을 위한 앙상블 모델 개발 (Development of an Ensemble Prediction Model for Lateral Deformation of Retaining Wall Under Construction)

  • 서승환;정문경
    • 한국지반공학회논문집
    • /
    • 제39권4호
    • /
    • pp.5-17
    • /
    • 2023
  • 도심지 지하굴착 공사가 대형화되면서 공사 중 안전사고에 대한 위험요인이 더욱 증가하고 있다. 이에 따라 공사현장의 위험요소를 모니터링하고 사전에 예측할 수 있는 기술이 필요하다. 굴착으로 인한 흙막이 벽체의 변형을 예측하는 방법에는 크게 경험식과 수치해석 두 가지 방법으로 분류할 수 있으며, 최근에는 인공지능 기술의 발달과 함께 머신러닝 기법을 활용한 예측 모델이 한 가지 방법으로 자리 잡고 있다. 본 연구에서는 예측력과 효율성이 우수한 부스팅 계열 알고리즘 및 앙상블 모델을 이용하여 시공 중 흙막이 벽체 변형을 예측하는 모델을 구축하였다. 지하흙막이 공사의 설계-시공-유지관리 과정에서 도출되는 자료들을 복합적으로 활용하여 데이터베이스를 구축하고, 이 자료를 토대로 학습모델을 만들고 성능을 평가하였다. 모델 성능 평가 결과, 높은 정확도로 흙막이 벽체 변형을 예측할 수 있었으며, 지반계측 자료를 학습에 활용함으로써 실제 시공과정의 특성이 반영된 예측결과를 제시할 수 있었다. 본 연구에서 구축한 예측 모델을 활용하여 시공 중 흙막이 벽체의 안정성 평가 및 모니터링에 활용할 수 있을 것으로 기대된다.

A Study on Traffic Vulnerable Detection Using Object Detection-Based Ensemble and YOLOv5

  • Hyun-Do Lee;Sun-Gu Kim;Seung-Chae Na;Ji-Yul Ham;Chanhee Kwak
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.61-68
    • /
    • 2024
  • 횡단보도에서 발생하는 교통사고를 해결하기 위한 시도가 계속되고 있지만, 교통사고는 끊임 없이 일어나는 상황이다. 특히 노인, 장애인 등의 교통약자들은 교통사고에 노출될 위험이 더 크다. 이에 대한 문제점을 주의 깊게 볼 필요가 있다. 본 논문은 교통 약자 중 휠체어, 목발과 같은 보조 기구를 이용하는 보행자를 위해 YOLO v5 모델을 활용한 객체 탐지 기술을 제안한다. 휠체어, 목발 사용자 그리고 보행자의 이미지 크롤링, Roboflow와 Mobibity Aids 데이터를 수집하였다. 일반화 성능을 높이기 위해 데이터 증강 기법을 활용하였다. 더하여 Type 2 error를 줄이기 위해 앙상블 기법을 이용하여 Recall이 96%인 높은 성능 수치를 얻었다. 이를 통해 교통약자를 목표로 YOLO 내 단일 모델을 앙상블 할 시, 객체를 놓치지 않고 정확한 탐지 성능을 보여준다는 것을 입증하였다.

개선된 배깅 앙상블을 활용한 기업부도예측 (Bankruptcy prediction using an improved bagging ensemble)

  • 민성환
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.121-139
    • /
    • 2014
  • 기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.

앙상블 접근법을 이용한 반감독 차원 감소 방법 (A Semi-supervised Dimension Reduction Method Using Ensemble Approach)

  • 박정희
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.147-150
    • /
    • 2012
  • 클래스들 간의 거리를 최대화시키는 사영 방향을 구하는 감독차원감소 방법인 선형판별분석법(LDA)은 클래스 정보를 가진 데이터의 수가 매우 적을 때 성능이 급격히 저하되는 경향이 있다. 이러한 경우 상대적으로 저렴한 비용으로 얻을 수 있는 클래스 라벨 정보가 없는 데이터를 활용할 수 있는 반감독 차원 감소법이 사용될 수 있다. 그러나 통계적 차원 감소법에서 흔히 사용되는 행렬연산은 많은 양의 데이터를 사용하는데 메모리와 처리시간에서 한계가 있고, 적은 수의 라벨드 데이터(labeled data)에 비해 너무나 많은 언라벨드 데이터(unlabeled data)의 사용은 처리 시간의 증가에 비해 오히려 성능감소를 가져올 수 있다. 이러한 문제들을 극복하기 위해 앙상블 접근법을 이용한 반감독 차원 감소 방법을 제안한다. 문서분류 문제에서의 실험결과를 통해 제안한 방법의 성능을 입증한다.

불균형 데이터 처리를 위한 과표본화 기반 앙상블 학습 기법 (Oversampling-Based Ensemble Learning Methods for Imbalanced Data)

  • 김경민;장하영;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권10호
    • /
    • pp.549-554
    • /
    • 2014
  • 필기체 낱글자 인식을 위해서 사용되는 데이터는 일반적으로 다수의 사용자들로부터 수집된 자연언어 문장들을 이용하기 때문에 해당 언어의 언어적 특성에 따라서 낱글자의 종류별 개수 차이가 매우 큰 특징이 있다. 일반적인 기계학습 문제에서 학습데이터의 불균형 문제는 성능을 저하시키는 중요한 요인으로 작용하지만, 필기체 인식에서는 데이터 자체의 높은 분산과 비슷한 모양의 낱글자 등이 성능 저하의 주요인이라 생각하기 때문에 이를 크게 고려하지 않고 있다. 본 논문에서는 이러한 데이터의 불균형 문제를 고려하여 필기체 인식기의 성능을 향상시킬 수 있는 과표본화 기반의 앙상블 학습 기법을 제안한다. 제안한 방법은 데이터의 불균형 문제를 고려하지 않은 방법보다 전체적으로 향상된 성능을 보일 뿐만 아니라 데이터의 개수가 부족한 낱글자들의 분류성능에 있어서도 향상된 결과를 보여준다.

다중 지역기후모델로부터 모의된 월 기온자료를 이용한 다중선형회귀모형들의 예측성능 비교 (Inter-comparison of Prediction Skills of Multiple Linear Regression Methods Using Monthly Temperature Simulated by Multi-Regional Climate Models)

  • 성민규;김찬수;서명석
    • 대기
    • /
    • 제25권4호
    • /
    • pp.669-683
    • /
    • 2015
  • In this study, we investigated the prediction skills of four multiple linear regression methods for monthly air temperature over South Korea. We used simulation results from four regional climate models (RegCM4, SNURCM, WRF, and YSURSM) driven by two boundary conditions (NCEP/DOE Reanalysis 2 and ERA-Interim). We selected 15 years (1989~2003) as the training period and the last 5 years (2004~2008) as validation period. The four regression methods used in this study are as follows: 1) Homogeneous Multiple linear Regression (HMR), 2) Homogeneous Multiple linear Regression constraining the regression coefficients to be nonnegative (HMR+), 3) non-homogeneous multiple linear regression (EMOS; Ensemble Model Output Statistics), 4) EMOS with positive coefficients (EMOS+). It is same method as the third method except for constraining the coefficients to be nonnegative. The four regression methods showed similar prediction skills for the monthly air temperature over South Korea. However, the prediction skills of regression methods which don't constrain regression coefficients to be nonnegative are clearly impacted by the existence of outliers. Among the four multiple linear regression methods, HMR+ and EMOS+ methods showed the best skill during the validation period. HMR+ and EMOS+ methods showed a very similar performance in terms of the MAE and RMSE. Therefore, we recommend the HMR+ as the best method because of ease of development and applications.