• 제목/요약/키워드: ensemble of model trees

검색결과 27건 처리시간 0.023초

머신러닝을 이용한 CNC 가공 불량 발생 예측 모델 (Prediction Model of CNC Processing Defects Using Machine Learning)

  • 한용희
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.249-255
    • /
    • 2022
  • 본 연구는 최근 가공 불량 예측 방법으로 주목받고 있는 머신러닝 기반의 모델을 이용하여 CNC 가공 불량 발생의 실시간 예측을 위한 분석 프레임워크를 제안하고, 해당 프레임워크에 기반하여 XGBoost, CatBoost, LightGBM, 랜덤 포레스트, Extra Trees, SVM, k-최근접 이웃, 로지스틱 회귀 모델을 CNC 설비에 기본 내장된 센서들로부터 추출된 데이터에 적용 및 분석하였다. 분석 결과 XGBoost, CatBoost, LightGBM 모델이 동일하게 가장 우수한 정확도, 정밀도, 재현율, F1 점수, AUC 값을 보였으며, 이 중 LightGBM 모델이 소요 실행 시간이 가장 짧은 것으로 나타났다. 이러한 짧은 소요 실행 시간은 실 시스템 구축 비용 절감, 빠른 불량 예측에 따른 CNC 장비 파손 확률 감소, 전체적인 CNC 활용률 증가 등의 실무적 장점을 가지므로 LightGBM 모델이 기본 센서들만 설치된 CNC 설비에 적용 시 가공 불량 예측에 가장 효과적으로 판단된다. 또한 소요 실행 시간 및 컴퓨팅 파워의 제약이 없는 상황에서는 LightGBM, Extra Trees, k-최근접 이웃, 로지스틱 회귀 모형으로 구성된 앙상블 모델을 적용할 경우 분류 성능이 최대화됨을 확인하였다.

가중치 기반 Bag-of-Feature와 앙상블 결정 트리를 이용한 정지 영상에서의 인간 행동 인식 (Human Action Recognition in Still Image Using Weighted Bag-of-Features and Ensemble Decision Trees)

  • 홍준혁;고병철;남재열
    • 한국통신학회논문지
    • /
    • 제38A권1호
    • /
    • pp.1-9
    • /
    • 2013
  • 본 논문에서는 CS-LBP (Center-Symmetric Local Binary Pattern) 특징과 공간 피라미드를 이용한 BoF (Bag of Features)를 생성하고 이를 랜덤 포레스트(Random Forest) 분류기에 적용하여 인간의 행동을 인식하는 알고리즘을 제안한다. BoF를 생성하기 위해 영상을 균일한 패치로 나누고, 각 패치 마다 CS-LBP 특징을 추출한다. 행동 분류 성능을 향상시키기 위해 패치들마다 추출한 특징벡터들에 대해 K-mean 클러스터링을 적용하여 코드 북을 생성한다. 본 논문에서는 영상의 지역적인 특성을 고려하기 위해 공간 피라미드 방법을 적용하고 각 공간 레벨에서 추출된 BoF에 대해 가중치를 적용하여 최종적으로 하나의 특징 벡터로 결합한다. 행동 분류를 위해 결정트리의 앙상블로 이루어진 랜덤 포레스트는 학습 단계에서 각 행동 클래스를 위한 분류 모델을 만든다. 가중 BoF가 적용된 랜덤 포레스트는 다양한 인간 행동 영상을 포함하고 있는 Standford Actions 40 데이터를 성공적으로 분류하였다. 또한 기존 방법에 비해 분류 성능이 유사하거나 우수하며, 한 장의 영상에 대해 빠른 인식속도를 보였다.

Relevancy contemplation in medical data analytics and ranking of feature selection algorithms

  • P. Antony Seba;J. V. Bibal Benifa
    • ETRI Journal
    • /
    • 제45권3호
    • /
    • pp.448-461
    • /
    • 2023
  • This article performs a detailed data scrutiny on a chronic kidney disease (CKD) dataset to select efficient instances and relevant features. Data relevancy is investigated using feature extraction, hybrid outlier detection, and handling of missing values. Data instances that do not influence the target are removed using data envelopment analysis to enable reduction of rows. Column reduction is achieved by ranking the attributes through feature selection methodologies, namely, extra-trees classifier, recursive feature elimination, chi-squared test, analysis of variance, and mutual information. These methodologies are ranked via Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) using weight optimization to identify the optimal features for model building from the CKD dataset to facilitate better prediction while diagnosing the severity of the disease. An efficient hybrid ensemble and novel similarity-based classifiers are built using the pruned dataset, and the results are thereafter compared with random forest, AdaBoost, naive Bayes, k-nearest neighbors, and support vector machines. The hybrid ensemble classifier yields a better prediction accuracy of 98.31% for the features selected by extra tree classifier (ETC), which is ranked as the best by TOPSIS.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

드론 항공영상을 이용한 딥러닝 기반 앙상블 토지 피복 분할 알고리즘 개발 (Development of Deep Learning Based Ensemble Land Cover Segmentation Algorithm Using Drone Aerial Images)

  • 박해광;백승기;정승현
    • 대한원격탐사학회지
    • /
    • 제40권1호
    • /
    • pp.71-80
    • /
    • 2024
  • 이 연구에서는 무인 항공기(Unmanned Aerial Vehicle, UAV)가 캡처한 이미지의 의미론적 토지 피복 분할 성능을 향상시키기 위한 앙상블 학습 기법을 제안하고 있다. 도시 계획과 같은 분야에서 UAV 사용이 증가함에 따라 토지 피복 분할을 위한 딥러닝 분할 방법을 활용한 기술 개발이 활발히 이루어지고 있다. 이 연구는 대표적인 분할 모델인 U-Net, DeepLabV3 그리고 Fully Convolutional Network (FCN)를 사용하여 분할 예측 성능을 개선하는 방법을 제안한다. 제안된 접근 방식은 세 가지 분할 모델의 훈련 손실, 검증 정확도 및 클래스별 점수를 통합하여 앙상블 모델을 개발하고 전반적인 예측 성능을 향상시킨다. 이 방법은 건물, 도로, 주차장, 논, 밭, 나무, 빈 공간, 미분류 영역을 포함하는 일곱 가지 클래스가 있는 토지 피복 분할 문제에 적용하여 평가하였다. 앙상블 모델의 성능은 mean Intersection over Union (mIoU)으로 평가하였으며, 제안된 앙상블 모델과 기존의 세 가지 분할 방법을 비교한 결과 mIoU 성능이 향상되었음이 나타났다. 따라서 이 연구는 제안된 기술이 의미론적 분할 모델의 성능을 향상시킬 수 있음을 확인하였다.

Using Bayesian tree-based model integrated with genetic algorithm for streamflow forecasting in an urban basin

  • Nguyen, Duc Hai;Bae, Deg-Hyo
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.140-140
    • /
    • 2021
  • Urban flood management is a crucial and challenging task, particularly in developed cities. Therefore, accurate prediction of urban flooding under heavy precipitation is critically important to address such a challenge. In recent years, machine learning techniques have received considerable attention for their strong learning ability and suitability for modeling complex and nonlinear hydrological processes. Moreover, a survey of the published literature finds that hybrid computational intelligent methods using nature-inspired algorithms have been increasingly employed to predict or simulate the streamflow with high reliability. The present study is aimed to propose a novel approach, an ensemble tree, Bayesian Additive Regression Trees (BART) model incorporating a nature-inspired algorithm to predict hourly multi-step ahead streamflow. For this reason, a hybrid intelligent model was developed, namely GA-BART, containing BART model integrating with Genetic algorithm (GA). The Jungrang urban basin located in Seoul, South Korea, was selected as a case study for the purpose. A database was established based on 39 heavy rainfall events during 2003 and 2020 that collected from the rain gauges and monitoring stations system in the basin. For the goal of this study, the different step ahead models will be developed based in the methods, including 1-hour, 2-hour, 3-hour, 4-hour, 5-hour, and 6-hour step ahead streamflow predictions. In addition, the comparison of the hybrid BART model with a baseline model such as super vector regression models is examined in this study. It is expected that the hybrid BART model has a robust performance and can be an optional choice in streamflow forecasting for urban basins.

  • PDF

신용카드 대손회원 예측을 위한 SVM 모형 (Credit Card Bad Debt Prediction Model based on Support Vector Machine)

  • 김진우;지원철
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.233-250
    • /
    • 2012
  • In this paper, credit card delinquency means the possibility of occurring bad debt within the certain near future from the normal accounts that have no debt and the problem is to predict, on the monthly basis, the occurrence of delinquency 3 months in advance. This prediction is typical binary classification problem but suffers from the issue of data imbalance that means the instances of target class is very few. For the effective prediction of bad debt occurrence, Support Vector Machine (SVM) with kernel trick is adopted using credit card usage and payment patterns as its inputs. SVM is widely accepted in the data mining society because of its prediction accuracy and no fear of overfitting. However, it is known that SVM has the limitation in its ability to processing the large-scale data. To resolve the difficulties in applying SVM to bad debt occurrence prediction, two stage clustering is suggested as an effective data reduction method and ensembles of SVM models are also adopted to mitigate the difficulty due to data imbalance intrinsic to the target problem of this paper. In the experiments with the real world data from one of the major domestic credit card companies, the suggested approach reveals the superior prediction accuracy to the traditional data mining approaches that use neural networks, decision trees or logistics regressions. SVM ensemble model learned from T2 training set shows the best prediction results among the alternatives considered and it is noteworthy that the performance of neural networks with T2 is better than that of SVM with T1. These results prove that the suggested approach is very effective for both SVM training and the classification problem of data imbalance.

서식처 적합모형을 적용한 고산지역 분비나무의 기후변화 영향평가 (Climate Change Impact Assessment of Abies nephrolepis (Trautv.) Maxim. in Subalpine Ecosystem using Ensemble Habitat Suitability Modeling)

  • 최재용;이상혁
    • 한국환경복원기술학회지
    • /
    • 제21권1호
    • /
    • pp.103-118
    • /
    • 2018
  • Ecosystems in subalpine regions are recognized as areas vulnerable to climatic changes because rainfall and the possibility of flora migration are very low due to the characteristics of topography in the regions. In this context, habitat niche was formulated for representative species of arbors in subalpine regions in order to understand the effects of climatic changes on alpine arbor ecosystems. The current potential habitats were modeled as future change areas according to the climatic change scenarios. Based on the growth conditions and environmental characteristics of the habitats, the study was conducted to identify direct and indirect causes affecting the habitat reduction of Abies nephrolepis. Diverse model algorithms for explanation of the relationship between the emergence of biological species and habitat environments were reviewed to construct the environmental data suitable for the six models(GLM, GAM, RF, MaxEnt, ANN, and SVM). Weights determined through TSS were applied to the six models for ensemble in an attempt to minimize the uncertainty of the models. Based on the current climate determined by averaging the climates over the past 30years(1981~2010) and the HadGEM-RA model was applied to fabricate bioclimatic variables for scenarios RCP 4.5 and 8.5 on the near and far future. The results of models of the alpine region tree species studied were put together and evaluated and the results indicated that a total of eight national parks such as Mt. Seorak, Odaesan, and Hallasan would be mainly affected by climatic changes. Changes in the Baekdudaegan reserves were analyzed and in the results, A. nephrolepis was predicted to be affected the most in the RCP8.5. The results of analysis as such are expected to be finally utilizable in the survey of biological species in the Korean peninsula, restoration and conservation strategies considering climatic changes as the analysis identified the degrees of impacts of climatic changes on subalpine region trees in Korean peninsula with very high conservation values.

Prediction of compressive strength of sustainable concrete using machine learning tools

  • Lokesh Choudhary;Vaishali Sahu;Archanaa Dongre;Aman Garg
    • Computers and Concrete
    • /
    • 제33권2호
    • /
    • pp.137-145
    • /
    • 2024
  • The technique of experimentally determining concrete's compressive strength for a given mix design is time-consuming and difficult. The goal of the current work is to propose a best working predictive model based on different machine learning algorithms such as Gradient Boosting Machine (GBM), Stacked Ensemble (SE), Distributed Random Forest (DRF), Extremely Randomized Trees (XRT), Generalized Linear Model (GLM), and Deep Learning (DL) that can forecast the compressive strength of ternary geopolymer concrete mix without carrying out any experimental procedure. A geopolymer mix uses supplementary cementitious materials obtained as industrial by-products instead of cement. The input variables used for assessing the best machine learning algorithm not only include individual ingredient quantities, but molarity of the alkali activator and age of testing as well. Myriad statistical parameters used to measure the effectiveness of the models in forecasting the compressive strength of ternary geopolymer concrete mix, it has been found that GBM performs better than all other algorithms. A sensitivity analysis carried out towards the end of the study suggests that GBM model predicts results close to the experimental conditions with an accuracy between 95.6 % to 98.2 % for testing and training datasets.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.