• 제목/요약/키워드: ensemble method

검색결과 508건 처리시간 0.031초

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

Stacking Ensemble Learning을 활용한 블록 탑재 시수 예측 (A Study on the Work-time Estimation for Block Erections Using Stacking Ensemble Learning)

  • 권혁천;유원선
    • 대한조선학회논문집
    • /
    • 제56권6호
    • /
    • pp.488-496
    • /
    • 2019
  • The estimation of block erection work time at a dock is one of the important factors when establishing or managing the total shipbuilding schedule. In order to predict the work time, it is a natural approach that the existing block erection data would be used to solve the problem. Generally the work time per unit is the product of coefficient value, quantity, and product value. Previously, the work time per unit is determined statistically by unit load data. However, we estimate the work time per unit through work time coefficient value from series ships using machine learning. In machine learning, the outcome depends mainly on how the training data is organized. Therefore, in this study, we use 'Feature Engineering' to determine which one should be used as features, and to check their influence on the result. In order to get the coefficient value of each block, we try to solve this problem through the Ensemble learning methods which is actively used nowadays. Among the many techniques of Ensemble learning, the final model is constructed by Stacking Ensemble techniques, consisting of the existing Ensemble models (Decision Tree, Random Forest, Gradient Boost, Square Loss Gradient Boost, XG Boost), and the accuracy is maximized by selecting three candidates among all models. Finally, the results of this study are verified by the predicted total work time for one ship among the same series.

배깅 및 스태킹 기반 앙상블 기계학습법을 이용한 고성능 콘크리트 압축강도 예측모델 개발 (Development of a High-Performance Concrete Compressive-Strength Prediction Model Using an Ensemble Machine-Learning Method Based on Bagging and Stacking)

  • 곽윤지;고채연;곽신영;임승현
    • 한국전산구조공학회논문집
    • /
    • 제36권1호
    • /
    • pp.9-18
    • /
    • 2023
  • 고성능 콘크리트(HPC) 압축강도는 추가적인 시멘트질 재료의 사용으로 인해 예측하기 어렵고, 개선된 예측 모델의 개발이 필수적이다. 따라서, 본 연구의 목적은 배깅과 스태킹을 결합한 앙상블 기법을 사용하여 HPC 압축강도 예측 모델을 개발하는 것이다. 이 논문의 핵심적 기여는 기존 앙상블 기법인 배깅과 스태킹을 통합하여 새로운 앙상블 기법을 제시하고, 단일 기계학습 모델의 문제점을 해결하여 모델 예측 성능을 높이고자 한다. 단일 기계학습법으로 비선형 회귀분석, 서포트 벡터 머신, 인공신경망, 가우시안 프로세스 회귀를 사용하고, 앙상블 기법으로 배깅, 스태킹을 이용하였다. 결과적으로 본 연구에서 제안된 모델이 단일 기계학습 모델, 배깅 및 스태킹 모델보다 높은 정확도를 보였다. 이는 대표적인 4가지 성능 지표 비교를 통해 확인하였고, 제안된 방법의 유효성을 검증하였다.

A Genetic Algorithm-based Classifier Ensemble Optimization for Activity Recognition in Smart Homes

  • Fatima, Iram;Fahim, Muhammad;Lee, Young-Koo;Lee, Sungyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권11호
    • /
    • pp.2853-2873
    • /
    • 2013
  • Over the last few years, one of the most common purposes of smart homes is to provide human centric services in the domain of u-healthcare by analyzing inhabitants' daily living. Currently, the major challenges in activity recognition include the reliability of prediction of each classifier as they differ according to smart homes characteristics. Smart homes indicate variation in terms of performed activities, deployed sensors, environment settings, and inhabitants' characteristics. It is not possible that one classifier always performs better than all the other classifiers for every possible situation. This observation has motivated towards combining multiple classifiers to take advantage of their complementary performance for high accuracy. Therefore, in this paper, a method for activity recognition is proposed by optimizing the output of multiple classifiers with Genetic Algorithm (GA). Our proposed method combines the measurement level output of different classifiers for each activity class to make up the ensemble. For the evaluation of the proposed method, experiments are performed on three real datasets from CASAS smart home. The results show that our method systematically outperforms single classifier and traditional multiclass models. The significant improvement is achieved from 0.82 to 0.90 in the F-measures of recognized activities as compare to existing methods.

법음성학에서의 오디오 신호의 위변조 구간 자동 검출 방법 연구 (An Automatic Method of Detecting Audio Signal Tampering in Forensic Phonetics)

  • 양일호;김경화;김명재;백록선;허희수;유하진
    • 말소리와 음성과학
    • /
    • 제6권2호
    • /
    • pp.21-28
    • /
    • 2014
  • We propose a novel scheme for digital audio authentication of given audio files which are edited by inserting small audio segments from different environmental sources. The purpose of this research is to detect inserted sections from given audio files. We expect that the proposed method will assist human investigators by notifying suspected audio section which considered to be recorded or transmitted on different environments. GMM-UBM and GSV-SVM are applied for modeling the dominant environment of a given audio file. Four kinds of likelihood ratio based scores and SVM score are used to measure the likelihood for a dominant environment model. We also use an ensemble score which is a combination of the aforementioned five kinds of scores. In the experimental results, the proposed method shows the lowest average equal error rate when we use the ensemble score. Even when dominant environments were unknown, the proposed method gives a similar accuracy.

고차원 데이터에서 One-class SVM과 Spectral Clustering을 이용한 이진 예측 이상치 탐지 방법 (A Binary Prediction Method for Outlier Detection using One-class SVM and Spectral Clustering in High Dimensional Data)

  • 박정희
    • 한국멀티미디어학회논문지
    • /
    • 제25권6호
    • /
    • pp.886-893
    • /
    • 2022
  • Outlier detection refers to the task of detecting data that deviate significantly from the normal data distribution. Most outlier detection methods compute an outlier score which indicates the degree to which a data sample deviates from normal. However, setting a threshold for an outlier score to determine if a data sample is outlier or normal is not trivial. In this paper, we propose a binary prediction method for outlier detection based on spectral clustering and one-class SVM ensemble. Given training data consisting of normal data samples, a clustering method is performed to find clusters in the training data, and the ensemble of one-class SVM models trained on each cluster finds the boundaries of the normal data. We show how to obtain a threshold for transforming outlier scores computed from the ensemble of one-class SVM models into binary predictive values. Experimental results with high dimensional text data show that the proposed method can be effectively applied to high dimensional data, especially when the normal training data consists of different shapes and densities of clusters.

Word2vec과 앙상블 분류기를 사용한 효율적 한국어 감성 분류 방안 (Effective Korean sentiment classification method using word2vec and ensemble classifier)

  • 박성수;이건창
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.133-140
    • /
    • 2018
  • 감성 분석에서 정확한 감성 분류는 중요한 연구 주제이다. 본 연구는 최근 많은 연구가 이루어지는 word2vec과 앙상블 방법을 이용하여 효과적으로 한국어 리뷰를 감성 분류하는 방법을 제시한다. 연구는 20 만 개의 한국 영화 리뷰 텍스트에 대해, 품사 기반 BOW 자질과 word2vec를 사용한 자질을 생성하고, 두 개의 자질 표현을 결합한 통합 자질을 생성했다. 감성 분류를 위해 Logistic Regression, Decision Tree, Naive Bayes, Support Vector Machine의 단일 분류기와 Adaptive Boost, Bagging, Gradient Boosting, Random Forest의 앙상블 분류기를 사용하였다. 연구 결과로 형용사와 부사를 포함한 BOW자질과 word2vec자질로 구성된 통합 자질 표현이 가장 높은 감성 분류 정확도를 보였다. 실증결과, 단일 분류기인 SVM이 가장 높은 성능을 나타내었지만, 앙상블 분류기는 단일 분류기와 비슷하거나 약간 낮은 성능을 보였다.

Support Vector Machine을 이용한 문맥 인지형 융합 (Context-Aware Fusion with Support Vector Machine)

  • 허경용;김성훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.19-26
    • /
    • 2014
  • 앙상블 분류기는 여러 개의 분류기에서의 예측 결과를 결합함으로써 단일 분류기에 비해 신뢰성 높은 예측 결과를 얻을 수 있는 방법으로 널리 사용되고 있다. 앙상블 분류기를 위해서는 여러 가지 방법이 사용되고 있으며 흔히 사용되는 방법으로는 부스팅이 있다. 하지만 부스팅은 단계적인 학습을 통해 이전 단계에서 잘못 분류된 샘플들을 다음 단계에서 다시 분류하는 방식으로 이전 단계로의 피드백이 불완전한 순차적인 방법이라는 한계가 있다. 이 논문에서는 단일 분류기 중 가장 성능이 좋은 것으로 알려진 SVM을 기본분류기로 사용하여 동시에 여러개의 SVM을 학습하는 문맥 감지형 SVM 앙상블알고리즘을 제안한다. 제안하는 방법에서는 특징 공간을 문맥으로 나누는 클러스터링과 SVM 학습을 동시에 진행하므로 특징 공간 분할과 학습이 서로의 결과를 사용할 수 있어 기존 앙상블학습에 비해 더 나은 결과를 얻을 수 있으며 이는 실험 결과를 통해 확인할 수 있다.

암 분류를 위한 음의 상관관계 특징을 이용한 앙상블 분류기 (Ensemble Classifier with Negatively Correlated Features for Cancer Classification)

  • 원홍희;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권12호
    • /
    • pp.1124-1134
    • /
    • 2003
  • 최근의 DNA 마이크로어레이 기술로 많은 양의 유전자 데이타를 얻을 수 있는데, 특히 암의 진단과 치료에 적용되어 암의 정확한 분류에 많은 도움을 줄 것으로 기대된다. DNA로부터 얻어지는 유전자 데이타의 양은 매우 방대하므로 이를 효과적으로 분석하는 것은 매우 중요하다. 암의 분류는 진단과 치료에 있어 매우 중요하므로 하나의 분류기에 의존한 분류 결과보다는 다수의 전문화된 분류기 결과를 결합하여 결과를 도출하는 것이 바람직하다. 일반적으로 분류기를 결합함으로써 분류 성능 및 분류 결과에 대한 신뢰도를 높일 수 있다. 앙상블 분류기의 많은 장점에도 불구하고, 오류 의존적인 분류기의 결합은 성능 향상에 한계가 있다. 본 논문에서는 암을 정확하게 분류하기 위해서 음의 상관관계를 갖는 특징으로 학습한 신경망 분류기를 결합하는 방법을 제안하고, 제안한 방법의 유용성을 체계적으로 분석하고자 한다. 세 가지 벤치마크 암 데이타에 대하여 제안한 방법을 적용하여 실험한 결과, 음의 상관관계 특징을 이용한 앙상블 분류기가 다른 분류기보다 높은 성능을 내는 것을 확인할 수 있었다.

Performance Enhancement of Automatic Wood Classification of Korean Softwood by Ensembles of Convolutional Neural Networks

  • Kwon, Ohkyung;Lee, Hyung Gu;Yang, Sang-Yun;Kim, Hyunbin;Park, Se-Yeong;Choi, In-Gyu;Yeo, Hwanmyeong
    • Journal of the Korean Wood Science and Technology
    • /
    • 제47권3호
    • /
    • pp.265-276
    • /
    • 2019
  • In our previous study, the LeNet3 model successfully classified images from the transverse surfaces of five Korean softwood species (cedar, cypress, Korean pine, Korean red pine, and larch). However, a practical limitation exists in our system stemming from the nature of the training images obtained from the transverse plane of the wood species. In real-world applications, it is necessary to utilize images from the longitudinal surfaces of lumber. Thus, we improved our model by training it with images from the longitudinal and transverse surfaces of lumber. Because the longitudinal surface has complex but less distinguishable features than the transverse surface, the classification performance of the LeNet3 model decreases when we include images from the longitudinal surfaces of the five Korean softwood species. To remedy this situation, we adopt ensemble methods that can enhance the classification performance. Herein, we investigated the use of ensemble models from the LeNet and MiniVGGNet models to automatically classify the transverse and longitudinal surfaces of the five Korean softwoods. Experimentally, the best classification performance was achieved via an ensemble model comprising the LeNet2, LeNet3, and MiniVGGNet4 models trained using input images of $128{\times}128{\times}3pixels$ via the averaging method. The ensemble model showed an F1 score greater than 0.98. The classification performance for the longitudinal surfaces of Korean pine and Korean red pine was significantly improved by the ensemble model compared to individual convolutional neural network models such as LeNet3.