• 제목/요약/키워드: Bagging ensemble

검색결과 85건 처리시간 0.028초

앙상블 구성을 이용한 SVM 분류성능의 향상 (Improving SVM Classification by Constructing Ensemble)

  • 제홍모;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.251-258
    • /
    • 2003
  • Support Vector Machine(SVM)은 이론상으로 좋은 일반화 성능을 보이지만, 실제적으로 구현된 SVM은 이론적인 성능에 미치지 못한다. 주 된 이유는 시간, 공간상의 높은 복잡도로 인해 근사화된 알고리듬으로 구현하기 때문이다. 본 논문은 SVM의 분류성능을 향상시키기 위해 Bagging(Bootstrap aggregating)과 Boosting을 이용한 SVM 앙상블 구조의 구성을 제안한다. SVM 앙상블의 학습에서 Bagging은 각각의 SVM의 학습데이타는 전체 데이타 집합에서 임의적으로 일부 추출되며, Boosting은 SVM 분류기의 에러와 연관된 확률분포에 따라 학습데이타를 추출한다. 학습단계를 마치면 다수결 (Majority voting), 최소자승추정법(LSE:Least Square estimation), 2단계 계층적 SVM등의 기법에 개개의 SVM들의 출력 값들이 통합되어진다. IRIS 분류, 필기체 숫자인식, 얼굴/비얼굴 분류와 같은 여러 실험들의 결과들은 제안된 SVM 앙상블의 분류성능이 단일 SVM보다 뛰어남을 보여준다.

Rockfall Source Identification Using a Hybrid Gaussian Mixture-Ensemble Machine Learning Model and LiDAR Data

  • Fanos, Ali Mutar;Pradhan, Biswajeet;Mansor, Shattri;Yusoff, Zainuddin Md;Abdullah, Ahmad Fikri bin;Jung, Hyung-Sup
    • 대한원격탐사학회지
    • /
    • 제35권1호
    • /
    • pp.93-115
    • /
    • 2019
  • The availability of high-resolution laser scanning data and advanced machine learning algorithms has enabled an accurate potential rockfall source identification. However, the presence of other mass movements, such as landslides within the same region of interest, poses additional challenges to this task. Thus, this research presents a method based on an integration of Gaussian mixture model (GMM) and ensemble artificial neural network (bagging ANN [BANN]) for automatic detection of potential rockfall sources at Kinta Valley area, Malaysia. The GMM was utilised to determine slope angle thresholds of various geomorphological units. Different algorithms(ANN, support vector machine [SVM] and k nearest neighbour [kNN]) were individually tested with various ensemble models (bagging, voting and boosting). Grid search method was adopted to optimise the hyperparameters of the investigated base models. The proposed model achieves excellent results with success and prediction accuracies at 95% and 94%, respectively. In addition, this technique has achieved excellent accuracies (ROC = 95%) over other methods used. Moreover, the proposed model has achieved the optimal prediction accuracies (92%) on the basis of testing data, thereby indicating that the model can be generalised and replicated in different regions, and the proposed method can be applied to various landslide studies.

재무부실화 예측을 위한 랜덤 서브스페이스 앙상블 모형의 최적화 (Optimization of Random Subspace Ensemble for Bankruptcy Prediction)

  • 민성환
    • 한국IT서비스학회지
    • /
    • 제14권4호
    • /
    • pp.121-135
    • /
    • 2015
  • Ensemble classification is to utilize multiple classifiers instead of using a single classifier. Recently ensemble classifiers have attracted much attention in data mining community. Ensemble learning techniques has been proved to be very useful for improving the prediction accuracy. Bagging, boosting and random subspace are the most popular ensemble methods. In random subspace, each base classifier is trained on a randomly chosen feature subspace of the original feature space. The outputs of different base classifiers are aggregated together usually by a simple majority vote. In this study, we applied the random subspace method to the bankruptcy problem. Moreover, we proposed a method for optimizing the random subspace ensemble. The genetic algorithm was used to optimize classifier subset of random subspace ensemble for bankruptcy prediction. This paper applied the proposed genetic algorithm based random subspace ensemble model to the bankruptcy prediction problem using a real data set and compared it with other models. Experimental results showed the proposed model outperformed the other models.

다중 스태킹을 가진 새로운 앙상블 학습 기법 (A New Ensemble Machine Learning Technique with Multiple Stacking)

  • 이수은;김한준
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.1-13
    • /
    • 2020
  • 기계학습(machine learning)이란 주어진 데이터에 대한 일반화 과정으로부터 특정 문제를 해결할 수 있는 모델(model) 생성 기술을 의미한다. 우수한 성능의 모델을 생성하기 위해서는 양질의 학습데이터와 일반화 과정을 위한 학습 알고리즘이 준비되어야 한다. 성능 개선을 위한 한 가지 방법으로서 앙상블(Ensemble) 기법은 단일 모델(single model)을 생성하기보다 다중 모델을 생성하며, 이는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 학습 기법을 포함한다. 본 논문은 기존 스태킹 기법을 개선한 다중 스태킹 앙상블(Multiple Stacking Ensemble) 학습 기법을 제안한다. 다중 스태킹 앙상블 기법의 학습 구조는 딥러닝 구조와 유사하고 각 레이어가 스태킹 모델의 조합으로 구성되며 계층의 수를 증가시켜 각 계층의 오분류율을 최소화하여 성능을 개선한다. 4가지 유형의 데이터셋을 이용한 실험을 통해 제안 기법이 기존 기법에 비해 분류 성능이 우수함을 보인다.

데이터 전처리와 앙상블 기법을 통한 불균형 데이터의 분류모형 비교 연구 (A Comparison of Ensemble Methods Combining Resampling Techniques for Class Imbalanced Data)

  • 이희재;이성임
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.357-371
    • /
    • 2014
  • 최근 들어 데이터 마이닝의 분류문제에 있어 목표변수의 불균형 문제가 많은 관심을 받고 있다. 이러한 문제를 해결하기 위해, 이전 연구들은 원 자료에 대하여 데이터 전처리 과정을 실시했는데, 전처리 과정에는 목표변수의 다수계급을 소수계급의 비율에 맞게 조정하는 과소표집법, 소수계급을 복원추출하여 다수계급의 비율에 맞게 조정하는 과대표집법, 소수계급에 K-최근접 이웃 방법 등을 활용하여 과대표집법을 적용 후 다수계급에는 과소표집법을 적용한 하이브리드 기법 등이 있다. 또한 앙상블 기법도 이러한 불균형 데이터의 분류 성능을 높일 수 있다고 알려져 있어, 본 논문에서는 데이터의 전처리 과정과 앙상블 기법을 함께 고려한 여러 모형들을 사용하여, 불균형 자료에 대한 이들모형의 분류성능을 비교평가한다.

원거리 감독과 능동 배깅을 이용한 개체명 인식 (Named Entity Recognition Using Distant Supervision and Active Bagging)

  • 이성희;송영길;김학수
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.269-274
    • /
    • 2016
  • 개체명 인식은 문장에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 개체명 인식 연구는 주로 지도 학습 기법이 사용되어 왔다. 지도 학습을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 학습 말뭉치를 수동으로 구축하는 것은 시간과 인력이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하면서 개체명 인식 성능을 빠르게 향상시키기 위한 준지도 학습 방법을 제안한다. 제안 방법은 초기 학습 말뭉치를 구축하기 위해 원거리 감독법을 사용한다. 그리고 배깅과 능동 학습을 결합한 앙상블 기법의 하나인 능동 배깅을 사용하여 초기 학습 말뭉치에 포함된 노이즈 문장을 효과적으로 제거한다. 실험 결과, 15회의 능동 배깅을 통해 개체명 인식 F1-점수를 67.36%에서 76.42%로 향상시켰다.

원전 증기발생기 세관 결함 크기 예측을 위한 Bagging 신경회로망에 관한 연구 (A Study on Bagging Neural Network for Predicting Defect Size of Steam Generator Tube in Nuclear Power Plant)

  • 김경진;조남훈
    • 비파괴검사학회지
    • /
    • 제30권4호
    • /
    • pp.302-310
    • /
    • 2010
  • 본 논문에서는 원자력 발전소 증기발생기 세관에 발생할 수 있는 결함의 크기측정에 사용되는 Bagging 신경회로망에 대한 연구를 수행하였다. Bagging은 부트스트랩(bootstrap) 샘플링에 기반을 둔 추정기 앙상블을 생성하는 방법이다. 증기발생기 세관의 결함 크기측정을 위하여 다양한 폭과 깊이를 갖는 4가지 결함패턴의 eddy current testing 신호를 생성하였다. 그 다음, 단일 신경회로망(single neural network; SNN)과 Bagging 신경회로망(Bagging neural network; BNN)을 구성하여 각 결함의 폭과 깊이를 추정하였다. SNN과 BNN 추정성능은 최대오차를 이용해서 측정하였다. 실험결과, 결함 깊이 추정시의 SNN과 BNN 최대오차는 0.117mm와 0.089mm 이었다. 또한, 결함 폭 추정 시에는 SNN과 BNN 최대오차는 0.494mm와 0.306mm 이었다. 이러한 실험결과는 BNN 추정성능이 SNN 추정성능보다 우수하다는 것을 보여준다.

연속형 반응변수를 위한 데이터마이닝 방법 성능 향상 연구 (A study for improving data mining methods for continuous response variables)

  • 최진수;이석형;조형준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.917-926
    • /
    • 2010
  • 배깅과 부스팅의 기법은 예측력을 향상 시킨다고 알려져 있다. 이는 비교 실험을 통하여 성능이 검증 되었는데, 목표변수가 범주형인 경우에 특정 의사결정나무 알고리즘인 회귀분류나무만 주로 고려되었다. 본 논문에서는 의사결정나무 외에도 다른 데이터마이닝 방법도 고려하여 목표변수가 연속형인 경우에 배깅과 부스팅 기법의 성능 검증을 위한 비교 실험을 실시하였다. 구체적으로, 데이터마이닝 알고리즘 기법인 선형회귀, 의사결정나무, 신경망에 배깅 및 부스팅 앙상블 기법을 결합하여 8개의 데이터를 비교 분석하였다. 실험 결과로 연속형 자료에 대한 여러 데이터마이닝 알고리즘에도 배깅과 부스팅의 기법이 성능 향상에 도움이 되는 것으로 확인되었다.

A Study on Korean Sentiment Analysis Rate Using Neural Network and Ensemble Combination

  • Sim, YuJeong;Moon, Seok-Jae;Lee, Jong-Youg
    • International Journal of Advanced Culture Technology
    • /
    • 제9권4호
    • /
    • pp.268-273
    • /
    • 2021
  • In this paper, we propose a sentiment analysis model that improves performance on small-scale data. A sentiment analysis model for small-scale data is proposed and verified through experiments. To this end, we propose Bagging-Bi-GRU, which combines Bi-GRU, which learns GRU, which is a variant of LSTM (Long Short-Term Memory) with excellent performance on sequential data, in both directions and the bagging technique, which is one of the ensembles learning methods. In order to verify the performance of the proposed model, it is applied to small-scale data and large-scale data. And by comparing and analyzing it with the existing machine learning algorithm, Bi-GRU, it shows that the performance of the proposed model is improved not only for small data but also for large data.

수문기상정보를 이용한 여름 유량의 Ensemble 예측 (Ensemble Forecasting of Summer Seasonal Streamflow Using Hydroclimatic Information)

  • 권현한;문영일
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.1455-1459
    • /
    • 2006
  • 우리나라 수자원 관리에서 여름 유량은 이수 및 치수 측면에서 매우 중요한 역할을 한다. 이러한 점에서 여름유량의 예측 가능성을 검토하는 것은 수자원 관리에 유연성을 주는 동시에 상대적으로 위험도를 저감시킬 수 있는 역할을 할 수 있다. 따라서 본 연구의 목적은 여름 계절 유량을 대상으로 기상인자와의 상관성 분석을 통해 유량 예측을 위한 수문기상정보(hydroclimatics)를 전 지구적으로 검토하고 최종적으로 불확실성을 고려할 수 있는 Ensemble예측을 실시하고자 한다. Ensemble예측은 설정 가능한 입력 자료를 통하여 다수의 출력자료를 얻는 방법론으로서 불확실성이 큰 기상 및 수문기상자료 분석에 주로 이용되고 있다. 본 연구에서는 해수면온도(sea surface temperature), 해수면기압(sea level pressure)과 방출장파복사에너지(outgoing longwave radiation)를 주요 기상인자로 고려하였으며 예측모형으로서는 Cross Ensemble(out of bagging)방법에 근거한 Support Vector Machine 모형을 이용하였다. 분석결과 주요 기상인자와 50%이상의 상관관계를 보이고 있으며 다소 합리적인 예측 결과를 제시하여 주고 있어 수자원관리를 위한 보조수단으로 이용이 가능할 것으로 사료된다.

  • PDF