• 제목/요약/키워드: AdaBoost learning

검색결과 78건 처리시간 0.034초

기업부실 예측 데이터의 불균형 문제 해결을 위한 앙상블 학습 (Ensemble Learning for Solving Data Imbalance in Bankruptcy Prediction)

  • 김명종
    • 지능정보연구
    • /
    • 제15권3호
    • /
    • pp.1-15
    • /
    • 2009
  • 데이터 불균형 문제는 분류 및 예측 문제에서 하나의 범주에 속하는 표본의 수가 다른 범주들에 속하는 표본 수에 비하여 현저하게 적을 경우 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류 경계영역이 왜곡되고 결과적으로 분류자의 학습성과가 저하되는 문제가 발생한다. 본 연구에서는 데이터 불균형 문제를 해결하기 위하여 Geometric Mean-based Boosting (GM-Boost) 알고리즘을 제안하고자 한다. GM-Boost 알고리즘은 기하평균 개념에 기초하고 있어 다수 범주와 소수 범주를 동시에 고려한 학습이 가능하고 오분류된 표본에 집중하여 학습을 강화할 수 있는 장점이 있다. 기업부실 예측문제를 활용하여 GM-Boost 알고리즘의 성과를 검증한 결과 기존의Under-Sampling, Over-Sampling 및 AdaBoost 알고리즘에 비하여 우수한 분류 정확성을 보여주었고 데이터 불균형 정도에 관계없이 견고한 학습성과를 나타냈다.

  • PDF

Estimation of compressive strength of BFS and WTRP blended cement mortars with machine learning models

  • Ozcan, Giyasettin;Kocak, Yilmaz;Gulbandilar, Eyyup
    • Computers and Concrete
    • /
    • 제19권3호
    • /
    • pp.275-282
    • /
    • 2017
  • The aim of this study is to build Machine Learning models to evaluate the effect of blast furnace slag (BFS) and waste tire rubber powder (WTRP) on the compressive strength of cement mortars. In order to develop these models, 12 different mixes with 288 specimens of the 2, 7, 28, and 90 days compressive strength experimental results of cement mortars containing BFS, WTRP and BFS+WTRP were used in training and testing by Random Forest, Ada Boost, SVM and Bayes classifier machine learning models, which implement standard cement tests. The machine learning models were trained with 288 data that acquired from experimental results. The models had four input parameters that cover the amount of Portland cement, BFS, WTRP and sample ages. Furthermore, it had one output parameter which is compressive strength of cement mortars. Experimental observations from compressive strength tests were compared with predictions of machine learning methods. In order to do predictive experimentation, we exploit R programming language and corresponding packages. During experimentation on the dataset, Random Forest, Ada Boost and SVM models have produced notable good outputs with higher coefficients of determination of R2, RMS and MAPE. Among the machine learning algorithms, Ada Boost presented the best R2, RMS and MAPE values, which are 0.9831, 5.2425 and 0.1105, respectively. As a result, in the model, the testing results indicated that experimental data can be estimated to a notable close extent by the model.

AdaBoost 알고리즘과 레이더 데이터를 이용한 채프에코 식별에 관한 연구 (A Study on Chaff Echo Detection using AdaBoost Algorithm and Radar Data)

  • 이한수;김종근;유정원;정영상;김성신
    • 한국지능시스템학회논문지
    • /
    • 제23권6호
    • /
    • pp.545-550
    • /
    • 2013
  • 패턴 인식 분야에 있어서 데이터 분류는 해당 데이터에서 유용한 정보를 추출하기 위해서 반드시 수행해야 하는 과정 중 하나이다. AdaBoost 알고리즘은 Boosting 알고리즘을 실제 데이터 분석에 이용할 수 있도록 개량한 것으로, Random guessing이나 Random forest와 같이 정확한 결과를 도출할 확률이 50%보다 조금 높은 약한 분류기와 가중치 값의 조합을 통해 높은 분류 성능을 가지는 강한 분류기를 생성하는 방법을 뜻한다. 본 논문에서는 AdaBoost 알고리즘을 이용하여 비강수에코 중 강수에코와 그 특성이 유사하여 기상 예보를 수행하는 데 방해가 되는 채프에코를 식별하는 알고리즘의 구현에 대한 연구를 수행하였다. 기상 현상 관측을 위해 사용하는 레이더 데이터를 정적 클러스터링과 동적 클러스터링 과정을 통해서 유사도를 기반으로 한 클러스터를 생성한 후, 이를 예보관의 채프에코 판별 결과에 따라 채프에코와 비채프에코로 나누어 학습 데이터를 구성한 후 AdaBoost 알고리즘에 적용하여 분류기를 구현하였다. 제안한 AdaBoost 알고리즘의 성능을 검증하기 위하여 실제 채프에코가 발생한 레이더 데이터를 적용하였으며, 실험 결과를 통해서 제안한 알고리즘이 효과적으로 채프에코를 분류할 수 있음을 확인하였다.

Forecasting KOSPI Return Using a Modified Stochastic AdaBoosting

  • Bae, Sangil;Jeong, Minsoo
    • East Asian Economic Review
    • /
    • 제25권4호
    • /
    • pp.403-424
    • /
    • 2021
  • AdaBoost tweaks the sample weight for each training set used in the iterative process, however, it is demonstrated that it provides more correlated errors as the boosting iteration proceeds if models' accuracy is high enough. Therefore, in this study, we propose a novel way to improve the performance of the existing AdaBoost algorithm by employing heterogeneous models and a stochastic twist. By employing the heterogeneous ensemble, it ensures different models that have a different initial assumption about the data are used to improve on diversity. Also, by using a stochastic algorithm with a decaying convergence rate, the model is designed to balance out the trade-off between model prediction performance and model convergence. The result showed that the stochastic algorithm with decaying convergence rate's did have a improving effect and outperformed other existing boosting techniques.

샘플 군집화를 이용한 개선된 아다부스트 알고리즘 (An Improved AdaBoost Algorithm by Clustering Samples)

  • 백열민;김중근;김회율
    • 방송공학회논문지
    • /
    • 제18권4호
    • /
    • pp.643-646
    • /
    • 2013
  • 본 논문에서는 아다부스트의 과적합 문제를 해결하기 위해 샘플 군집화를 이용한 개선된 아다부스트 알고리즘을 제안한다. 아다부스트는 다양한 객체 검출 방법에서 좋은 성능을 보이는 방법으로 알려져 있지만 훈련 샘플에 노이즈가 존재하는 경우 과적합 현상이 발생하는 문제가 있다. 이를 해결하기 위해 제안하는 방법은 우선 훈련 샘플의 긍정 샘플을 k-평균 군집화 알고리즘을 이용하여 K개의 군집으로 나눈다. 이후 아다부스트의 약분류기 훈련 시 K개의 군집 중 훈련 오차를 최소화하는 하나의 군집만을 선택하여 사용한다. 이로써, 제안하는 방법은 매 회 반복되는 약분류기의 훈련 시 훈련 샘플들이 과분할 되는 것과 노이즈 샘플이 훈련에 사용되는 것을 방지함으로써 기존 아다부스트의 과적합 현상을 효과적으로 줄여준다. 실험 결과, 제안하는 방법은 다양한 실제 데이터셋에서 기존의 부스팅 기반 방법들에 비해 더 나은 분류 성능 및 일반화 성능을 보여주었다.

모노 카메라 영상기반 시간 간격 윈도우를 이용한 광역 및 지역 특징 벡터 적용 AdaBoost기반 제스처 인식 (AdaBoost-based Gesture Recognition Using Time Interval Window Applied Global and Local Feature Vectors with Mono Camera)

  • 황승준;고하윤;백중환
    • 한국정보통신학회논문지
    • /
    • 제22권3호
    • /
    • pp.471-479
    • /
    • 2018
  • 최근 안드로이드, iOS 등의 셋톱박스 기반의 스마트 TV에 대한 보급에 따라 제스처로 TV를 컨트롤 할 수 있는 새로운 접근을 제안한다. 본 논문에서는 모노 카메라 센서를 이용한 AdaBoost 기반 제스처 인식에 관한 알고리즘을 제안한다. 우선, 신체 좌표 추출을 위해 가우시안 배경 제거 및 Camshift 기반 자세 추적 및 추정 알고리즘을 사용한다. AdaBoost 학습 모델을 신체 정규화된 광역 및 지역 특징 벡터의 집합을 특징 패턴으로 하여, 속도가 다른 동작들을 인식할 수 있도록 하였다. 또한 속도가 다른 다양한 제스처를 인식하기 위해 다중 AdaBoost 알고리즘을 적용하였다. CART 알고리즘을 이용하여 성공적인 중요 특징 벡터를 확인하고 중요도가 낮은 특징벡터를 제거하는 방식을 적용하면서 분류 성공률이 높은 최적의 특징 벡터를 탐색하였다. 그 결과 24개의 주성분 특징 벡터를 찾았으며, 기존 알고리즘에 비해 낮은 오분류율(3.73%)과 높은 인식률(95.17%)을 지닌 특징 벡터 및 분류기를 설계하였다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

기업부도 예측 앙상블 모형의 최적화 (The Optimization of Ensembles for Bankruptcy Prediction)

  • 김명종;윤우섭
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.39-57
    • /
    • 2022
  • 본 연구에서는 범주 불균형 문제가 내재된 기업부도 예측 AdaBoost 앙상블 모형의 성과를 개선하기 위하여 GMOPTBoost 알고리즘을 제안한다. AdaBoost 알고리즘은 오분류 표본에 대하여 강건한 학습기회를 제공한다는 장점이 있지만, 산술평균 정확도에 기반하기 때문에 범주 불균형 문제를 효과적으로 해결하지 못한다는 한계점이 존재한다. GMOPTBoost는 가우시안 경사하강법(Gaussian gradient descent)을 적용하여 기하평균 정확도를 최적화하고 범주 불균형 문제를 효과적으로 해결할 수 있다는 장점이 있다. 본 연구에서는 첫째, 범주 불균형 문제가 예측 모형의 성과에 미치는 효과와 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 5개의 범주 불균형 데이터를 구성하였으며, 둘째, 범주 균형 데이터에 대한 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 데이터 샘플링 기법을 통하여 구성된 균형 데이터를 구성하였다. 30회의 교차타당성 분석의 주요 결과는 다음과 같다. 첫째, 범주 불균형 문제는 예측 성과에 부정적인 영향을 미친다. 둘째, GMOPTBoost는 불균형 데이터에 적용된 AdaBoost의 성과를 유의적으로 개선시키는 긍정적인 효과를 제공한다. 셋째, 데이터 샘플링 기법은 성과 개선에 긍정적인 영향을 미친다. 마지막으로 데이터 샘플링 기법을 적용한 범주 균형 데이터에서도 GMOPTBoost는 유의적인 성과 개선에 기여한다.

시각장애인을 위한 딥러닝 기반 표지판 검출 및 인식 (Deep Learning Based Sign Detection and Recognition for the Blind)

  • 전태재;이상윤
    • 전자공학회논문지
    • /
    • 제54권2호
    • /
    • pp.115-122
    • /
    • 2017
  • 본 논문은 딥러닝 알고리즘을 기반으로 하여 시각장애인을 위한 표지판을 검출하고 인식하는 시스템을 제안한다. 제안된 시스템은 크게 표지판 검출 단계와 표지판 인식 단계로 나눠지는데 표지판 검출 단계에서는 영상에서 응집 채널 특징을 추출한 뒤 아다부스트 분류기를 적용하여 표지판 관심영역을 검출하였고, 표지판 인식 단계에서는 검출한 표지판 관심영역들에 합성곱 신경망을 적용하여 어떤 표지판인지 인식하였다. 본 논문에서는 미검출된 표지판의 개수가 최대한 감소하도록 아다부스트 분류기를 설계하였고, 딥러닝 알고리즘을 사용하여 인식 정확도를 높임으로써 검출 단계에서 발생한 양성 오류들을 제거시켰다. 실험 결과, 제안된 방법의 양성 오류 개수가 다른 방법들의 양성 오류 개수보다 효과적으로 감소했음을 확인하였다.

A Novel Red Apple Detection Algorithm Based on AdaBoost Learning

  • Kim, Donggi;Choi, Hongchul;Choi, Jaehoon;Yoo, Seong Joon;Han, Dongil
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권4호
    • /
    • pp.265-271
    • /
    • 2015
  • This study proposes an algorithm for recognizing apple trees in images and detecting apples to measure the number of apples on the trees. The proposed algorithm explores whether there are apple trees or not based on the number of image block-unit edges, and then it detects apple areas. In order to extract colors appropriate for apple areas, the CIE $L^*a^*b^*$ color space is used. In order to extract apple characteristics strong against illumination changes, modified census transform (MCT) is used. Then, using the AdaBoost learning algorithm, characteristics data on the apples are learned and generated. With the generated data, the detection of apple areas is made. The proposed algorithm has a higher detection rate than existing pixel-based image processing algorithms and minimizes false detection.