• 제목/요약/키워드: Model Ensemble

검색결과 638건 처리시간 0.026초

GDAPS 앙상블 예보 시스템을 이용한 북서태평양에서의 태풍 발생 계절 예측 (Seasonal Prediction of Tropical Cyclone Frequency in the Western North Pacific using GDAPS Ensemble Prediction System)

  • 김지선;권혁조
    • 대기
    • /
    • 제17권3호
    • /
    • pp.269-279
    • /
    • 2007
  • This study investigates the possibility of seasonal prediction for tropical cyclone activity in the western North Pacific by using a dynamical modeling approach. We use data from the SMIP/HFP (Seasonal Prediction Model Inter-comparison Project/Historical Forecast Project) experiment with the Korea Meteorological Administration's GDAPS (Global Data Assimilation and Prediction System) T106 model, focusing our analysis on model-generated tropical cyclones. It is found that the prediction depends primarily on the tropical cyclone (TC) detecting criteria. Additionally, a scaling factor and a different weighting to each ensemble member are found to be essential for the best predictions of summertime TC activity. This approach indeed shows a certain skill not only in the category forecast but in the standard verifications such as Brier score and relative operating characteristics (ROC).

Incorporating BERT-based NLP and Transformer for An Ensemble Model and its Application to Personal Credit Prediction

  • Sophot Ky;Ju-Hong Lee;Kwangtek Na
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.9-15
    • /
    • 2024
  • Tree-based algorithms have been the dominant methods used build a prediction model for tabular data. This also includes personal credit data. However, they are limited to compatibility with categorical and numerical data only, and also do not capture information of the relationship between other features. In this work, we proposed an ensemble model using the Transformer architecture that includes text features and harness the self-attention mechanism to tackle the feature relationships limitation. We describe a text formatter module, that converts the original tabular data into sentence data that is fed into FinBERT along with other text features. Furthermore, we employed FT-Transformer that train with the original tabular data. We evaluate this multi-modal approach with two popular tree-based algorithms known as, Random Forest and Extreme Gradient Boosting, XGBoost and TabTransformer. Our proposed method shows superior Default Recall, F1 score and AUC results across two public data sets. Our results are significant for financial institutions to reduce the risk of financial loss regarding defaulters.

부도 예측을 위한 앙상블 분류기 개발 (Developing an Ensemble Classifier for Bankruptcy Prediction)

  • 민성환
    • 한국산업정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.139-148
    • /
    • 2012
  • 분류기의 앙상블 학습은 여러 개의 서로 다른 분류기들의 조합을 통해 만들어진다. 앙상블 학습은 기계학습 분야에서 많은 관심을 끌고 있는 중요한 연구주제이며 대부분의 경우에 있어서 앙상블 모형은 개별 기저 분류기보다 더 좋은 성과를 내는 것으로 알려져 있다. 본 연구는 부도 예측 모형의 성능개선에 관한 연구이다. 이를 위해 본 연구에서는 단일 모형으로 그 우수성을 인정받고 있는 SVM을 기저 분류기로 사용하는 앙상블 모형에 대해 고찰하였다. SVM 모형의 성능 개선을 위해 bagging과 random subspace 모형을 부도 예측 문제에 적용해 보았으며 bagging 모형과 random subspace 모형의 성과 개선을 위해 bagging과 random subspace의 통합 모형을 제안하였다. 제안한 모형의 성과를 검증하기 위해 실제 기업의 부도 예측 데이터를 사용하여 실험하였고, 실험 결과 본 연구에서 제안한 새로운 형태의 통합 모형이 가장 좋은 성과를 보임을 알 수 있었다.

앙상블 기법을 통한 잉글리시 프리미어리그 경기결과 예측 (Prediction of English Premier League Game Using an Ensemble Technique)

  • 이재현;이수원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권5호
    • /
    • pp.161-168
    • /
    • 2020
  • 스포츠 경기 결과예측은 전반적인 경기의 흐름과 승패에 영향을 미치는 변인들의 분석을 통해 팀의 전략 수립을 가능하게 해준다. 이와 같은 스포츠 경기결과 예측에 대한 연구는 주로 통계학적 기법과 기계학습 기법을 활용하여 진행되어 왔다. 승부예측 모델은 무엇보다 예측 성능이 가장 중요시된다. 그러나 최적의 성능을 보이는 예측 모델은 학습에 사용되는 데이터에 따라 다르게 나타나는 경향을 보였다. 본 논문에서는 이러한 문제를 해결하기 위해 데이터가 달라지더라도 해당 데이터에 대한 예측 시 가장 좋은 성능을 보이는 모델의 선택이 가능한 기존의 축구경기결과 예측에서 좋은 성능을 보여온 통계학적 모델과 기계학습 모델을 결합한 새로운 앙상블 모델을 제안한다. 본 논문에서 제안하는 앙상블 모델은 각 단일모델들의 경기 예측결과와 실제 경기결과를 병합한 데이터로부터 최종예측모델을 학습하여 경기 승부예측을 수행한다. 제안 모델에 대한 실험 결과, 기존 단일모델들에 비해 높은 성능을 보였다.

Bi-LSTM-CRF 앙상블 모델을 이용한 한국어 공간 정보 추출 (Korean Spatial Information Extraction using Bi-LSTM-CRF Ensemble Model)

  • 민태홍;신형진;이재성
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.278-287
    • /
    • 2019
  • 공간 정보 추출은 자연어 텍스트에 있는 정적 및 동적인 공간 정보를 공간 개체와 그들 사이의 관계로 명확히 표시하여 추출하는 것을 말한다. 이 논문은 2단계 양방향 LSTM-CRF 앙상블 모델을 사용하여 한국어 공간 정보를 추출할 수 있는 심층 학습 방법을 제안한다. 또한 공간 개체 추출과 공간 관계 속성 추출을 통합한 모델을 소개한다. 한국어 공간정보 말뭉치(Korean SpaceBank)를 사용하여 실험한 결과 제안한 심층학습 방법이 기존의 CRF 모델보다 우수함을 보였으며, 특히 제안한 앙상블 모델이 단일 모델보다 더 우수한 성능을 보였다.

배깅 및 스태킹 기반 앙상블 기계학습법을 이용한 고성능 콘크리트 압축강도 예측모델 개발 (Development of a High-Performance Concrete Compressive-Strength Prediction Model Using an Ensemble Machine-Learning Method Based on Bagging and Stacking)

  • 곽윤지;고채연;곽신영;임승현
    • 한국전산구조공학회논문집
    • /
    • 제36권1호
    • /
    • pp.9-18
    • /
    • 2023
  • 고성능 콘크리트(HPC) 압축강도는 추가적인 시멘트질 재료의 사용으로 인해 예측하기 어렵고, 개선된 예측 모델의 개발이 필수적이다. 따라서, 본 연구의 목적은 배깅과 스태킹을 결합한 앙상블 기법을 사용하여 HPC 압축강도 예측 모델을 개발하는 것이다. 이 논문의 핵심적 기여는 기존 앙상블 기법인 배깅과 스태킹을 통합하여 새로운 앙상블 기법을 제시하고, 단일 기계학습 모델의 문제점을 해결하여 모델 예측 성능을 높이고자 한다. 단일 기계학습법으로 비선형 회귀분석, 서포트 벡터 머신, 인공신경망, 가우시안 프로세스 회귀를 사용하고, 앙상블 기법으로 배깅, 스태킹을 이용하였다. 결과적으로 본 연구에서 제안된 모델이 단일 기계학습 모델, 배깅 및 스태킹 모델보다 높은 정확도를 보였다. 이는 대표적인 4가지 성능 지표 비교를 통해 확인하였고, 제안된 방법의 유효성을 검증하였다.

기후변화에 따른 송악의 잠재서식지 분포 변화 예측 (Potential Impact of Climate Change on Distribution of Hedera rhombea in the Korean Peninsula)

  • 박선욱;구경아;서창완;공우석
    • 한국기후변화학회지
    • /
    • 제7권3호
    • /
    • pp.325-334
    • /
    • 2016
  • We projected the distribution of Hedera rhombea, an evergreen broad-leaved climbing plant, under current climate conditions and predicted its future distributions under global warming. Inaddition, weexplained model uncertainty by employing 9 single Species Distribution model (SDM)s to model the distribution of Hedera rhombea. 9 single SDMs were constructed with 736 presence/absence data and 3 temperature and 3 precipitation data. Uncertainty of each SDM was assessed with TSS (Ture Skill Statistics) and AUC (the Area under the curve) value of ROC (receiver operating characteristic) analyses. To reduce model uncertainty, we combined 9 single SDMs weighted by TSS and resulted in an ensemble forecast, a TSS weighted ensemble. We predicted future distributions of Hedera rhombea under future climate conditions for the period of 2050 (2040~2060), which were estimated with HadGEM2-AO. RF (Random Forest), GBM (Generalized Boosted Model) and TSS weighted ensemble model showed higher prediction accuracies (AUC > 0.95, TSS > 0.80) than other SDMs. Based on the projections of TSS weighted ensemble, potential habitats under current climate conditions showed a discrepancy with actual habitats, especially in the northern distribution limit. The observed northern boundary of Hedera rhombea is Ulsan in the eastern Korean Peninsula, but the projected limit was eastern coast of Gangwon province. Geomorphological conditions and the dispersal limitations mediated by birds, the lack of bird habitats at eastern coast of Gangwon Province, account for such discrepancy. In general, potential habitats of Hedera rhombea expanded under future climate conditions, but the extent of expansions depend on RCP scenarios. Potential Habitat of Hedera rhombea expanded into Jeolla-inland area under RCP 4.5, and into Chungnam and Wonsan under RCP 8.5. Our results would be fundamental information for understanding the potential effects of climate change on the distribution of Hedera rhombea.

도로교통 이머징 리스크 탐지를 위한 AutoML과 CNN 기반 소프트 보팅 앙상블 분류 모델 (AutoML and CNN-based Soft-voting Ensemble Classification Model For Road Traffic Emerging Risk Detection)

  • 전병욱;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권7호
    • /
    • pp.14-20
    • /
    • 2021
  • 겨울철 도로 결빙으로 인한 사고는 대부분 큰 사고로 이어진다. 이는 운전자가 도로의 결빙을 사전에 자각하기 어렵기 때문이다. 본 연구에서는 AutoML과 CNN의 앙상블 모델을 이용하여 도로교통 이머징 리스크를 정확하게 탐지하는 방법을 연구한다. 비정형 데이터인 이미지를 이용한 CNN 이미지 특징 추출 기반 도로교통 이머징 리스크 분류 모델과 정형 데이터인 기상 데이터를 이용한 AutoML 기반 도로교통 이머징 리스크 분류 모델을 각각 학습시킨다. 그 후 모델들에서 도출된 확률값을 입력하여 CNN 기반 분류 모델을 보완하도록 앙상블 모델을 설계한다. 이를 통해 도로교통 이머징 리스크 분류 성능을 향상하고 더 정확하고 빠르게 운전자에게 경고하여 안전한 주행이 가능하도록 한다.

하이라이트 검출을 위한 구간 분할 앙상블 모델 (Subdivision Ensemble Model for Highlight Detection)

  • 이한솔;이계민
    • 방송공학회논문지
    • /
    • 제25권4호
    • /
    • pp.620-628
    • /
    • 2020
  • 하이라이트를 자동으로 예측 하는 문제는 영상을 사람이 직접 편집하는 시간과 비용 문제를 해결하기 위해 필요한 기술이다. 본 논문에서는 하이라이트 구간 내에서 하이라이트 판단 여부에 영향을 주는 특정 부분에 집중하기 위해 앙상블 모델을 제안한다. 우리의 모델은 하나의 단일 모델만으로는 충분히 학습하기 어려운 중요한 정보를 앙상블을 통해 더 많은 유용한 특징들을 얻을 수 있다. 앙상블을 이루는 단일모델들은 오디오와 이미지 정보를 결합하여 다양한 영상의 특징들을 추출한다. 직접 수집한 e스포츠 경기 영상과 야구 경기 영상을 통해 하이라이트 예측 성능이 개선됨을 확인한다.

Enhancing prediction accuracy of concrete compressive strength using stacking ensemble machine learning

  • Yunpeng Zhao;Dimitrios Goulias;Setare Saremi
    • Computers and Concrete
    • /
    • 제32권3호
    • /
    • pp.233-246
    • /
    • 2023
  • Accurate prediction of concrete compressive strength can minimize the need for extensive, time-consuming, and costly mixture optimization testing and analysis. This study attempts to enhance the prediction accuracy of compressive strength using stacking ensemble machine learning (ML) with feature engineering techniques. Seven alternative ML models of increasing complexity were implemented and compared, including linear regression, SVM, decision tree, multiple layer perceptron, random forest, Xgboost and Adaboost. To further improve the prediction accuracy, a ML pipeline was proposed in which the feature engineering technique was implemented, and a two-layer stacked model was developed. The k-fold cross-validation approach was employed to optimize model parameters and train the stacked model. The stacked model showed superior performance in predicting concrete compressive strength with a correlation of determination (R2) of 0.985. Feature (i.e., variable) importance was determined to demonstrate how useful the synthetic features are in prediction and provide better interpretability of the data and the model. The methodology in this study promotes a more thorough assessment of alternative ML algorithms and rather than focusing on any single ML model type for concrete compressive strength prediction.