• Title/Summary/Keyword: Ensemble Method

Search Result 507, Processing Time 0.026 seconds

리튬이온 배터리 수명추정을 위한 용량예측 머신러닝 모델의 성능 비교 (Comparison of the Machine Learning Models Predicting Lithium-ion Battery Capacity for Remaining Useful Life Estimation)

  • 유상우;신용범;신동일
    • 한국가스학회지
    • /
    • 제24권6호
    • /
    • pp.91-97
    • /
    • 2020
  • 리튬이온 배터리(LIB)는 다른 배터리에 비해 수명이 길고, 에너지 밀도가 높으며, 자체 방전율이 낮아, 에너지 저장장치(ESS)로 선호되고 있다. 하지만, 2017~2019년 기간 동안 국내에서만도 28건의 화재사고가 발생하였으며, LIB의 운영 중 안전성 및 신뢰성을 보장하기 위해 LIB의 정확한 용량추정은 필수요소이다. 본 연구에서는 LIB의 충방전 cycle에 따른 용량변화를 예측하는 기계학습 기반 모델의 설계에 있어 중요한 요소인 최적 머신러닝 모델의 선정을 위해, Decision Tree, 앙상블학습법, Support Vector Regression, Gaussian Process Regression (GPR) 각각을 이용한 예측모델을 구현하고 성능비교를 실시하였다. 학습을 위해 NASA에서 제공하는 시험데이터를 사용하였으며, GPR이 가장 좋은 예측성능을 보였다. 이를 바탕으로 추가 시험데이터 학습을 통해 개선된 LIB 용량예측과 잔여 수명추정 모델을 개발하여, 운영 중 이상 감지 및 모니터링 성능을 높여, 보다 안전하고 안정된 ESS 운용에 활용하고자 한다.

경험적 분위사상법을 이용한 지역기후모형 기반 미국 강수 및 가뭄의 계절 예측 성능 개선 (Improvement in Seasonal Prediction of Precipitation and Drought over the United States Based on Regional Climate Model Using Empirical Quantile Mapping)

  • 송찬영;김소희;안중배
    • 대기
    • /
    • 제31권5호
    • /
    • pp.637-656
    • /
    • 2021
  • The United States has been known as the world's major producer of crops such as wheat, corn, and soybeans. Therefore, using meteorological long-term forecast data to project reliable crop yields in the United States is important for planning domestic food policies. The current study is part of an effort to improve the seasonal predictability of regional-scale precipitation across the United States for estimating crop production in the country. For the purpose, a dynamic downscaling method using Weather Research and Forecasting (WRF) model is utilized. The WRF simulation covers the crop-growing period (March to October) during 2000-2020. The initial and lateral boundary conditions of WRF are derived from the Pusan National University Coupled General Circulation Model (PNU CGCM), a participant model of Asia-Pacific Economic Cooperation Climate Center (APCC) Long-Term Multi-Model Ensemble Prediction System. For bias correction of downscaled daily precipitation, empirical quantile mapping (EQM) is applied. The downscaled data set without and with correction are called WRF_UC and WRF_C, respectively. In terms of mean precipitation, the EQM effectively reduces the wet biases over most of the United States and improves the spatial correlation coefficient with observation. The daily precipitation of WRF_C shows the better performance in terms of frequency and extreme precipitation intensity compared to WRF_UC. In addition, WRF_C shows a more reasonable performance in predicting drought frequency according to intensity than WRF_UC.

Investigating the future changes of extreme precipitation indices in Asian regions dominated by south Asian summer monsoon

  • Deegala Durage Danushka Prasadi Deegala;Eun-Sung Chung
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.174-174
    • /
    • 2023
  • The impact of global warming on the south Asian summer monsoon is of critical importance for the large population of this region. This study aims to investigate the future changes of the precipitation extremes during pre-monsoon and monsoon, across this region in a more organized regional structure. The study area is divided into six major divisions based on the Köppen-Geiger's climate structure and 10 sub-divisions considering the geographical locations. The future changes of extreme precipitation indices are analyzed for each zone separately using five indices from ETCCDI (Expert Team on Climate Change Detection and Indices); R10mm, Rx1day, Rx5day, R95pTOT and PRCPTOT. 10 global climate model (GCM) outputs from the latest CMIP6 under four combinations of SSP-RCP scenarios (SSP1-2.6, SSP2-4.5, SSP3-7.0, and SSP5-8.5) are used. The GCMs are bias corrected using nonparametric quantile transformation based on the smoothing spline method. The future period is divided into near future (2031-2065) and far future (2066-2100) and then the changes are compared based on the historical period (1980-2014). The analysis is carried out separately for pre-monsoon (March, April, May) and monsoon (June, July, August, September). The methodology used to compare the changes is probability distribution functions (PDF). Kernel density estimation is used to plot the PDFs. For this study we did not use a multi-model ensemble output and the changes in each extreme precipitation index are analyzed GCM wise. From the results it can be observed that the performance of the GCMs vary depending on the sub-zone as well as on the precipitation index. Final conclusions are made by removing the poor performing GCMs and by analyzing the overall changes in the PDFs of the remaining GCMs.

  • PDF

Ensemble deep learning-based models to predict the resilient modulus of modified base materials subjected to wet-dry cycles

  • Mahzad Esmaeili-Falak;Reza Sarkhani Benemaran
    • Geomechanics and Engineering
    • /
    • 제32권6호
    • /
    • pp.583-600
    • /
    • 2023
  • The resilient modulus (MR) of various pavement materials plays a significant role in the pavement design by a mechanistic-empirical method. The MR determination is done by experimental tests that need time and money, along with special experimental tools. The present paper suggested a novel hybridized extreme gradient boosting (XGB) structure for forecasting the MR of modified base materials subject to wet-dry cycles. The models were created by various combinations of input variables called deep learning. Input variables consist of the number of W-D cycles (WDC), the ratio of free lime to SAF (CSAFR), the ratio of maximum dry density to the optimum moisture content (DMR), confining pressure (σ3), and deviatoric stress (σd). Two XGB structures were produced for the estimation aims, where determinative variables were optimized by particle swarm optimization (PSO) and black widow optimization algorithm (BWOA). According to the results' description and outputs of Taylor diagram, M1 model with the combination of WDC, CSAFR, DMR, σ3, and σd is recognized as the most suitable model, with R2 and RMSE values of BWOA-XGB for model M1 equal to 0.9991 and 55.19 MPa, respectively. Interestingly, the lowest value of RMSE for literature was at 116.94 MPa, while this study could gain the extremely lower RMSE owned by BWOA-XGB model at 55.198 MPa. At last, the explanations indicate the BWO algorithm's capability in determining the optimal value of XGB determinative parameters in MR prediction procedure.

머신러닝을 활용한 선발 투수 교체시기에 관한 연구 (A Study on the Timing of Starting Pitcher Replacement Using Machine Learning)

  • 노성진;노미진;한무명초;엄선현;김양석
    • 스마트미디어저널
    • /
    • 제11권2호
    • /
    • pp.9-17
    • /
    • 2022
  • 본 연구는 야구 경기에서 선발 투수를 위기 상황 이전에 교체하기 위한 의사결정을 지원하는 예측 모델 구현을 목적으로 한다. 이를 위해 베이스볼 서번트(Baseball Savant)에서 제공하는 메이저리그 스탯캐스트 데이터를 활용하여, 선발 투수를 위기 상황 이전에 선제적으로 교체하는 예측 모델을 구현한다. 이를 위해 첫째, 데이터 탐색을 통해 선발 투수가 경기에서 직면하는 위기 상황을 도출하였다. 둘째, 선발 투수가 이닝 종료 전에 교체된 경우, 이전 이닝에서 교체하는 것으로 레이블을 구성하여 학습을 진행하였다. 학습된 모델을 비교한 결과 앙상블 기법을 기반으로 한 모델이 F1-Score가 65%로 가장 높은 예측 성능을 보였다. 본 연구의 실무적 의의는 제안하는 모델을 통해 선발 투수를 위기 상황 이전에 교체하여 팀의 승리 확률을 높이는 데 기여할 수 있으며, 경기 중 감독은 데이터 기반의 전략적 의사결정 지원을 받을 수 있을 것이다.

The evaluation of Spectral Vegetation Indices for Classification of Nutritional Deficiency in Rice Using Machine Learning Method

  • Jaekyeong Baek;Wan-Gyu Sang;Dongwon Kwon;Sungyul Chanag;Hyeojin Bak;Ho-young Ban;Jung-Il Cho
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2022년도 추계학술대회
    • /
    • pp.88-88
    • /
    • 2022
  • Detection of stress responses in crops is important to diagnose crop growth and evaluate yield. Also, the multi-spectral sensor is effectively known to evaluate stress caused by nutrient and moisture in crops or biological agents such as weeds or diseases. Therefore, in this experiment, multispectral images were taken by an unmanned aerial vehicle(UAV) under field condition. The experiment was conducted in the long-term fertilizer field in the National Institute of Crop Science, and experiment area was divided into different status of NPK(Control, N-deficiency, P-deficiency, K-deficiency, Non-fertilizer). Total 11 vegetation indices were created with RGB and NIR reflectance values using python. Variations in nutrient content in plants affect the amount of light reflected or absorbed for each wavelength band. Therefore, the objective of this experiment was to evaluate vegetation indices derived from multispectral reflectance data as input into machine learning algorithm for the classification of nutritional deficiency in rice. RandomForest model was used as a representative ensemble model, and parameters were adjusted through hyperparameter tuning such as RandomSearchCV. As a result, training accuracy was 0.95 and test accuracy was 0.80, and IPCA, NDRE, and EVI were included in the top three indices for feature importance. Also, precision, recall, and f1-score, which are indicators for evaluating the performance of the classification model, showed a distribution of 0.7-0.9 for each class.

  • PDF

An AutoML-driven Antenna Performance Prediction Model in the Autonomous Driving Radar Manufacturing Process

  • So-Hyang Bak;Kwanghoon Pio Kim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권12호
    • /
    • pp.3330-3344
    • /
    • 2023
  • This paper proposes an antenna performance prediction model in the autonomous driving radar manufacturing process. Our research work is based upon a challenge dataset, Driving Radar Manufacturing Process Dataset, and a typical AutoML machine learning workflow engine, Pycaret open-source Python library. Note that the dataset contains the total 70 data-items, out of which 54 used as input features and 16 used as output features, and the dataset is properly built into resolving the multi-output regression problem. During the data regression analysis and preprocessing phase, we identified several input features having similar correlations and so detached some of those input features, which may become a serious cause of the multicollinearity problem that affect the overall model performance. In the training phase, we train each of output-feature regression models by using the AutoML approach. Next, we selected the top 5 models showing the higher performances in the AutoML result reports and applied the ensemble method so as for the selected models' performances to be improved. In performing the experimental performance evaluation of the regression prediction model, we particularly used two metrics, MAE and RMSE, and the results of which were 0.6928 and 1.2065, respectively. Additionally, we carried out a series of experiments to verify the proposed model's performance by comparing with other existing models' performances. In conclusion, we enhance accuracy for safer autonomous vehicles, reduces manufacturing costs through AutoML-Pycaret and machine learning ensembled model, and prevents the production of faulty radar systems, conserving resources. Ultimately, the proposed model holds significant promise not only for antenna performance but also for improving manufacturing quality and advancing radar systems in autonomous vehicles.

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구 (Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration)

  • 안동욱;임춘성
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.23-34
    • /
    • 2019
  • 최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

  • PDF

지식 누적을 이용한 실시간 주식시장 예측 (A Real-Time Stock Market Prediction Using Knowledge Accumulation)

  • 김진화;홍광헌;민진영
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.109-130
    • /
    • 2011
  • 연속발생 데이터는 데이터의 원천으로부터 데이터 저장소로 연속적으로 축적이 되는 데이터를 말한다. 이렇게 축적된 데이터의 크기는 시간이 지남에 따라 점점 커진다. 또한 이러한 대용량 데이터에서 정보를 추출하기 위해서는 저장공간, 시간, 그리고 많은 자원이 필요하다. 이러한 연속발생 데이터의 특성은 시간이 지남에 따라 축적된 대용량 데이터의 이용을 어렵고 고비용이 되게 한다. 만약 정보나 패턴을 추출할 때 누적된 전체 발생 데이터 중에서 최근의 일부만 사용 한다면 적은 일부 표본의 사용의 문제로 인하여 전체 데이터 사용에서 발견될 수 있는 유용한 정보의 유실이 있을 수 있다. 이러한 문제점을 해결하기 위해서 본 연구는 연속발생 데이터를 발생 시점에서 계속 모으기 보다 이러한 발생되는 데이터에서 규칙을 추출하여 효율적으로 지식을 관리하고자 한다. 이 방법은 기존의 방법에 비하여 적은 양의 데이터 저장공간을 필요로 한다. 또한 이렇게 축적된 규칙집합은 미래에 예측을 위해서 언제든 실시간 예측을 할 수 있게 준비가 된다. 여러 예측 모델을 결합시키는 방법인 앙상블 이론에 의하면 본 연구가 제시하는 데로 체계적으로 규칙집합을 시간에 따라 융합시킬 경우 더 나은 예측 성과가 가능하다. 본 연구는 주식시장의 변동성을 예측하기 위하여 주식시장 데이터를 사용하였다. 본 연구는 이 데이터를 이용해 본 연구가 제시하는 방법과 기존의 방법의 예측 정확도를 비교 하였다.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.