• 제목/요약/키워드: gradient boosting

검색결과 240건 처리시간 0.02초

Bi-LSTM model with time distribution for bandwidth prediction in mobile networks

  • Hyeonji Lee;Yoohwa Kang;Minju Gwak;Donghyeok An
    • ETRI Journal
    • /
    • 제46권2호
    • /
    • pp.205-217
    • /
    • 2024
  • We propose a bandwidth prediction approach based on deep learning. The approach is intended to accurately predict the bandwidth of various types of mobile networks. We first use a machine learning technique, namely, the gradient boosting algorithm, to recognize the connected mobile network. Second, we apply a handover detection algorithm based on network recognition to account for vertical handover that causes the bandwidth variance. Third, as the communication performance offered by 3G, 4G, and 5G networks varies, we suggest a bidirectional long short-term memory model with time distribution for bandwidth prediction per network. To increase the prediction accuracy, pretraining and fine-tuning are applied for each type of network. We use a dataset collected at University College Cork for network recognition, handover detection, and bandwidth prediction. The performance evaluation indicates that the handover detection algorithm achieves 88.5% accuracy, and the bandwidth prediction model achieves a high accuracy, with a root-mean-square error of only 2.12%.

Incorporating BERT-based NLP and Transformer for An Ensemble Model and its Application to Personal Credit Prediction

  • Sophot Ky;Ju-Hong Lee;Kwangtek Na
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.9-15
    • /
    • 2024
  • Tree-based algorithms have been the dominant methods used build a prediction model for tabular data. This also includes personal credit data. However, they are limited to compatibility with categorical and numerical data only, and also do not capture information of the relationship between other features. In this work, we proposed an ensemble model using the Transformer architecture that includes text features and harness the self-attention mechanism to tackle the feature relationships limitation. We describe a text formatter module, that converts the original tabular data into sentence data that is fed into FinBERT along with other text features. Furthermore, we employed FT-Transformer that train with the original tabular data. We evaluate this multi-modal approach with two popular tree-based algorithms known as, Random Forest and Extreme Gradient Boosting, XGBoost and TabTransformer. Our proposed method shows superior Default Recall, F1 score and AUC results across two public data sets. Our results are significant for financial institutions to reduce the risk of financial loss regarding defaulters.

Differential Authentication Scheme for Electric Charging System through Light Gradient Boosting Machine

  • Byung-Hyun Lim;Ismatov, Akobir;Ki-Il Kim
    • Journal of information and communication convergence engineering
    • /
    • 제22권3호
    • /
    • pp.199-206
    • /
    • 2024
  • The network security of Plug-and-Charge (PnC) technology in electric vehicle charging systems is typically achieved through the well-known Transport Layer Security (TLS) protocol, which causes high communication overhead. To reduce this overhead, a differential authentication method employing different schemes for individual users has been proposed. However, decisions use a simple threshold approach and no quantitative performance evaluation should be made. In this study, we determined each user's trust using several machine learning algorithms with their charging patterns and compared them. The experimental results reveal that the proposed approach outperforms the conventional approach by 41.36% in terms of round-trip time efficiency, demonstrating its effectiveness in reducing the TLS overhead. In addition, we show the simulation results for three user authentication methods and capture the performance variations under CPU busy waiting scenarios.

Optimized machine learning algorithms for predicting the punching shear capacity of RC flat slabs

  • Huajun Yan;Nan Xie;Dandan Shen
    • Advances in concrete construction
    • /
    • 제17권1호
    • /
    • pp.27-36
    • /
    • 2024
  • Reinforced concrete (RC) flat slabs should be designed based on punching shear strength. As part of this study, machine learning (ML) algorithms were developed to accurately predict the punching shear strength of RC flat slabs without shear reinforcement. It is based on Bayesian optimization (BO), combined with four standard algorithms (Support vector regression, Decision trees, Random forests, Extreme gradient boosting) on 446 datasets that contain six design parameters. Furthermore, an analysis of feature importance is carried out by Shapley additive explanation (SHAP), in order to quantify the effect of design parameters on punching shear strength. According to the results, the BO method produces high prediction accuracy by selecting the optimal hyperparameters for each model. With R2 = 0.985, MAE = 0.0155 MN, RMSE = 0.0244 MN, the BO-XGBoost model performed better than the original XGBoost prediction, which had R2 = 0.917, MAE = 0.064 MN, RMSE = 0.121 MN in total dataset. Additionally, recommendations are provided on how to select factors that will influence punching shear resistance of RC flat slabs without shear reinforcement.

Calibration of Portable Particulate Mattere-Monitoring Device using Web Query and Machine Learning

  • Loh, Byoung Gook;Choi, Gi Heung
    • Safety and Health at Work
    • /
    • 제10권4호
    • /
    • pp.452-460
    • /
    • 2019
  • Background: Monitoring and control of PM2.5 are being recognized as key to address health issues attributed to PM2.5. Availability of low-cost PM2.5 sensors made it possible to introduce a number of portable PM2.5 monitors based on light scattering to the consumer market at an affordable price. Accuracy of light scatteringe-based PM2.5 monitors significantly depends on the method of calibration. Static calibration curve is used as the most popular calibration method for low-cost PM2.5 sensors particularly because of ease of application. Drawback in this approach is, however, the lack of accuracy. Methods: This study discussed the calibration of a low-cost PM2.5-monitoring device (PMD) to improve the accuracy and reliability for practical use. The proposed method is based on construction of the PM2.5 sensor network using Message Queuing Telemetry Transport (MQTT) protocol and web query of reference measurement data available at government-authorized PM monitoring station (GAMS) in the republic of Korea. Four machine learning (ML) algorithms such as support vector machine, k-nearest neighbors, random forest, and extreme gradient boosting were used as regression models to calibrate the PMD measurements of PM2.5. Performance of each ML algorithm was evaluated using stratified K-fold cross-validation, and a linear regression model was used as a reference. Results: Based on the performance of ML algorithms used, regression of the output of the PMD to PM2.5 concentrations data available from the GAMS through web query was effective. The extreme gradient boosting algorithm showed the best performance with a mean coefficient of determination (R2) of 0.78 and standard error of 5.0 ㎍/㎥, corresponding to 8% increase in R2 and 12% decrease in root mean square error in comparison with the linear regression model. Minimum 100 hours of calibration period was found required to calibrate the PMD to its full capacity. Calibration method proposed poses a limitation on the location of the PMD being in the vicinity of the GAMS. As the number of the PMD participating in the sensor network increases, however, calibrated PMDs can be used as reference devices to nearby PMDs that require calibration, forming a calibration chain through MQTT protocol. Conclusions: Calibration of a low-cost PMD, which is based on construction of PM2.5 sensor network using MQTT protocol and web query of reference measurement data available at a GAMS, significantly improves the accuracy and reliability of a PMD, thereby making practical use of the low-cost PMD possible.

국내 배달음식 이용건수 분석 및 예측 (A Study on the Number of Domestic Food Delivery Services)

  • 권재영;김시내;박은지;송종우
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.977-990
    • /
    • 2015
  • 우리나라는 세계적으로 배달음식 문화가 가장 많이 발달한 나라 중에 하나로 최근에는 일인가구의 증가와 배달앱 시장의 발달과 함께 그 성장 속도 또한 눈부시게 증가하고 있다. 따라서 배달음식 이용에 큰 영향을 미칠 것으로 예상되는 날씨와 날짜별 변수를 고려하여 시간대별 배달음식 이용건수를 예측함으로써 소비자와 생산자 모두에게 이익을 주는 예측모형을 찾고자 한다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 2014년도 배달음식 통화건수를 예측하는데 있다. 예측에 사용되는 회귀 모형은 선형회귀모형, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 기계, 신경망, 로지스틱 회귀모형으로 총 6가지이다. 고려되는 배달음식 업종은 총 4가지(족발/보쌈정식, 중국음식, 치킨, 피자)로 크게 두 가지 방법을 이용하여 각 업종별 배달음식 이용건수를 예측하였다. 첫 번째 방법은 총 이용건수와 각 업종별 배달음식 이용비율을 곱하여 각 업종별 배달음식 이용건수를 예측하는 것이고, 두 번째 방법은 각 업종별 모형을 세워 각 업종별 배달음식 이용건수를 예측하는 방법이다. 최종적으로 선택된 모형은 방법 1에서는 신경망 모형과 선형회귀모형이며, 방법 2에서는 신경망 모형이었다. 방법 2보다는 방법 1로 구한 결과가 더 예측력이 좋은 것으로 나타났다.

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

기계학습기법을 이용한 땅밀림 위험등급 분류 (Classification of Soil Creep Hazard Class Using Machine Learning)

  • 이기하;레수안히엔;연민호;서준표;이창우
    • 한국방재안전학회논문집
    • /
    • 제14권3호
    • /
    • pp.17-27
    • /
    • 2021
  • 본 연구에서는 6개의 기계학습 기법들을 활용하여 2019년과 2020년 전국 땅밀림 현장조사 결과를 기반으로 땅밀림 위험지역을 A부터 C까지 3개 등급(A등급: 위험, B등급: 보통, C등급: 양호)으로 구분할 수 있는 분류모형을 구축하고, 분류 정확도를 비교·분석한다. 기계학습 기법으로는 K-Nearest Neighbor, Support Vector Machine, Logistic Regression, Decision Tree, Random Forest, Extreme Gradient Boosting 총 6개를 적용하였다. 분류 정확도 분석결과, 6개의 기법 모두 0.9 이상의 우수한 정확도를 보여주었다. 수치형 자료를 학습에 적용한 경우가, 문자형 자료를 학습한 모형보다 우수한 성능을 나타냈으며, 현장조사 평가점수 자료군(C1~C4) 보다는 전문가의견이 반영된 평가점수 자료군(R1~R4)으로 학습한 모형이 정확도가 높은 것으로 분석되었다. 특히, 직접징후와 간접징후 정보를 학습에 반영한 경우가 예측정확도가 높게 나타났다. 향후 땅밀림 현장조사 자료가 지속적으로 확보될 경우, 본 연구에서 활용한 기계학습기법은 땅밀림 분류를 위한 도구로 활용이 가능할 것으로 판단된다.

앙상블 기반 모델을 이용한 서울시 PM2.5 농도 예측 및 분석 (Prediction and Analysis of PM2.5 Concentration in Seoul Using Ensemble-based Model)

  • 류민지;손상훈;김진수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1191-1205
    • /
    • 2022
  • 복잡하고 광범위한 원인을 가진 대기오염물질 중 particulate matter (PM)은 입자의 크기에 따라 분류된다. 그 중 PM2.5는 그 크기가 매우 작아 사람이 흡입하면 인간의 호흡기나 심혈관에 질병을 유발할 수 있다. 이러한 위험에 대비하기 위해서는 국가 중심의 관리와 사전에 예방할 수 있는 모니터링 및 예측이 중요하다. 본 연구는 고농도 미세먼지의 발생이 잦은 서울시의 PM2.5를 local data assimilation and prediction system (LDAPS) 기상 관련 인자 15가지와 aerosol optical depth (AOD), 화학인자 4가지를 독립변수로 하여 앙상블 모델 두 가지 random forest (RF)와 extreme gradient boosting (XGB)로 예측하고자 하였다. 예측에 사용된 두 모델의 성능 평가와 인자 중요도 평가를 수행하였으며, 계절별 모델 분석도 수행하였다. 예측 정확도 결과, RF가 R2 = 0.85, XGB가 R2 = 0.91의 높은 예측 정확도를 보이며 XGB가 RF보다 PM2.5 예측에 적합한 모델임을 확인하였다. 계절별 모델 분석 결과, 봄에 농도가 높은 관측 값과 비교하여 예측 수행이 잘 되었다고 할 수 있다. 본 연구는 다양한 인자를 이용하여 서울시의 PM2.5를 예측하였고, 좋은 성능을 보이는 앙상블 기반의 PM2.5 예측 모델을 구축하였다.

머신러닝 기법을 활용한 토압식 쉴드TBM 막장압 예측에 관한 연구 (A study on EPB shield TBM face pressure prediction using machine learning algorithms)

  • 권기범;최항석;오주영;김동구
    • 한국터널지하공간학회 논문집
    • /
    • 제24권2호
    • /
    • pp.217-230
    • /
    • 2022
  • 쉴드TBM (Tunnel Boring Machine) 터널 시공에 있어 막장압 관리는 막장면 붕괴, 지반침하 등을 방지하여 막장 안정성을 유지하는 데 중요한 역할을 담당한다. 특히, 챔버 내부의 굴착토로 막장압을 조절하는 토압식 쉴드TBM의 경우, 이수식 쉴드TBM에 비해 막장압의 관리가 어렵다. 본 연구에서는 국내 토압식 쉴드TBM 터널 시공 현장의 지반조건 및 굴진특성 데이터를 분석하여, 토압식 쉴드TBM 터널의 세그먼트 링별 막장압 예측모델을 제시하였다. 예측모델의 입력특성으로 7가지를 선정하였으며, 912개의 학습 데이터 세트(Training data set)와 228개의 시험 데이터 세트(Test data set)를 확보하였다. 최적의 토압식 쉴드TBM 막장압 예측모델 선정을 위하여 KNN (K-Nearest Neighbors), SVM (Support Vector Machine), RF (Random Forest), XGB (eXtreme Gradient Boosting) 모델의 하이퍼파라미터(Hyperparameter)를 최적화하여 예측성능을 비교한 결과, RF 모델이 7.35 kPa의 평균 제곱근 오차(Root Mean Square Error, RMSE)로 가장 우수한 성능을 나타냈다. 추가적으로, RF 모델의 특성 중요도(Feature importance) 분석을 수행한 결과, 입력특성 중 수압의 영향도가 0.38로 가장 높았으며, 전반적으로 지반조건이 굴진특성보다 높은 중요도를 보여주었다.