• Title/Summary/Keyword: 머신러닝 앙상블

Search Result 71, Processing Time 0.029 seconds

Comparison of Stock Price Forecasting Performance by Ensemble Combination Method (앙상블 조합 방법에 따른 주가 예측 성능 비교)

  • Yang, Huyn-Sung;Park, Jun;So, Won-Ho;Sim, Chun-Bo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.524-527
    • /
    • 2022
  • 본 연구에서는 머신러닝(Machine Learning, ML)과 딥러닝(Deep Learning, DL) 모델을 앙상블(Ensemble)하여 어떠한 주가 예측 방법이 우수한지에 대한 연구를 하고자 한다. 연구에 사용된 모델은 하이퍼파라미터(Hyperparameter) 조정을 통하여 최적의 결과를 출력한다. 앙상블 방법은 머신러닝과 딥러닝 모델의 앙상블, 머신러닝 모델의 앙상블, 딥러닝 모델의 앙상블이다. 세 가지 방법으로 얻은 결과를 평균 제곱근 오차(Root Mean Squared Error, RMSE)로 비교 분석하여 최적의 방법을 찾고자 한다. 제안한 방법은 주가 예측 연구의 시간과 비용을 절약하고, 최적 성능 모델 판별에 도움이 될 수 있다고 사료된다.

A Study on Short-Term Electricity Demand Prediction Using Stacking Ensemble of Machine Learning and Deep Learning Ensemble Models (머신러닝 및 딥러닝 모델의 스태킹 앙상블을 이용한 단기 전력수요 예측에 관한 연구)

  • Lee, Jung-Il;Kim, Dong-il
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.566-569
    • /
    • 2021
  • 전력수요는 월, 요일 및 시간의 계절성(Seasonality)을 보이는 데이터이다. 각 계절성에 따라 특성이 다르기 때문에, 전력수요를 예측하기 위해서는 계절성의 특성을 고려한 다양한 모델을 선정하고, 병합하는 방법이 필요하다. 본 연구에서는 전력수요의 계절성을 고려한 다양한 예측모델을 병합하여 이용할 수 있도록 스태킹 앙상블 적용하고 실험결과를 기술한다. 또한, 162개 도시의 기상 데이터와 인구 데이터를 예측에 이용하는 방법, Regression 모델과 Time-series모델에 입력하는 특징(Feature)의 전처리 방법, 베이지안 최적화를 이용한 머신러닝 및 딥러닝 모델의 하이퍼파라메터 최적화 방법을 제시한다.

Ensemble-based Counterfeit Detection Algorithm (앙상블 기반의 위조 탐지 알고리즘)

  • Ilkin Taghiyev;Youngbok-Cho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.101-102
    • /
    • 2023
  • 본 연구에서는 인터넷 상에서 발생되는 부정행위를 탐지할수 있는 신뢰 모델을 생성하고 개인의 프라이버시를 보장할수 있는 모델을 제시하였다. 인터넷 상에 게시판에 올려진 부정해위를 탐지하기 위해 앙상블 접근 방식 기반의 분류 모델을 제시하고 자동화된 도구를 제안하였다. 본 연구는 데이터에 대한 탐색적 데이터 분석을 수행하고 얻은 통찰력을 사용해 자연어처리 가반 텍스트를 기반으로 앙상블 기반의 위조 탐지 알고리즘을 제안하였다. 제안 알고리즘의 정확도는 99%로 자연어 처리에 높은 탐지율을 보였다.

  • PDF

Machine Learning Algorithms Evaluation and CombML Development for Dam Inflow Prediction (댐 유입량 예측을 위한 머신러닝 알고리즘 평가 및 CombML 개발)

  • Hong, Jiyeong;Bae, Juhyeon;Jeong, Yeonseok;Lim, Kyoung Jae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.317-317
    • /
    • 2021
  • 효율적인 물관리를 위한 댐 유입량 대한 연구는 필수적이다. 본 연구에서는 다양한 머신러닝 알고리즘을 통해 40년동안의 기상 및 댐 유입량 데이터를 이용하여 소양강댐 유입량을 예측하였으며, 그 중 고유량과 저유량예측에 적합한 알고리즘을 각각 선정하여 머신러닝 알고리즘을 결합한 CombML을 개발하였다. 의사 결정 트리 (DT), 멀티 레이어 퍼셉트론 (MLP), 랜덤 포레스트(RF), 그래디언트 부스팅 (GB), RNN-LSTM 및 CNN-LSTM 알고리즘이 사용되었으며, 그 중 가장 정확도가 높은 모형과 고유량이 아닌 경우에서 특별히 예측 정확도가 높은 모형을 결합하여 결합 머신러닝 알고리즘 (CombML)을 개발 및 평가하였다. 사용된 알고리즘 중 MLP가 NSE 0.812, RMSE 77.218 m3/s, MAE 29.034 m3/s, R 0.924, R2 0.817로 댐 유입량 예측에서 최상의 결과를 보여주었으며, 댐 유입량이 100 m3/s 이하인 경우 앙상블 모델 (RF, GB) 이 댐 유입 예측에서 MLP보다 더 나은 성능을 보였다. 따라서, 유입량이 100 m3/s 이상 시의 평균 일일 강수량인 16 mm를 기준으로 강수가 16mm 이하인 경우 앙상블 방법 (RF 및 GB)을 사용하고 강수가 16 mm 이상인 경우 MLP를 사용하여 댐 유입을 예측하기 위해 두 가지 복합 머신러닝(CombML) 모델 (RF_MLP 및 GB_MLP)을 개발하였다. 그 결과 RF_MLP에서 NSE 0.857, RMSE 68.417 m3/s, MAE 18.063 m3/s, R 0.927, R2 0.859, GB_MLP의 경우 NSE 0.829, RMSE 73.918 m3/s, MAE 18.093 m3/s, R 0.912, R2 0.831로 CombML이 댐 유입을 가장 정확하게 예측하는 것으로 평가되었다. 본 연구를 통해 하천 유황을 고려한 여러 머신러닝 알고리즘의 결합을 통한 유입량 예측 결과, 알고리즘 결합 시 예측 모형의 정확도가 개선되는 것이 확인되었으며, 이는 추후 효율적인 물관리에 이용될 수 있을 것으로 판단된다.

  • PDF

Detecting Fake Job Recruitment with a Machine Learning Approach (머신 러닝 접근 방식을 통한 가짜 채용 탐지)

  • Taghiyev Ilkin;Jae Heung Lee
    • Smart Media Journal
    • /
    • v.12 no.2
    • /
    • pp.36-41
    • /
    • 2023
  • With the advent of applicant tracking systems, online recruitment has become more popular, and recruitment fraud has become a serious problem. This research aims to develop a reliable model to detect recruitment fraud in online recruitment environments to reduce cost losses and enhance privacy. The main contribution of this paper is to provide an automated methodology that leverages insights gained from exploratory analysis of data to distinguish which job postings are fraudulent and which are legitimate. Using EMSCAD, a recruitment fraud dataset provided by Kaggle, we trained and evaluated various single-classifier and ensemble-classifier-based machine learning models, and found that the ensemble classifier, the random forest classifier, performed best with an accuracy of 98.67% and an F1 score of 0.81.

머신러닝 기반 KOSDAQ 시장의 관리종목 지정 예측 연구

  • Yun, Yang-Hyeon;Kim, Tae-Gyeong;Kim, Su-Yeong;Park, Yong-Gyun
    • 한국벤처창업학회:학술대회논문집
    • /
    • 2021.11a
    • /
    • pp.185-187
    • /
    • 2021
  • 관리종목 지정 제도는 상장 기업 내 기업의 부실화를 경고하여 기업에게는 회생 기회를 주고, 투자자들에게는 투자 위험을 경고하기 위한 시장규제 제도이다. 본 연구는 관리종목과 비관리종목의 기업의 재무 데이터를 표본으로 하여 관리종목 지정 예측에 대한 연구를 진행하였다. 분석에 쓰인 분석 방법은 로지스틱 회귀분석, 의사결정나무, 서포트 벡터 머신, 소프트 보팅, 랜덤 포레스트, LightGBM이며 분류 정확도가 82.73%인 LightGBM이 가장 우수한 예측 모형이었으며 분류 정확도가 가장 낮은 예측 모형은 정확도가 71.94%인 의사결정나무였다. 대체적으로 앙상블을 이용한 학습 모형이 단일 학습 모형보다 예측 성능이 높았다.

  • PDF

Prediction of Track Quality Index (TQI) Using Vehicle Acceleration Data based on Machine Learning (차량가속도데이터를 이용한 머신러닝 기반의 궤도품질지수(TQI) 예측)

  • Choi, Chanyong;Kim, Hunki;Kim, Young Cheul;Kim, Sang-su
    • Journal of the Korean Geosynthetics Society
    • /
    • v.19 no.1
    • /
    • pp.45-53
    • /
    • 2020
  • There is an increasing tendency to try to make predictive analysis using measurement data based on machine learning techniques in the railway industries. In this paper, it was predicted that Track quality index (TQI) using vehicle acceleration data based on the machine learning method. The XGB (XGBoost) was the most accurate with 85% in the all data sets. Unlike the SVM model with a single algorithm, the RF and XGB model with a ensemble system were considered to be good at the prediction performance. In the case of the Surface TQI, it is shown that the acceleration of the z axis is highly related to the vertical direction and is in good agreement with the previous studies. Therefore, it is appropriate to apply the model with the ensemble algorithm to predict the track quality index using the vehicle vibration acceleration data because the accuracy may vary depending on the applied model in the machine learning methods.

Bias-correction of near-real-time multi-satellite precipitation products using machine learning (머신러닝 기반 준실시간 다중 위성 강수 자료 보정)

  • Sungho Jung;Xuan-Hien Le;Van-Giang Nguyen;Giha Lee
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.280-280
    • /
    • 2023
  • 강수의 정확한 시·공간적 추정은 홍수 대응, 가뭄 관리, 수자원 계획 등 수문학적 모델링의 핵심 기술이다. 우주 기술의 발전으로 전지구 강수량 측정 프로젝트(Global Precipitation Measurement, GPM)가 시작됨에 따라 위성의 여러 센서를 이용하여 다양한 고해상도 강수량 자료가 생산되고 있으며, 기후변화로 인한 수재해의 빈도가 증가함에 따라 준실시간(Near-Real-Time) 위성 강수 자료의 활용성 및 중요성이 높아지고 있다. 하지만 준실시간 위성 강수 자료의 경우 빠른 지연시간(latency) 확보를 위해 관측 이후 최소한의 보정을 거쳐 제공되므로 상대적으로 강수 추정치의 불확실성이 높다. 이에 따라 본 연구에서는 앙상블 머신러닝 기반 수집된 위성 강수 자료들을 관측 자료와 병합하여 보정된 준실시간 강수량 자료를 생성하고자 한다. 모형의 입력에는 시단위 3가지 준실시간 위성 강수 자료(GSMaP_NRT, IMERG_Early, PERSIANN_CCS)와 방재기상관측 (AWS)의 온도, 습도, 강수량 지점 자료를 활용하였다. 지점 강수 자료의 경우 결측치를 고려하여 475개 관측소를 선정하였으며, 공간성을 고려한 랜덤 샘플링으로 375개소(약 80%)는 훈련 자료, 나머지 100개소(약 20%)는 검증 자료로 분리하였다. 모형의 정량적 평가 지표로는 KGE, MAE, RMSE이 사용되었으며, 정성적 평가 지표로 강수 분할표에 따라 POD, SR, BS 그리고 CSI를 사용하였다. 머신러닝 모형은 개별 원시 위성 강수 자료 및 IDW 기법보다 높은 정확도로 강수량을 추정하였으며 공간적으로 안정적인 결과를 나타내었다. 다만, 최대 강수량에서는 다소 과소추정되므로 이는 강수와 관련된 입력 변수의 개수 업데이트로 해결할 수 있을 것으로 판단된다. 따라서 불확실성이 높은 개별 준실시간 위성 자료들을 관측 자료와 병합하여 보정된 최적 강수 자료를 생성하는 머신러닝 기법은 돌발성 수재해에 실시간으로 대응 가능하며 홍수 예보에 신뢰도 높은 정량적인 강수량 추정치를 제공할 수 있다.

  • PDF

Ensemble Machine Learning Model Based YouTube Spam Comment Detection (앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지)

  • Jeong, Min Chul;Lee, Jihyeon;Oh, Hayoung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.5
    • /
    • pp.576-583
    • /
    • 2020
  • This paper proposes a technique to determine the spam comments on YouTube, which have recently seen tremendous growth. On YouTube, the spammers appeared to promote their channels or videos in popular videos or leave comments unrelated to the video, as it is possible to monetize through advertising. YouTube is running and operating its own spam blocking system, but still has failed to block them properly and efficiently. Therefore, we examined related studies on YouTube spam comment screening and conducted classification experiments with six different machine learning techniques (Decision tree, Logistic regression, Bernoulli Naive Bayes, Random Forest, Support vector machine with linear kernel, Support vector machine with Gaussian kernel) and ensemble model combining these techniques in the comment data from popular music videos - Psy, Katy Perry, LMFAO, Eminem and Shakira.

A Study on the AI Model for Prediction of Demand for Cold Chain Distribution of Drugs (의약품 콜드체인 유통 수요 예측을 위한 AI 모델에 관한 연구)

  • Hee-young Kim;Gi-hwan Ryu;Jin Cai ;Hyeon-kon Son
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.3
    • /
    • pp.763-768
    • /
    • 2023
  • In this paper, the existing statistical method (ARIMA) and machine learning method (Informer) were developed and compared to predict the distribution volume of pharmaceuticals. It was found that a machine learning-based model is advantageous for daily data prediction, and it is effective to use ARIMA for monthly prediction and switch to Informer as the data increases. The prediction error rate (RMSE) was reduced by 26.6% compared to the previous method, and the prediction accuracy was improved by 13%, resulting in a result of 86.2%. Through this thesis, we find that there is an advantage of obtaining the best results by ensembleing statistical methods and machine learning methods. In addition, machine learning-based AI models can derive the best results through deep learning operations even in irregular situations, and after commercialization, performance is expected to improve as the amount of data increases.