• 제목/요약/키워드: Linear Regression (LR)

검색결과 31건 처리시간 0.029초

데이터 마이닝 기반 스마트 공장 에너지 소모 예측 모델 (An Energy Consumption Prediction Model for Smart Factory Using Data Mining Algorithms)

  • ;이명배;임종현;김유빈;신창선;박장우;조용윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권5호
    • /
    • pp.153-160
    • /
    • 2020
  • 산업용 에너지 소비 예측은 에너지 수요와 공급에 동적이고 계절적인 변화가 있기 때문에 에너지 관리 및 제어 시스템에서 중요한 위치를 차지한다. 본 논문은 철강 산업의 에너지 소비 예측 모델을 제시하고 논의한다. 사용되는 데이터에는 후행 및 선도적인 전류 반응 전력, 후행 및 선도적인 전류 동력 계수, 이산화탄소(TCO2) 배출 및 부하 유형이 포함된다. 테스트 세트에서는 (a) 선형 회귀(LR), (b) 방사형 커널(SVM RBF), (c) Gradient Boosting Machine (GBM), (d) 무작위 포리스트(RF). 평균 제곱 오차(RMSE), 평균 절대 오차(MAE) 및 평균 절대 백분율 오차(ME)의 네 가지 통계 모델을 사용하여 예측하고 평가한다. 회귀 설계의 효율성 모든 예측 변수를 사용할 때 최상의 모델 RF는 테스트 세트에서 RMSE 값 7.33을 제공할 수 있다.

선형회귀와 국부적인 RBFN에 의한 점진적인 모델의 설계 (Design of Incremental Model by Linear Regression and Local RBFNs)

  • 이명원;곽근창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.471-473
    • /
    • 2010
  • 본 논문은 선형회귀(LR: Linear Regression)와 국부적인 방사기저함수 네트워크(RBFN: Radial Basis Function Networks)를 결합한 점진적인 모델(incremental model)의 설계와 관련되어진다. 전형적인 RBFN에 의한 모델링과는 달리, 제안된 방법의 근본적인 원리는 두 단계에 의해 고려되어진다. 첫째, 전체 모델의 설계과정에서 전역적인 모델로써 선형회귀에 의해 데이터의 선형부분을 구축한다. 다음으로, 모델링 오차는 오차가 존재하는 국부적인 공간에서 RBFN에 의해 보상되어진다. 여기서, 오차의 분포로부터 RBFN을 설계하기 위해 컨텍스트 기반 퍼지 클러스터링(CFC: Context-based Fuzzy Clustering)를 통해 정보입자의 형태로 구축되어진다. 실험은 자동차 mpg 연료소비량 예측과 부동산 가격예측문제를 통해 제안된 방법의 우수성을 증명한다.

A Prediction of Nutrition Water for Strawberry Production using Linear Regression

  • Venkatesan, Saravanakumar;Sathishkumar, VE;Park, Jangwoo;Shin, Changsun;Cho, Yongyun
    • International journal of advanced smart convergence
    • /
    • 제9권1호
    • /
    • pp.132-140
    • /
    • 2020
  • It is very important to use appropriate nutrition water for crop growth in hydroponic farming facilities. However, in many cases, the supply of nutrition water is not designed with a precise plan, but is performed in a conventional manner. We proposes a forecasting technique for nutrition water requirements based on a data analysis for optimal strawberry production. To do this, the proposed forecasting technique uses linear regression for correlating strawberry production, soil condition, and environmental parameters with nutrition water demand for the actual two-stage strawberry production soil. Also, it includes predicting the optimal amount of nutrition water requires according to the heterogeneous cultivation environment and variety by comparing the amount of nutrition water needed for the growth and production of different kinds of strawberries. We suggested study uses two types of section beds that are compared to find out the best section bed production of strawberry growth. The dataset includes 233 samples collected from a real strawberry greenhouse, and the four predicted variables consist of the total amounts of nutrition water, average temperature, humidity, and CO2 in the greenhouse.

ea-­RED 라우터 버퍼 관리 알고리즘 성능 향상에 적합한 예측 알고리즘 (Appropriate Forecast Algorithm for ea-­RED Router Buffer Management Algorithm Performance Improvement)

  • 임혜영;이종현;황준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (3)
    • /
    • pp.115-117
    • /
    • 2003
  • ea­RED(Efficient Adaptive RED)[1][2] 라우터 버퍼 관리 알고리즘 성능 향상을 위해서 ea­RED 라우터 버퍼 사이즈 변화를 예측할 수 있는 예측 알고리즘 모듈의 추가 필요성을 느낀다. 그래서 본 논문에서는 ea­RED 라우터 버퍼 관리 알고리즘의 원형인 RED 라우터 버퍼 관리 알고리즘에 AR(AutoRegression Analysis), IIR(Infinite Impulse Response) MACD(Moving Average Convergence & Divergence), LR_Lines(Linear Regression Lines)등의 예측 알고리즘 모듈을 적용하여 변화를 살펴보고. 결과를 비교. 분석하여 ea­RED 라우터 버퍼 관리 알고리즘 성능 향상에 가장 적합한 예측 알고리즘으로 LR_Lines를 선정했다. ea­RED 라우터 버퍼 관리 알고리즘에 적합한 예측 알고리즘 선정을 위해서 RED 라우터 버퍼 관리 알고리즘을 대신 이용한 이유는 ea­RED 라우터 버퍼 관리 알고리즘의 경우 네트워크 상황에 따라, 버퍼 관련 파라미터 값을 수시로 바꾸기 때문에 예측 알고리즘의 정확성을 판단하는데 어려움이 있지만, RED 라우터의 경우는 버퍼 관련 파라미터 값을 변화시키지 않기 때문에, 좀 더 일관성 있고 정확한 분석을 수행할 수 있기 때문이다.

  • PDF

Comparison of different post-processing techniques in real-time forecast skill improvement

  • Jabbari, Aida;Bae, Deg-Hyo
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.150-150
    • /
    • 2018
  • The Numerical Weather Prediction (NWP) models provide information for weather forecasts. The highly nonlinear and complex interactions in the atmosphere are simplified in meteorological models through approximations and parameterization. Therefore, the simplifications may lead to biases and errors in model results. Although the models have improved over time, the biased outputs of these models are still a matter of concern in meteorological and hydrological studies. Thus, bias removal is an essential step prior to using outputs of atmospheric models. The main idea of statistical bias correction methods is to develop a statistical relationship between modeled and observed variables over the same historical period. The Model Output Statistics (MOS) would be desirable to better match the real time forecast data with observation records. Statistical post-processing methods relate model outputs to the observed values at the sites of interest. In this study three methods are used to remove the possible biases of the real-time outputs of the Weather Research and Forecast (WRF) model in Imjin basin (North and South Korea). The post-processing techniques include the Linear Regression (LR), Linear Scaling (LS) and Power Scaling (PS) methods. The MOS techniques used in this study include three main steps: preprocessing of the historical data in training set, development of the equations, and application of the equations for the validation set. The expected results show the accuracy improvement of the real-time forecast data before and after bias correction. The comparison of the different methods will clarify the best method for the purpose of the forecast skill enhancement in a real-time case study.

  • PDF

Hourly Steel Industry Energy Consumption Prediction Using Machine Learning Algorithms

  • Sathishkumar, VE;Lee, Myeong-Bae;Lim, Jong-Hyun;Shin, Chang-Sun;Park, Chang-Woo;Cho, Yong Yun
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.585-588
    • /
    • 2019
  • Predictions of Energy Consumption for Industries gain an important place in energy management and control system, as there are dynamic and seasonal changes in the demand and supply of energy. This paper presents and discusses the predictive models for energy consumption of the steel industry. Data used includes lagging and leading current reactive power, lagging and leading current power factor, carbon dioxide (tCO2) emission and load type. In the test set, four statistical models are trained and evaluated: (a) Linear regression (LR), (b) Support Vector Machine with radial kernel (SVM RBF), (c) Gradient Boosting Machine (GBM), (d) random forest (RF). Root Mean Squared Error (RMSE), Mean Absolute Error (MAE) and Mean Absolute Percentage Error (MAPE) are used to measure the prediction efficiency of regression designs. When using all the predictors, the best model RF can provide RMSE value 7.33 in the test set.

댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구 (Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction)

  • 조영식;정관수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF

Comparison of Machine Learning Techniques for Cyberbullying Detection on YouTube Arabic Comments

  • Alsubait, Tahani;Alfageh, Danyah
    • International Journal of Computer Science & Network Security
    • /
    • 제21권1호
    • /
    • pp.1-5
    • /
    • 2021
  • Cyberbullying is a problem that is faced in many cultures. Due to their popularity and interactive nature, social media platforms have also been affected by cyberbullying. Social media users from Arab countries have also reported being a target of cyberbullying. Machine learning techniques have been a prominent approach used by scientists to detect and battle this phenomenon. In this paper, we compare different machine learning algorithms for their performance in cyberbullying detection based on a labeled dataset of Arabic YouTube comments. Three machine learning models are considered, namely: Multinomial Naïve Bayes (MNB), Complement Naïve Bayes (CNB), and Linear Regression (LR). In addition, we experiment with two feature extraction methods, namely: Count Vectorizer and Tfidf Vectorizer. Our results show that, using count vectroizer feature extraction, the Logistic Regression model can outperform both Multinomial and Complement Naïve Bayes models. However, when using Tfidf vectorizer feature extraction, Complement Naive Bayes model can outperform the other two models.

잔류가스 분석기(RGA)와 인공지능 모델링을 이용한 모니터링 시스템 개발 (Development of Monitoring System Using Residual Gas Analyzer (RGA) and Artificial Intelligence Modeling)

  • 이지수;김송훈;김경수;송효종;박상훈;고득훈;이봉재
    • 반도체디스플레이기술학회지
    • /
    • 제23권2호
    • /
    • pp.129-134
    • /
    • 2024
  • This study aims to talk about the necessity of solving the PFC gas emission problem raised by the recent development of the semiconductor industry and the remote plasma source method monitoring system used in the semiconductor industry. The 'monitoring system' means that the researchers applied machine learning to the existing monitoring technology and modeled it. In the process of this study, Residual Gas Analyzer monitoring technology and linear regression model were used. Through this model, the researchers identified emissions of at least 12700mg CO2 to 75800mg CO2 with values ranging from ion current 0.6A to 1.7A, and expect that the 'monitoring system' will contribute to the effective calculation of greenhouse gas emissions in the semiconductor industry in the future.

  • PDF

기계학습법을 이용한 IoMT 핀테크 모델을 기반으로 한 구조화 스토리지에서의 빅데이터 관리 연구 (Big Data Management in Structured Storage Based on Fintech Models for IoMT using Machine Learning Techniques)

  • 김경실
    • 산업과 과학
    • /
    • 1권1호
    • /
    • pp.7-15
    • /
    • 2022
  • 사물인터넷(IoT) 기술은 최근 의료사물인터넷(IoMT)으로 정의된 대량의 의료 데이터를 처리하여 발전을 위해 개발된 의료분야에서 많이 활용되고 있다. 수집된 광범위한 의료 데이터는 수집된 의료 데이터를 처리하기 위해 구조화된 방식으로 클라우드에 저장된다. 그러나 방대한 양의 의료 데이터를 효과적으로 처리하는 것은 쉽지 않기 때문에 의료분야 구조 데이터를 개발하는 것이 필요하다. 본 논문에서는 IoMT에서 수집된 구조화된 건강 관리 데이터를 처리하기 위한 기계 학습 모드를 개발하였다. 광범위한 의료 데이터를 처리하기 위해 본 논문에서는 의료 데이터 처리를 위한 MTGPLSTM 모델을 제안하였다. 제안된 모델은 의료 정보 처리를 위한 선형 회귀 모델을 통합한다. 개발된 모델 이상치 모델은 IoMT에서 수집된 COVID-19 의료 데이터들의 평가 및 예측을 위해 FinTech 모델을 기반으로 구현되었다. 제안된 MTGPLSTM 모델은 감염 확산 방지를 위한 계획 계획을 예측하고 평가하기 위한 회귀 모델로 구성된다. 개발된 모델 성능은 LR, SVR, RFR, LSTM 및 제안된 MTGPLSTM 모델과 같은 서로 다른 분류기를 고려하였으며 1GB, 2GB, 3GB 등 데이터 크기가 다르다는 점도 주요하게 고려되었다. 제안된 MTGPLSTM 모델이 전 세계 데이터에 대해 최대 4% 감소된 MAPE 및 RMSE 값을 달성하였고 중국의 경우 기존 분류기보다 최대 6% 최소인 최소 MAPE(0.97)이 달성되었다.