• 제목/요약/키워드: LASSO regression

검색결과 104건 처리시간 0.033초

머신러닝 회귀분석 유형에 따른 총 공사기간 예측 모델에 관한 연구 (A Study on the Prediction Model of Total Construction Period according to the Type of Machine Learning Regression )

  • 강윤호;윤석헌
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2023년도 봄 학술논문 발표대회
    • /
    • pp.361-362
    • /
    • 2023
  • In construction work, there is often a difference between the estimated construction period and the actual construction period. Accordingly, the project may be delayed from the scheduled date, leading to huge losses due to problems such as increased costs during construction. In this way, it is important to calculate the appropriate construction period at the project planning stage in construction work. To solve this problem, we would like to study a model that will increase the accuracy of the scheduled construction period at the project planning stage. This study compared and analyzed linear regression, Lasso regression, Ridge regression among the types of regression analysis to select an appropriate construction period prediction model to secure an appropriate construction period at the project planning stage to reduce problems during construction.

  • PDF

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구 (Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction)

  • 조영식;정관수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF

Low-GloSea6 기상 예측 소프트웨어의 머신러닝 기법 적용 연구 (A Study of the Application of Machine Learning Methods in the Low-GloSea6 Weather Prediction Solution)

  • 박혜성;조예린;신대영;윤은옥;정성욱
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.307-314
    • /
    • 2023
  • 슈퍼컴퓨팅 기술 및 하드웨어 기술이 발전함에 따라 기후 예측 모델도 고도화되고 있다. 한국 기상청 역시 영국 기상청으로부터 GloSea5을 도입하였고 한국 기상 환경에 맞추어 업데이트된 GloSea6를 운용 중이다. 각 대학 및 연구기관에서는 슈퍼컴퓨터보다는 사양이 낮은 중소규모 서버에서 활용하기 위해 저해상도 결합모델인 Low-GloSea6를 구축하여 사용하고 있다. 본 논문에서는 중소규모 서버에서의 기상 연구의 효율성을 위한 Low-GloSea6 소프트웨어를 분석하여 가장 많은 CPU Time을 점유하는 대기 모델의 tri_sor.F90 모듈의 tri_sor_dp_dp 서브루틴을 Hotspot으로 검출하였다. 해당 함수에 머신러닝의 한 종류인 선형 회귀 모델을 적용하여 해당 기법의 가능성을 확인한다. 이상치 데이터를 제거 후 선형 회귀 모델을 학습한 결과 RMSE는 2.7665e-08, MAE는 1.4958e-08으로 Lasso 회귀, ElasticNet 회귀보다 더욱 좋은 성능을 보였다. 이는 Low-GloSea6 수행 과정 중 Hotspot으로 검출된 tri_sor.F90 모듈에 머신러닝 기법 적용 가능성을 확인하였다.

GWL을 적용한 공간 헤도닉 모델링 (Spatial Hedonic Modeling using Geographically Weighted LASSO Model)

  • 진찬우;이건학
    • 대한지리학회지
    • /
    • 제49권6호
    • /
    • pp.917-934
    • /
    • 2014
  • 지리가중회귀 모델(GWR)은 국지적으로 이질적인 부동산 가격을 추정할 수 있는 도구로 폭넓게 활용되어 왔다. 그럼에도 불구하고 GWR은 공간적으로 이질적인 가격결정요인의 선택이나 국지적 추정에서의 관측치 수의 제한 등과 같은 한계를 가지고 있다. 본 연구는 이러한 한계를 극복하기 위한 대안으로 최근 주목받고 있는 지리가중라소 모델(GWL)을 이용하여 국지적으로 다양한 부동산 가격결정요인들을 탐색하고, 부동산 가격 추정에 있어서 GWL 모델의 적용가능성을 살펴보고자 한다. 이를 위해 서울시 아파트 가격을 대상으로 OLS, GWR, GWL의 헤도닉 모델을 구축하였으며, 모델의 설명력, 예측력, 다중공선성 측면에서 이들을 비교 분석하였다. 그 결과, 전역적 모델에 비해 국지적 모델이 전체적인 설명력, 예측력이 우수한 것으로 나타났으며, 특히 국지적 모델 중 GWL 모델은 다중공선성 문제를 자동적으로 해결하면서 공간적으로 이질적인 가격 결정요인 집합들을 도출하였고, 다른 모델들에 비해 상당히 높은 설명력과 예측력을 보여주고 있다. 본 연구에서 적용한 GWL 모델은 고차원의 데이터셋에서 유의미한 독립 변수들을 효율적으로 선정하는데 직접적인 도움을 줌으로써 부동산과 같이 대용량의 복잡한 구조를 가진 공간 빅데이터를 위한 유용한 분석 기법으로 활용될 수 있을 것이다.

  • PDF

Applied linear and nonlinear statistical models for evaluating strength of Geopolymer concrete

  • Prem, Prabhat Ranjan;Thirumalaiselvi, A.;Verma, Mohit
    • Computers and Concrete
    • /
    • 제24권1호
    • /
    • pp.7-17
    • /
    • 2019
  • The complex phenomenon of the bond formation in geopolymer is not well understood and therefore, difficult to model. This paper present applied statistical models for evaluating the compressive strength of geopolymer. The applied statistical models studied are divided into three different categories - linear regression [least absolute shrinkage and selection operator (LASSO) and elastic net], tree regression [decision and bagging tree] and kernel methods (support vector regression (SVR), kernel ridge regression (KRR), Gaussian process regression (GPR), relevance vector machine (RVM)]. The performance of the methods is compared in terms of error indices, computational effort, convergence and residuals. Based on the present study, kernel based methods (GPR and KRR) are recommended for evaluating compressive strength of Geopolymer concrete.

Pure additive contribution of genetic variants to a risk prediction model using propensity score matching: application to type 2 diabetes

  • Park, Chanwoo;Jiang, Nan;Park, Taesung
    • Genomics & Informatics
    • /
    • 제17권4호
    • /
    • pp.47.1-47.12
    • /
    • 2019
  • The achievements of genome-wide association studies have suggested ways to predict diseases, such as type 2 diabetes (T2D), using single-nucleotide polymorphisms (SNPs). Most T2D risk prediction models have used SNPs in combination with demographic variables. However, it is difficult to evaluate the pure additive contribution of genetic variants to classically used demographic models. Since prediction models include some heritable traits, such as body mass index, the contribution of SNPs using unmatched case-control samples may be underestimated. In this article, we propose a method that uses propensity score matching to avoid underestimation by matching case and control samples, thereby determining the pure additive contribution of SNPs. To illustrate the proposed propensity score matching method, we used SNP data from the Korea Association Resources project and reported SNPs from the genome-wide association study catalog. We selected various SNP sets via stepwise logistic regression (SLR), least absolute shrinkage and selection operator (LASSO), and the elastic-net (EN) algorithm. Using these SNP sets, we made predictions using SLR, LASSO, and EN as logistic regression modeling techniques. The accuracy of the predictions was compared in terms of area under the receiver operating characteristic curve (AUC). The contribution of SNPs to T2D was evaluated by the difference in the AUC between models using only demographic variables and models that included the SNPs. The largest difference among our models showed that the AUC of the model using genetic variants with demographic variables could be 0.107 higher than that of the corresponding model using only demographic variables.

머신러닝 알고리즘을 이용한 온실 딸기 생산량 예측 (Prediction of Greenhouse Strawberry Production Using Machine Learning Algorithm)

  • 김나은;한희선;아룰모지엘렌체쟌;문병은;최영우;김현태
    • 생물환경조절학회지
    • /
    • 제31권1호
    • /
    • pp.1-7
    • /
    • 2022
  • 서부 경남 지역 중 딸기재배로 유명한 지역 40개 농가를 대상으로 한 조사에 따르면 국산품종 중에서 "설향"이 65.0%으로서 가장 선호하고 있는 것으로 나타났다. 그리고 현재의 농업은 4차 산업혁명으로 스마트팜(Smart Farm)의 기술이 더욱 발전하고 있는 실정이다. 그러나 각 생육단계가 어떤 상황일 때 딸기의 생산량이 최적에 달하는지 대한 기준이 없으며, 이러한 판단기준은 아직까지 스마트팜에 경험이 있는 농업인의 의사에 달려있다는 문제점이 있다. 따라서 본 연구에서는 딸기의 생육상황에 대한 생산량 예측을 통해 선진화된 스마트팜 시스템을 구축하고자 한다. 실험 장소는 경상남도 사천시의 딸기 농가에서 수행하였으며, 총 3곳을 대상으로 데이터 수집을 진행하였다. 실험 대상의 모든 온실 내에서 재배하는 딸기의 품종은 '설향'이다. 작물 데이터의 수집 항목은 작물의 엽수, 꽃수, 과실수, 초장, 잎의 길이, 엽록소 함량이며, 환경 데이터의 수집 항목은 온도, 습도, 조도이다. 기존의 농가 단위의 스마트팜의 문제점 보완 및 개선을 통하여 고품질의 작물 생장 상태를 유지하기 위해 K-fold 교차검증, Lasso 회귀분석, MAPE 검증을 통해 예측모델을 도출하였으며, MAPE 검증 결과 값으로 0.511(꽃 예측)과 0.488(과일 예측)의 값이 나타났다. 본 연구는 스마트팜 데이터 구축을 위해서는 AI를 통해 성장상태별 수확량을 예측하였으며, 이를 농가 및 농업 관련 기업에 활용해 농업 서비스가 편리할 것으로 판단된다.

SNS 기반 여론 감성 분석 (Sentiment Analysis for Public Opinion in the Social Network Service)

  • 하상현;노태협
    • 문화기술의 융합
    • /
    • 제6권1호
    • /
    • pp.111-120
    • /
    • 2020
  • 본 연구는 소셜네트워크서비스(SNS)상의 빅데이터를 이용한 텍스트 분석기법의 응용으로서 설문 조사 기반의 여론 조사 방법론과 달리 비정형적 언어 기반의 감성 여론 조사 방법론을 제안한다. 기존의 설문 기반 여론 분석모형에 대한 대안적 방법으로 주관성에 기초한 감성 분류 모형을 이용하였다. 이를 위하여, 제20대 국회의원 선거운동 기간 중 선거 관련 실시간 트위터 자료를 수집하여 속성 기반 감성 분석을 이용한 여론의 극성과 강도에 대한 실증 분석을 수행하였다. 개별 SNS에서 사용된 단어의 극성을 분류하기 위해 Lasso 및 Ridge 회귀 모형을 이용하여 극성에 영향력이 큰 변수를 추출하였다. 추출된 변수가 극성에 미치는 긍정 및 부정에 대한 영향을 구분하고, 영향력의 강도를 분석하였다. 대중들이 소셜네트워크상에서 표현한 내용을 바탕으로 한 여론에 대한 긍정 및 부정의 감성 분석을 통해 여론의 향방을 예측하고 극성분석 모형의 정확도를 측정하여, 여론 조사 분야에서 감성 분석 방법론의 적용가능성을 확인하였다.

농업기반시설물 양·배수장의 성능저하 요인분석 및 성능평가 모델 개발 (Development of Evaluation Model of Pumping and Drainage Station Using Performance Degradation Factors)

  • 이종혁;이상익;정영준;이제명;윤성수;박진선;이병준;이준구;최원
    • 한국농공학회논문집
    • /
    • 제61권4호
    • /
    • pp.75-86
    • /
    • 2019
  • Recently, natural disasters due to abnormal climates are frequently outbreaking, and there is rapid increase of damage to aged agricultural infrastructure. As agricultural infrastructure facilities are in contact with water throughout the year and the number of them is significant, it is important to build a maintenance management system. Especially, the current maintenance management system of pumping and drainage stations among the agricultural facilities has the limit of lack of objectivity and management personnel. The purpose of this study is to develop a performance evaluation model using the factors related to performance degradation of pumping and drainage facilities and to predict the performance of the facilities in response to climate change. In this study, we focused on the pumping and drainage stations belonging to each climatic zone separated by the Korea geographical climatic classification system. The performance evaluation model was developed using three different statistical models of POLS, RE, and LASSO. As the result of analysis of statistical models, LASSO was selected for the performance evaluation model as it solved the multicollinearity problem between variables, and showed the smallest MSE. To predict the performance degradation due to climate change, the climate change response variables were classified into three categories: climate exposure, sensitivity, and adaptive capacity. The performance degradation prediction was performed at each facility using the developed performance evaluation model and the climate change response variables.