• 제목/요약/키워드: Lasso Regression

검색결과 104건 처리시간 0.033초

기상요인과 식중독 발병의 연관성에 대한 빅 데이터 분석 (Big Data Study about the Effects of Weather Factors on Food Poisoning Incidence)

  • 박지애;김장묵;이호성;이해진
    • 디지털융복합연구
    • /
    • 제14권3호
    • /
    • pp.319-327
    • /
    • 2016
  • 본 연구는 2011년 1월1일부터 2014년 12월 31일까지의 기상변이에 관한 빅 데이터와 보건의료의 빅 데이터를 융합하여 식중독 발병률 변이에 기상요인이 어떤 영향을 주는지에 대한 분석을 시도하여 국민건강예방에 도움을 주고자한다. 분석도구 R을 이용하여 로지스틱 회귀와 Lasso 로지스틱 회귀 총 2가지 분석을 하였고, 식중독을 발생시키는 주 원인균을 분류하여 세균성 원인균과 바이러스성 원인균에 의한 식중독 발병률 변이를 확인하였다. 로지스틱 회귀 분석결과, 세균성 원인균에 의한 식중독 발병률에는 평균기온, 일조량편차, 기온편차가 유의미한 영향을 미치고, 바이러스성 원인균에 의한 식중독 발병률에 영향을 미치는 기상요인은 최소증기압, 일조량편차, 기온편차로 나타났다. 본 연구는 기상요인과 식중독 발병률이 상관성이 있음을 확인하였고, 두 가지 원인균에 의한 식중독 발병률이 같은 기상요인에 영향을 받더라도 원인균들의 특성에 따라 식중독 발병률에 반대의 영향을 미치는 것을 확인하였다.

유튜브 먹방과 온라인 배달 주문: 영향력 분석과 예측 모형 (Youtube Mukbang and Online Delivery Orders: Analysis of Impacts and Predictive Model)

  • 최사라;이상용
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.119-133
    • /
    • 2022
  • 음식 문화 및 산업과 관련한 대표적 특징들 중에는 음식 배달 주문 산업이 성장하고 있다는 것과 유튜브와 같은 1인 미디어에서의 소위 '먹는 방송' (먹방)이 최고의 인기 콘텐츠로 자리 잡았다는 사실 등을 거론할 수 있다. 본 연구는 이러한 배경에 근거하여 두가지 초점을 두어 연구하고자 하였다. 먼저, 유튜브 먹방과 먹방 댓글에서 확인되는 대중들의 감성이 관련 음식의 배달 이용 건수에 영향을 미치는지를 회귀분석 모형을 통하여 확인하고자 하였다. 다음으로, 대한민국에서 대표적인 주문 음식인 치킨의 배달 이용 건수 데이터와 유튜브 먹방 댓글 데이터와 날씨 데이터를 활용하여, 머신 러닝을 통한 치킨 배달 주문 예측 모형을 구현하였다. 2015년 6월 3일부터 2019년 9월 30일까지 총 1,580개의 데이터를 활용하였고, 날씨 변수로서의 온도, 습도, 강수량과 유튜브 먹방 변수로의 영상에 달린 댓글 수, 댓글의 긍정어 수, 중립어 수, 부정어 수 등을 수집하였다. 본 연구에 활용된 데이터의 유튜브 먹방과 먹방 댓글의 감성이 배달 이용 건수에 영향 미침을 확인하기위해 선형 회귀 방법론을 사용하였으며, 예측모델을 위해 사용된 머신 러닝은 Linear Regression, Ridge, Lasso, Random Forest, Gradient Boost이다. 본 연구를 통해 유튜브 먹방과 댓글의 감성이 배달 이용 건수에 영향 미침을 확인하였고 예측 모형 또한 기존 모델보다 성능이 좋아짐을 Root Mean Square Error 값을 통하여 확인하였다. 본 연구는 먹방의 광고 효과를 확인하였으며, 배달 업종에서의 경영에 활용할 수 있는 함의를 제공하고자 하였다.

Non-Contrast Cine Cardiac Magnetic Resonance Derived-Radiomics for the Prediction of Left Ventricular Adverse Remodeling in Patients With ST-Segment Elevation Myocardial Infarction

  • Xin A;Mingliang Liu;Tong Chen;Feng Chen;Geng Qian;Ying Zhang;Yundai Chen
    • Korean Journal of Radiology
    • /
    • 제24권9호
    • /
    • pp.827-837
    • /
    • 2023
  • Objective: To investigate the predictive value of radiomics features based on cardiac magnetic resonance (CMR) cine images for left ventricular adverse remodeling (LVAR) after acute ST-segment elevation myocardial infarction (STEMI). Materials and Methods: We conducted a retrospective, single-center, cohort study involving 244 patients (random-split into 170 and 74 for training and testing, respectively) having an acute STEMI (88.5% males, 57.0 ± 10.3 years of age) who underwent CMR examination at one week and six months after percutaneous coronary intervention. LVAR was defined as a 20% increase in left ventricular end-diastolic volume 6 months after acute STEMI. Radiomics features were extracted from the oneweek CMR cine images using the least absolute shrinkage and selection operator regression (LASSO) analysis. The predictive performance of the selected features was evaluated using receiver operating characteristic curve analysis and the area under the curve (AUC). Results: Nine radiomics features with non-zero coefficients were included in the LASSO regression of the radiomics score (RAD score). Infarct size (odds ratio [OR]: 1.04 (1.00-1.07); P = 0.031) and RAD score (OR: 3.43 (2.34-5.28); P < 0.001) were independent predictors of LVAR. The RAD score predicted LVAR, with an AUC (95% confidence interval [CI]) of 0.82 (0.75-0.89) in the training set and 0.75 (0.62-0.89) in the testing set. Combining the RAD score with infarct size yielded favorable performance in predicting LVAR, with an AUC of 0.84 (0.72-0.95). Moreover, the addition of the RAD score to the left ventricular ejection fraction (LVEF) significantly increased the AUC from 0.68 (0.52-0.84) to 0.82 (0.70-0.93) (P = 0.018), which was also comparable to the prediction provided by the combined microvascular obstruction, infarct size, and LVEF with an AUC of 0.79 (0.65-0.94) (P = 0.727). Conclusion: Radiomics analysis using non-contrast cine CMR can predict LVAR after STEMI independently and incrementally to LVEF and may provide an alternative to traditional CMR parameters.

Modelling the deflection of reinforced concrete beams using the improved artificial neural network by imperialist competitive optimization

  • Li, Ning;Asteris, Panagiotis G.;Tran, Trung-Tin;Pradhan, Biswajeet;Nguyen, Hoang
    • Steel and Composite Structures
    • /
    • 제42권6호
    • /
    • pp.733-745
    • /
    • 2022
  • This study proposed a robust artificial intelligence (AI) model based on the social behaviour of the imperialist competitive algorithm (ICA) and artificial neural network (ANN) for modelling the deflection of reinforced concrete beams, abbreviated as ICA-ANN model. Accordingly, the ICA was used to adjust and optimize the parameters of an ANN model (i.e., weights and biases) aiming to improve the accuracy of the ANN model in modelling the deflection reinforced concrete beams. A total of 120 experimental datasets of reinforced concrete beams were employed for this aim. Therein, applied load, tensile reinforcement strength and the reinforcement percentage were used to simulate the deflection of reinforced concrete beams. Besides, five other AI models, such as ANN, SVM (support vector machine), GLMNET (lasso and elastic-net regularized generalized linear models), CART (classification and regression tree) and KNN (k-nearest neighbours), were also used for the comprehensive assessment of the proposed model (i.e., ICA-ANN). The comparison of the derived results with the experimental findings demonstrates that among the developed models the ICA-ANN model is that can approximate the reinforced concrete beams deflection in a more reliable and robust manner.

TadGAN 기반 시계열 이상 탐지를 활용한 전처리 프로세스 연구 (A Pre-processing Process Using TadGAN-based Time-series Anomaly Detection)

  • 이승훈;김용수
    • 품질경영학회지
    • /
    • 제50권3호
    • /
    • pp.459-471
    • /
    • 2022
  • Purpose: The purpose of this study was to increase prediction accuracy for an anomaly interval identified using an artificial intelligence-based time series anomaly detection technique by establishing a pre-processing process. Methods: Significant variables were extracted by applying feature selection techniques, and anomalies were derived using the TadGAN time series anomaly detection algorithm. After applying machine learning and deep learning methodologies using normal section data (excluding anomaly sections), the explanatory power of the anomaly sections was demonstrated through performance comparison. Results: The results of the machine learning methodology, the performance was the best when SHAP and TadGAN were applied, and the results in the deep learning, the performance was excellent when Chi-square Test and TadGAN were applied. Comparing each performance with the papers applied with a Conventional methodology using the same data, it can be seen that the performance of the MLR was significantly improved to 15%, Random Forest to 24%, XGBoost to 30%, Lasso Regression to 73%, LSTM to 17% and GRU to 19%. Conclusion: Based on the proposed process, when detecting unsupervised learning anomalies of data that are not actually labeled in various fields such as cyber security, financial sector, behavior pattern field, SNS. It is expected to prove the accuracy and explanation of the anomaly detection section and improve the performance of the model.

쾌삭 303계 스테인리스강 소형 압연 선재 제조 공정의 생산품질 예측 모형 (Quality Prediction Model for Manufacturing Process of Free-Machining 303-series Stainless Steel Small Rolling Wire Rods)

  • 서석준;김흥섭
    • 산업경영시스템학회지
    • /
    • 제44권4호
    • /
    • pp.12-22
    • /
    • 2021
  • This article suggests the machine learning model, i.e., classifier, for predicting the production quality of free-machining 303-series stainless steel(STS303) small rolling wire rods according to the operating condition of the manufacturing process. For the development of the classifier, manufacturing data for 37 operating variables were collected from the manufacturing execution system(MES) of Company S, and the 12 types of derived variables were generated based on literature review and interviews with field experts. This research was performed with data preprocessing, exploratory data analysis, feature selection, machine learning modeling, and the evaluation of alternative models. In the preprocessing stage, missing values and outliers are removed, and oversampling using SMOTE(Synthetic oversampling technique) to resolve data imbalance. Features are selected by variable importance of LASSO(Least absolute shrinkage and selection operator) regression, extreme gradient boosting(XGBoost), and random forest models. Finally, logistic regression, support vector machine(SVM), random forest, and XGBoost are developed as a classifier to predict the adequate or defective products with new operating conditions. The optimal hyper-parameters for each model are investigated by the grid search and random search methods based on k-fold cross-validation. As a result of the experiment, XGBoost showed relatively high predictive performance compared to other models with an accuracy of 0.9929, specificity of 0.9372, F1-score of 0.9963, and logarithmic loss of 0.0209. The classifier developed in this study is expected to improve productivity by enabling effective management of the manufacturing process for the STS303 small rolling wire rods.

앙상블 모델과 SHAP Value를 활용한 국내 중고차 가격 예측 모델에 관한 연구: 차종 특성을 중심으로 (A Study on the Prediction Models of Used Car Prices Using Ensemble Model And SHAP Value: Focus on Feature of the Vehicle Type)

  • 임승준;이정호;류춘호
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.27-43
    • /
    • 2024
  • 중고차 시장에서 온라인 플랫폼 서비스의 시장 점유율은 지속적으로 증가하고 있다. 또한 중고차 온라인 플랫폼 서비스는 서비스 이용자에게 차량의 제원, 사고 이력, 점검 내역, 세부 옵션, 그리고 중고차의 가격 등을 공개하고 있다. 2023년 현재 국내 자동차 시장에서 SUV 차종의 신차 점유율은 50% 이상으로 확대되었으며, 하이브리드 차종은 신차 판매량이 지난해에 비해 두 배 이상 증가하였다. 이에 따라 이들 차종은 국내 중고차 시장에서도 인기를 끌고 있다. 기존 연구는 전체 차량 또는 브랜드별 차량을 대상으로 머신러닝 모델을 실행하여 중고차 가격 예측 모델을 제안하였다. 반면 국내 자동차 시장에서 SUV와 하이브리드 차종의 인기는 매년 상승하고 있으나, 이들 차종을 대상으로 중고차 가격 예측 모델을 제안한 연구는 찾기 어려웠다. 본 연구는 국내 시장에서 자국 브랜드가 생산한 세단, SUV, 그리고 하이브리드 차종을 대상으로 차량 제원과 옵션, 총 72개의 특성을 활용하여 이들 차종별 가장 우수한 중고차 가격 예측 모델을 선정하였다. 이를 위해 특성 선택으로 Lasso 회귀 모델을 활용하여 특성을 선별한 후 동일 샘플링으로 앙상블 모델을 실행하였다. 그 결과 모든 차종에서 최우수 모델은 CBR 모델로 선정되었으며, 차종별 최우수 모델을 대상으로 Tree SHAP Value의 시각화를 실행하여 특성의 기여도 및 방향성을 확인하였다. 본 연구의 시사점으로 온라인 플랫폼 서비스를 이용하는 매매관계자에게 차종별 중고차 가격 예측 모델을 제안하고 특성의 기여 수준과 방향성을 확인함으로써 이들 간 정보의 비대칭으로 야기된 문제 해결에 지원이 될 것으로 기대한다.

바이오폴리머-흙 처리(BPST) 기술의 강도 발현 거동에 대한 주요 영향인자 분석에 관한 연구 (Investigation on the Key Parameters for the Strengthening Behavior of Biopolymer-based Soil Treatment (BPST) Technology)

  • 이해진;조계춘;장일한
    • 토지주택연구
    • /
    • 제12권3호
    • /
    • pp.109-119
    • /
    • 2021
  • 최근 지구 온난화로 인한 이상 기후로 인해 과거보다 더 많은 지반공학 재해들이 발생하고 있으며, 재해들의 규모도 더욱 증대되고 있다. 최근 토목 및 건설분야에 소개된 바이오폴리머 기반 흙 처리(BPST; Biopolymer-based soil treatment) 기술은 효율적으로 흙의 강도를 증진시키면서 탄소배출이 거의 없는 친환경 지반보강법으로 알려져 있다. 특히, 아가검, 젤란검, 잔탄검과 같은 열적젤화 특성을 지닌 바이오폴리머들의 강도 증진 효과가 매우 우수함이 여러 연구를 통해 밝혀지고 있다. 하지만 바이오폴리머 함량 외에는 바이오폴리머 기반 흙 처리에서 흙의 강도 증진을 제어하는 주요 영향인자 규명에 대한 연구는 많이 부족한 실정이다. 본 연구에서는 기존 발표된 열적젤화 바이오 폴리머 처리 흙의 불구속일축압축강도(UCS; Unconfined compressive strength) 자료에 대한 기계학습 기반 선형회귀 분석을 통해 젤란검 바이오폴리머로 처리된 흙의 강도 발현을 결정하는 주요 인자들을 분석하였다. 해석 결과, 바이오폴리머 함량과 더불어 흙 속 점토 함량이 강도 발현에 가장 중요한 인자임을 확인할 수 있었다.

머신러닝을 활용한 브랜드별 국내 중고차 가격 예측 모델에 관한 연구 (A Study on the Prediction Models of Used Car Prices for Domestic Brands Using Machine Learning)

  • 임승준;이정호;류춘호
    • 서비스연구
    • /
    • 제13권3호
    • /
    • pp.105-126
    • /
    • 2023
  • 국내 중고차 시장은 지속적으로 성장하고 있으며, 이와 동시에 중고차 온라인 플랫폼 서비스 역시 함께 매년 시장 점유율을 확대하고 있다. 중고차 온라인 플랫폼 서비스는 차량의 제원, 점검 이력, 사고 내역, 그리고 세부 옵션 등을 서비스 이용자에게 제공하고 있다. 대부분의 기존 연구는 차량의 제원과 차량의 일부 옵션을 활용한 중고차 가격의 예측이었으며, 중고차 가격과 일부 제원 변수 간 비선형 관계임을 확인하였다. 이에 따라 연구자들은 이러한 비선형 문제를 해결하기 위해 머신러닝(Machine Learning) 모델의 실행을 제안하였으며, 그 결과 회귀(Regression) 기반 머신러닝 모델은 변수의 실질적인 영향력과 방향성을 알 수 있는 장점이 존재하였으나, 트리(Decision Tree) 기반 머신러닝 모델에 비해 비용함수 수치가 저조한 단점이 존재하였다. 본 연구는 국내 브랜드를 대상으로 차량의 제원과 차량의 옵션, 총 70여 개의 변수를 모두 활용하여 회귀 기반 머신러닝 모델과 트리 기반 머신러닝 모델을 순차적으로 실행하여 두 유형의 머신러닝 모델의 장점을 취합하고자 하였다. 이를 통해 브랜드별 변수의 실질적 영향력과 방향성을 확인한 후 브랜드별 가장 우수한 트리 기반 머신러닝 모델을 선정하였다. 본 연구의 시사점은 다음과 같다. 중고차 온라인 플랫폼 서비스를 이용하는 구매자와 판매자가 전반적인 중고차 가격 예측을 지원할 수 있다. 이에 따라 중고차 온라인 플랫폼 서비스 이용자 간 정보의 비대칭으로 인한 문제 해결 역시 지원이 가능할 것으로 기대한다.

Prediction of Postoperative Lung Function in Lung Cancer Patients Using Machine Learning Models

  • Oh Beom Kwon;Solji Han;Hwa Young Lee;Hye Seon Kang;Sung Kyoung Kim;Ju Sang Kim;Chan Kwon Park;Sang Haak Lee;Seung Joon Kim;Jin Woo Kim;Chang Dong Yeo
    • Tuberculosis and Respiratory Diseases
    • /
    • 제86권3호
    • /
    • pp.203-215
    • /
    • 2023
  • Background: Surgical resection is the standard treatment for early-stage lung cancer. Since postoperative lung function is related to mortality, predicted postoperative lung function is used to determine the treatment modality. The aim of this study was to evaluate the predictive performance of linear regression and machine learning models. Methods: We extracted data from the Clinical Data Warehouse and developed three sets: set I, the linear regression model; set II, machine learning models omitting the missing data: and set III, machine learning models imputing the missing data. Six machine learning models, the least absolute shrinkage and selection operator (LASSO), Ridge regression, ElasticNet, Random Forest, eXtreme gradient boosting (XGBoost), and the light gradient boosting machine (LightGBM) were implemented. The forced expiratory volume in 1 second measured 6 months after surgery was defined as the outcome. Five-fold cross-validation was performed for hyperparameter tuning of the machine learning models. The dataset was split into training and test datasets at a 70:30 ratio. Implementation was done after dataset splitting in set III. Predictive performance was evaluated by R2 and mean squared error (MSE) in the three sets. Results: A total of 1,487 patients were included in sets I and III and 896 patients were included in set II. In set I, the R2 value was 0.27 and in set II, LightGBM was the best model with the highest R2 value of 0.5 and the lowest MSE of 154.95. In set III, LightGBM was the best model with the highest R2 value of 0.56 and the lowest MSE of 174.07. Conclusion: The LightGBM model showed the best performance in predicting postoperative lung function.