• 제목/요약/키워드: Lasso Regression

검색결과 106건 처리시간 0.026초

Why Gabor Frames? Two Fundamental Measures of Coherence and Their Role in Model Selection

  • Bajwa, Waheed U.;Calderbank, Robert;Jafarpour, Sina
    • Journal of Communications and Networks
    • /
    • 제12권4호
    • /
    • pp.289-307
    • /
    • 2010
  • The problem of model selection arises in a number of contexts, such as subset selection in linear regression, estimation of structures in graphical models, and signal denoising. This paper studies non-asymptotic model selection for the general case of arbitrary (random or deterministic) design matrices and arbitrary nonzero entries of the signal. In this regard, it generalizes the notion of incoherence in the existing literature on model selection and introduces two fundamental measures of coherence-termed as the worst-case coherence and the average coherence-among the columns of a design matrix. It utilizes these two measures of coherence to provide an in-depth analysis of a simple, model-order agnostic one-step thresholding (OST) algorithm for model selection and proves that OST is feasible for exact as well as partial model selection as long as the design matrix obeys an easily verifiable property, which is termed as the coherence property. One of the key insights offered by the ensuing analysis in this regard is that OST can successfully carry out model selection even when methods based on convex optimization such as the lasso fail due to the rank deficiency of the submatrices of the design matrix. In addition, the paper establishes that if the design matrix has reasonably small worst-case and average coherence then OST performs near-optimally when either (i) the energy of any nonzero entry of the signal is close to the average signal energy per nonzero entry or (ii) the signal-to-noise ratio in the measurement system is not too high. Finally, two other key contributions of the paper are that (i) it provides bounds on the average coherence of Gaussian matrices and Gabor frames, and (ii) it extends the results on model selection using OST to low-complexity, model-order agnostic recovery of sparse signals with arbitrary nonzero entries. In particular, this part of the analysis in the paper implies that an Alltop Gabor frame together with OST can successfully carry out model selection and recovery of sparse signals irrespective of the phases of the nonzero entries even if the number of nonzero entries scales almost linearly with the number of rows of the Alltop Gabor frame.

Prediction Models for Solitary Pulmonary Nodules Based on Curvelet Textural Features and Clinical Parameters

  • Wang, Jing-Jing;Wu, Hai-Feng;Sun, Tao;Li, Xia;Wang, Wei;Tao, Li-Xin;Huo, Da;Lv, Ping-Xin;He, Wen;Guo, Xiu-Hua
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제14권10호
    • /
    • pp.6019-6023
    • /
    • 2013
  • Lung cancer, one of the leading causes of cancer-related deaths, usually appears as solitary pulmonary nodules (SPNs) which are hard to diagnose using the naked eye. In this paper, curvelet-based textural features and clinical parameters are used with three prediction models [a multilevel model, a least absolute shrinkage and selection operator (LASSO) regression method, and a support vector machine (SVM)] to improve the diagnosis of benign and malignant SPNs. Dimensionality reduction of the original curvelet-based textural features was achieved using principal component analysis. In addition, non-conditional logistical regression was used to find clinical predictors among demographic parameters and morphological features. The results showed that, combined with 11 clinical predictors, the accuracy rates using 12 principal components were higher than those using the original curvelet-based textural features. To evaluate the models, 10-fold cross validation and back substitution were applied. The results obtained, respectively, were 0.8549 and 0.9221 for the LASSO method, 0.9443 and 0.9831 for SVM, and 0.8722 and 0.9722 for the multilevel model. All in all, it was found that using curvelet-based textural features after dimensionality reduction and using clinical predictors, the highest accuracy rate was achieved with SVM. The method may be used as an auxiliary tool to differentiate between benign and malignant SPNs in CT images.

기상요인과 식중독 발병의 연관성에 대한 빅 데이터 분석 (Big Data Study about the Effects of Weather Factors on Food Poisoning Incidence)

  • 박지애;김장묵;이호성;이해진
    • 디지털융복합연구
    • /
    • 제14권3호
    • /
    • pp.319-327
    • /
    • 2016
  • 본 연구는 2011년 1월1일부터 2014년 12월 31일까지의 기상변이에 관한 빅 데이터와 보건의료의 빅 데이터를 융합하여 식중독 발병률 변이에 기상요인이 어떤 영향을 주는지에 대한 분석을 시도하여 국민건강예방에 도움을 주고자한다. 분석도구 R을 이용하여 로지스틱 회귀와 Lasso 로지스틱 회귀 총 2가지 분석을 하였고, 식중독을 발생시키는 주 원인균을 분류하여 세균성 원인균과 바이러스성 원인균에 의한 식중독 발병률 변이를 확인하였다. 로지스틱 회귀 분석결과, 세균성 원인균에 의한 식중독 발병률에는 평균기온, 일조량편차, 기온편차가 유의미한 영향을 미치고, 바이러스성 원인균에 의한 식중독 발병률에 영향을 미치는 기상요인은 최소증기압, 일조량편차, 기온편차로 나타났다. 본 연구는 기상요인과 식중독 발병률이 상관성이 있음을 확인하였고, 두 가지 원인균에 의한 식중독 발병률이 같은 기상요인에 영향을 받더라도 원인균들의 특성에 따라 식중독 발병률에 반대의 영향을 미치는 것을 확인하였다.

유튜브 먹방과 온라인 배달 주문: 영향력 분석과 예측 모형 (Youtube Mukbang and Online Delivery Orders: Analysis of Impacts and Predictive Model)

  • 최사라;이상용
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.119-133
    • /
    • 2022
  • 음식 문화 및 산업과 관련한 대표적 특징들 중에는 음식 배달 주문 산업이 성장하고 있다는 것과 유튜브와 같은 1인 미디어에서의 소위 '먹는 방송' (먹방)이 최고의 인기 콘텐츠로 자리 잡았다는 사실 등을 거론할 수 있다. 본 연구는 이러한 배경에 근거하여 두가지 초점을 두어 연구하고자 하였다. 먼저, 유튜브 먹방과 먹방 댓글에서 확인되는 대중들의 감성이 관련 음식의 배달 이용 건수에 영향을 미치는지를 회귀분석 모형을 통하여 확인하고자 하였다. 다음으로, 대한민국에서 대표적인 주문 음식인 치킨의 배달 이용 건수 데이터와 유튜브 먹방 댓글 데이터와 날씨 데이터를 활용하여, 머신 러닝을 통한 치킨 배달 주문 예측 모형을 구현하였다. 2015년 6월 3일부터 2019년 9월 30일까지 총 1,580개의 데이터를 활용하였고, 날씨 변수로서의 온도, 습도, 강수량과 유튜브 먹방 변수로의 영상에 달린 댓글 수, 댓글의 긍정어 수, 중립어 수, 부정어 수 등을 수집하였다. 본 연구에 활용된 데이터의 유튜브 먹방과 먹방 댓글의 감성이 배달 이용 건수에 영향 미침을 확인하기위해 선형 회귀 방법론을 사용하였으며, 예측모델을 위해 사용된 머신 러닝은 Linear Regression, Ridge, Lasso, Random Forest, Gradient Boost이다. 본 연구를 통해 유튜브 먹방과 댓글의 감성이 배달 이용 건수에 영향 미침을 확인하였고 예측 모형 또한 기존 모델보다 성능이 좋아짐을 Root Mean Square Error 값을 통하여 확인하였다. 본 연구는 먹방의 광고 효과를 확인하였으며, 배달 업종에서의 경영에 활용할 수 있는 함의를 제공하고자 하였다.

Non-Contrast Cine Cardiac Magnetic Resonance Derived-Radiomics for the Prediction of Left Ventricular Adverse Remodeling in Patients With ST-Segment Elevation Myocardial Infarction

  • Xin A;Mingliang Liu;Tong Chen;Feng Chen;Geng Qian;Ying Zhang;Yundai Chen
    • Korean Journal of Radiology
    • /
    • 제24권9호
    • /
    • pp.827-837
    • /
    • 2023
  • Objective: To investigate the predictive value of radiomics features based on cardiac magnetic resonance (CMR) cine images for left ventricular adverse remodeling (LVAR) after acute ST-segment elevation myocardial infarction (STEMI). Materials and Methods: We conducted a retrospective, single-center, cohort study involving 244 patients (random-split into 170 and 74 for training and testing, respectively) having an acute STEMI (88.5% males, 57.0 ± 10.3 years of age) who underwent CMR examination at one week and six months after percutaneous coronary intervention. LVAR was defined as a 20% increase in left ventricular end-diastolic volume 6 months after acute STEMI. Radiomics features were extracted from the oneweek CMR cine images using the least absolute shrinkage and selection operator regression (LASSO) analysis. The predictive performance of the selected features was evaluated using receiver operating characteristic curve analysis and the area under the curve (AUC). Results: Nine radiomics features with non-zero coefficients were included in the LASSO regression of the radiomics score (RAD score). Infarct size (odds ratio [OR]: 1.04 (1.00-1.07); P = 0.031) and RAD score (OR: 3.43 (2.34-5.28); P < 0.001) were independent predictors of LVAR. The RAD score predicted LVAR, with an AUC (95% confidence interval [CI]) of 0.82 (0.75-0.89) in the training set and 0.75 (0.62-0.89) in the testing set. Combining the RAD score with infarct size yielded favorable performance in predicting LVAR, with an AUC of 0.84 (0.72-0.95). Moreover, the addition of the RAD score to the left ventricular ejection fraction (LVEF) significantly increased the AUC from 0.68 (0.52-0.84) to 0.82 (0.70-0.93) (P = 0.018), which was also comparable to the prediction provided by the combined microvascular obstruction, infarct size, and LVEF with an AUC of 0.79 (0.65-0.94) (P = 0.727). Conclusion: Radiomics analysis using non-contrast cine CMR can predict LVAR after STEMI independently and incrementally to LVEF and may provide an alternative to traditional CMR parameters.

Modelling the deflection of reinforced concrete beams using the improved artificial neural network by imperialist competitive optimization

  • Li, Ning;Asteris, Panagiotis G.;Tran, Trung-Tin;Pradhan, Biswajeet;Nguyen, Hoang
    • Steel and Composite Structures
    • /
    • 제42권6호
    • /
    • pp.733-745
    • /
    • 2022
  • This study proposed a robust artificial intelligence (AI) model based on the social behaviour of the imperialist competitive algorithm (ICA) and artificial neural network (ANN) for modelling the deflection of reinforced concrete beams, abbreviated as ICA-ANN model. Accordingly, the ICA was used to adjust and optimize the parameters of an ANN model (i.e., weights and biases) aiming to improve the accuracy of the ANN model in modelling the deflection reinforced concrete beams. A total of 120 experimental datasets of reinforced concrete beams were employed for this aim. Therein, applied load, tensile reinforcement strength and the reinforcement percentage were used to simulate the deflection of reinforced concrete beams. Besides, five other AI models, such as ANN, SVM (support vector machine), GLMNET (lasso and elastic-net regularized generalized linear models), CART (classification and regression tree) and KNN (k-nearest neighbours), were also used for the comprehensive assessment of the proposed model (i.e., ICA-ANN). The comparison of the derived results with the experimental findings demonstrates that among the developed models the ICA-ANN model is that can approximate the reinforced concrete beams deflection in a more reliable and robust manner.

TadGAN 기반 시계열 이상 탐지를 활용한 전처리 프로세스 연구 (A Pre-processing Process Using TadGAN-based Time-series Anomaly Detection)

  • 이승훈;김용수
    • 품질경영학회지
    • /
    • 제50권3호
    • /
    • pp.459-471
    • /
    • 2022
  • Purpose: The purpose of this study was to increase prediction accuracy for an anomaly interval identified using an artificial intelligence-based time series anomaly detection technique by establishing a pre-processing process. Methods: Significant variables were extracted by applying feature selection techniques, and anomalies were derived using the TadGAN time series anomaly detection algorithm. After applying machine learning and deep learning methodologies using normal section data (excluding anomaly sections), the explanatory power of the anomaly sections was demonstrated through performance comparison. Results: The results of the machine learning methodology, the performance was the best when SHAP and TadGAN were applied, and the results in the deep learning, the performance was excellent when Chi-square Test and TadGAN were applied. Comparing each performance with the papers applied with a Conventional methodology using the same data, it can be seen that the performance of the MLR was significantly improved to 15%, Random Forest to 24%, XGBoost to 30%, Lasso Regression to 73%, LSTM to 17% and GRU to 19%. Conclusion: Based on the proposed process, when detecting unsupervised learning anomalies of data that are not actually labeled in various fields such as cyber security, financial sector, behavior pattern field, SNS. It is expected to prove the accuracy and explanation of the anomaly detection section and improve the performance of the model.

쾌삭 303계 스테인리스강 소형 압연 선재 제조 공정의 생산품질 예측 모형 (Quality Prediction Model for Manufacturing Process of Free-Machining 303-series Stainless Steel Small Rolling Wire Rods)

  • 서석준;김흥섭
    • 산업경영시스템학회지
    • /
    • 제44권4호
    • /
    • pp.12-22
    • /
    • 2021
  • This article suggests the machine learning model, i.e., classifier, for predicting the production quality of free-machining 303-series stainless steel(STS303) small rolling wire rods according to the operating condition of the manufacturing process. For the development of the classifier, manufacturing data for 37 operating variables were collected from the manufacturing execution system(MES) of Company S, and the 12 types of derived variables were generated based on literature review and interviews with field experts. This research was performed with data preprocessing, exploratory data analysis, feature selection, machine learning modeling, and the evaluation of alternative models. In the preprocessing stage, missing values and outliers are removed, and oversampling using SMOTE(Synthetic oversampling technique) to resolve data imbalance. Features are selected by variable importance of LASSO(Least absolute shrinkage and selection operator) regression, extreme gradient boosting(XGBoost), and random forest models. Finally, logistic regression, support vector machine(SVM), random forest, and XGBoost are developed as a classifier to predict the adequate or defective products with new operating conditions. The optimal hyper-parameters for each model are investigated by the grid search and random search methods based on k-fold cross-validation. As a result of the experiment, XGBoost showed relatively high predictive performance compared to other models with an accuracy of 0.9929, specificity of 0.9372, F1-score of 0.9963, and logarithmic loss of 0.0209. The classifier developed in this study is expected to improve productivity by enabling effective management of the manufacturing process for the STS303 small rolling wire rods.

앙상블 모델과 SHAP Value를 활용한 국내 중고차 가격 예측 모델에 관한 연구: 차종 특성을 중심으로 (A Study on the Prediction Models of Used Car Prices Using Ensemble Model And SHAP Value: Focus on Feature of the Vehicle Type)

  • 임승준;이정호;류춘호
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.27-43
    • /
    • 2024
  • 중고차 시장에서 온라인 플랫폼 서비스의 시장 점유율은 지속적으로 증가하고 있다. 또한 중고차 온라인 플랫폼 서비스는 서비스 이용자에게 차량의 제원, 사고 이력, 점검 내역, 세부 옵션, 그리고 중고차의 가격 등을 공개하고 있다. 2023년 현재 국내 자동차 시장에서 SUV 차종의 신차 점유율은 50% 이상으로 확대되었으며, 하이브리드 차종은 신차 판매량이 지난해에 비해 두 배 이상 증가하였다. 이에 따라 이들 차종은 국내 중고차 시장에서도 인기를 끌고 있다. 기존 연구는 전체 차량 또는 브랜드별 차량을 대상으로 머신러닝 모델을 실행하여 중고차 가격 예측 모델을 제안하였다. 반면 국내 자동차 시장에서 SUV와 하이브리드 차종의 인기는 매년 상승하고 있으나, 이들 차종을 대상으로 중고차 가격 예측 모델을 제안한 연구는 찾기 어려웠다. 본 연구는 국내 시장에서 자국 브랜드가 생산한 세단, SUV, 그리고 하이브리드 차종을 대상으로 차량 제원과 옵션, 총 72개의 특성을 활용하여 이들 차종별 가장 우수한 중고차 가격 예측 모델을 선정하였다. 이를 위해 특성 선택으로 Lasso 회귀 모델을 활용하여 특성을 선별한 후 동일 샘플링으로 앙상블 모델을 실행하였다. 그 결과 모든 차종에서 최우수 모델은 CBR 모델로 선정되었으며, 차종별 최우수 모델을 대상으로 Tree SHAP Value의 시각화를 실행하여 특성의 기여도 및 방향성을 확인하였다. 본 연구의 시사점으로 온라인 플랫폼 서비스를 이용하는 매매관계자에게 차종별 중고차 가격 예측 모델을 제안하고 특성의 기여 수준과 방향성을 확인함으로써 이들 간 정보의 비대칭으로 야기된 문제 해결에 지원이 될 것으로 기대한다.

바이오폴리머-흙 처리(BPST) 기술의 강도 발현 거동에 대한 주요 영향인자 분석에 관한 연구 (Investigation on the Key Parameters for the Strengthening Behavior of Biopolymer-based Soil Treatment (BPST) Technology)

  • 이해진;조계춘;장일한
    • 토지주택연구
    • /
    • 제12권3호
    • /
    • pp.109-119
    • /
    • 2021
  • 최근 지구 온난화로 인한 이상 기후로 인해 과거보다 더 많은 지반공학 재해들이 발생하고 있으며, 재해들의 규모도 더욱 증대되고 있다. 최근 토목 및 건설분야에 소개된 바이오폴리머 기반 흙 처리(BPST; Biopolymer-based soil treatment) 기술은 효율적으로 흙의 강도를 증진시키면서 탄소배출이 거의 없는 친환경 지반보강법으로 알려져 있다. 특히, 아가검, 젤란검, 잔탄검과 같은 열적젤화 특성을 지닌 바이오폴리머들의 강도 증진 효과가 매우 우수함이 여러 연구를 통해 밝혀지고 있다. 하지만 바이오폴리머 함량 외에는 바이오폴리머 기반 흙 처리에서 흙의 강도 증진을 제어하는 주요 영향인자 규명에 대한 연구는 많이 부족한 실정이다. 본 연구에서는 기존 발표된 열적젤화 바이오 폴리머 처리 흙의 불구속일축압축강도(UCS; Unconfined compressive strength) 자료에 대한 기계학습 기반 선형회귀 분석을 통해 젤란검 바이오폴리머로 처리된 흙의 강도 발현을 결정하는 주요 인자들을 분석하였다. 해석 결과, 바이오폴리머 함량과 더불어 흙 속 점토 함량이 강도 발현에 가장 중요한 인자임을 확인할 수 있었다.