• 제목/요약/키워드: elastic net regression

검색결과 29건 처리시간 0.025초

Comparison of Lasso Type Estimators for High-Dimensional Data

  • Kim, Jaehee
    • Communications for Statistical Applications and Methods
    • /
    • 제21권4호
    • /
    • pp.349-361
    • /
    • 2014
  • This paper compares of lasso type estimators in various high-dimensional data situations with sparse parameters. Lasso, adaptive lasso, fused lasso and elastic net as lasso type estimators and ridge estimator are compared via simulation in linear models with correlated and uncorrelated covariates and binary regression models with correlated covariates and discrete covariates. Each method is shown to have advantages with different penalty conditions according to sparsity patterns of regression parameters. We applied the lasso type methods to Arabidopsis microarray gene expression data to find the strongly significant genes to distinguish two groups.

일반화가법모형에서 축소방법의 적용연구 (A Study on Applying Shrinkage Method in Generalized Additive Model)

  • 기승도;강기훈
    • 응용통계연구
    • /
    • 제23권1호
    • /
    • pp.207-218
    • /
    • 2010
  • 일반화가법모형은 기존 선형회귀모형의 문제점을 대부분 해결한 통계모형이지만 의미있는 독립변수의 수를 줄이는 방법이 적용되지 않을 경우 과대적합 문제가 발생할 수 있다. 그러므로 일반화가법모형에서 변수 축소방법을 적용하는 연구가 필요하다. 회귀분석에서 변수 축소방법으로 최근에는 Lasso 계열의 접근법이 연구되고 있다. 본 연구에서는 활용성이 높은 통계모형인 일반화가법모형에 Lasso 계열의 모형 중에서 Group Lasso와 Elastic net 모형을 적용하는 방법을 제시하고 이들의 해를 구하는 절차를 제안하였다. 그리고 제안된 방법을 모의실험과 실제자료인 회계년도 2005년 자동차보혐 자료에 적용을 통해 비교하여 보았다. 그 결과 본 논문에서 제안한 Group Lasso와 Elastic net을 이용하여 변수 축소를 통한 일반화가법모형이 기존의 방법보다 더 나은 결과를 제공하는 것으로 분석 되었다.

다중선형회귀모형에서의 변수선택기법 평가 (Evaluating Variable Selection Techniques for Multivariate Linear Regression)

  • 류나현;김형석;강필성
    • 대한산업공학회지
    • /
    • 제42권5호
    • /
    • pp.314-326
    • /
    • 2016
  • The purpose of variable selection techniques is to select a subset of relevant variables for a particular learning algorithm in order to improve the accuracy of prediction model and improve the efficiency of the model. We conduct an empirical analysis to evaluate and compare seven well-known variable selection techniques for multiple linear regression model, which is one of the most commonly used regression model in practice. The variable selection techniques we apply are forward selection, backward elimination, stepwise selection, genetic algorithm (GA), ridge regression, lasso (Least Absolute Shrinkage and Selection Operator) and elastic net. Based on the experiment with 49 regression data sets, it is found that GA resulted in the lowest error rates while lasso most significantly reduces the number of variables. In terms of computational efficiency, forward/backward elimination and lasso requires less time than the other techniques.

희소 투영행렬 획득을 위한 RSR 개선 방법론 (An Improved RSR Method to Obtain the Sparse Projection Matrix)

  • 안정호
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권4호
    • /
    • pp.605-613
    • /
    • 2015
  • 본 논문은 패턴인식에서 자주 사용되는 투영행렬을 희소화하는 문제를 다룬다. 최근 임베디드 시스템이 널리 사용됨에 따라 탑재되는 프로그램의 용량이 제한받는 경우가 빈번히 발생한다. 개발된 프로그램은 상수 데이터를 포함하는 경우가 많다. 예를 들어, 얼굴인식과 같은 패턴인식 프로그램의 경우 고차원 벡터를 저차원 벡터로 차원을 축소하는 투영행렬을 사용하는 경우가 많다. 인식성능 향상을 위해 영상으로부터 매우 높은 차원의 고차원 특징벡터를 추출하는 경우 투영행렬의 사이즈는 매우 크다. 최근 라소 회귀분석 방법을 이용한 RSR(rotated sparse regression) 방법론[1]이 제안되었다. 이 방법론은 여러 실험을 통해 희소행렬을 구하는 가장 우수한 알고리즘 중 하나로 평가받고 있다. 우리는 본 논문에서 RSR을 개선할 수 있는 세 가지 방법론을 제안한다. 즉, 학습데이터에서 이상치를 제거하여 일반화 성능을 높이는 방법, 학습데이터를 랜덤 샘플링하여 희소율을 높이는 방법, RSR의 목적함수에 엘라스틱 넷 회귀분석의 패널티 항을 사용한 E-RSR(elastic net-RSR) 방법을 제안한다. 우리는 실험을 통해 제안한 방법론이 인식률을 희생하지 않으며 희소율을 크게 증가시킴으로써 기존 RSR 방법론을 개선할 수 있음을 보였다.

Supervised Learning-Based Collaborative Filtering Using Market Basket Data for the Cold-Start Problem

  • Hwang, Wook-Yeon;Jun, Chi-Hyuck
    • Industrial Engineering and Management Systems
    • /
    • 제13권4호
    • /
    • pp.421-431
    • /
    • 2014
  • The market basket data in the form of a binary user-item matrix or a binary item-user matrix can be modelled as a binary classification problem. The binary logistic regression approach tackles the binary classification problem, where principal components are predictor variables. If users or items are sparse in the training data, the binary classification problem can be considered as a cold-start problem. The binary logistic regression approach may not function appropriately if the principal components are inefficient for the cold-start problem. Assuming that the market basket data can also be considered as a special regression problem whose response is either 0 or 1, we propose three supervised learning approaches: random forest regression, random forest classification, and elastic net to tackle the cold-start problem, comparing the performance in a variety of experimental settings. The experimental results show that the proposed supervised learning approaches outperform the conventional approaches.

국내 회사채 신용 등급 예측 모형의 비교 연구 (Comparative study of prediction models for corporate bond rating)

  • 박형권;강준영;허성욱;유동현
    • 응용통계연구
    • /
    • 제31권3호
    • /
    • pp.367-382
    • /
    • 2018
  • 회사채 신용 등급 예측 모형에 대한 연구는 신용 평가 기관이 회사채 신용 등급 평가에 사용될 것이라 예상 되는 여러 재무적 특성 변수들을 기반으로 진행되었으며 선형 회귀 모형(linear regression), 순위 로짓(ordered logit), 순위 프로빗(ordered probit), 서포트 벡터 기계(support vector machine), 랜덤 포레스트(random forest) 등 다양한 모형들을 적용하여 개발되었다. 하지만 기존 연구들에서 고려한 회사채 신용 등급은 연구에 따라 5등급에서 20등급까지 다른 등급 구간을 적용하였으며 분석에 이용된 표본 자료의 기간 및 대상도 상이하여 예측 성능의 공정한 비교에 어려움이 있다. 따라서 본 연구에서는 2013년부터 2017년까지의 회사채 신용 등급 자료와 기존 연구들에서 사용된 재무 지표들을 통합하여 기존에 발표된 예측 모형들을 동일한 자료에 적용하고 예측 성능을 비교하였다. 추가적으로 Elastic-net 벌점화 회귀 모형 및 순위 로짓, 순위 프로빗 모형을 적합하여 LASSO 벌점이 선택됨을 확인하였으며 LASSO 벌점을 고려한 예측 모형이 대응하는 기존의 예측 모형들보다 향상된 성능을 보임을 확인하였다. 본 연구의 수행 결과, 랜덤 포레스트를 이용한 예측 모형이 15등급 기준 검증 자료에서 정확한 등급 예측률이 69.6%로 다른 모형과 비교하여 높은 예측 성능을 나타내었다.

페널티 방법을 이용한 주성분분석 연구 (A study on principal component analysis using penalty method)

  • 박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권4호
    • /
    • pp.721-731
    • /
    • 2017
  • 이 연구에서는 Lasso 페널티 방법을 이용한 주성분분석 방법을 소개한다. 주성분분석에 Lasso 페널티를 적용하는 방법으로 흔히 사용되는 방법은 크게 두 가지가 있다. 첫 번째 방법은 주성분을 반응변수로 놓고 원 자료행렬을 설명변수로 하는 회귀분석의 회귀계수를 이용하여 최적의 선형결 합 벡터를 구할 때 Lasso 페널티 (일반적으로 elastic net 페널티)를 부과하는 방법이다. 두 번째 방법은 원자료행렬을 비정칙값 분해로 근사하고 남은 잔차행렬에 Lasso 페널티를 부과하여 최적의 선형결합 벡터를 구하는 방법이다. 이 연구에서는 주성분 분석에 Lasso 페널티를 부과하는 이 두 가지 방법들을 자세하게 개관하는데, 이 방법들은 변수 숫자가 표본크기보다 큰 경우에도 적용가능한 장점이 있다. 또한 실제 자료분석에서 R 프로그램을 통해 두 방법을 적용하고 그 결과를 비교한다. 구체적으로 변수 숫자가 표본크기보다 큰 Ahamad (1967)의 crime 자료에 적용한다.

Axial load prediction in double-skinned profiled steel composite walls using machine learning

  • G., Muthumari G;P. Vincent
    • Computers and Concrete
    • /
    • 제33권6호
    • /
    • pp.739-754
    • /
    • 2024
  • This study presents an innovative AI-driven approach to assess the ultimate axial load in Double-Skinned Profiled Steel sheet Composite Walls (DPSCWs). Utilizing a dataset of 80 entries, seven input parameters were employed, and various AI techniques, including Linear Regression, Polynomial Regression, Support Vector Regression, Decision Tree Regression, Decision Tree with AdaBoost Regression, Random Forest Regression, Gradient Boost Regression Tree, Elastic Net Regression, Ridge Regression, and LASSO Regression, were evaluated. Decision Tree Regression and Random Forest Regression emerged as the most accurate models. The top three performing models were integrated into a hybrid approach, excelling in accurately estimating DPSCWs' ultimate axial load. This adaptable hybrid model outperforms traditional methods, reducing errors in complex scenarios. The validated Artificial Neural Network (ANN) model showcases less than 1% error, enhancing reliability. Correlation analysis highlights robust predictions, emphasizing the importance of steel sheet thickness. The study contributes insights for predicting DPSCW strength in civil engineering, suggesting optimization and database expansion. The research advances precise load capacity estimation, empowering engineers to enhance construction safety and explore further machine learning applications in structural engineering.

Ranking subjects based on paired compositional data with application to age-related hearing loss subtyping

  • Nam, Jin Hyun;Khatiwada, Aastha;Matthews, Lois J.;Schulte, Bradley A.;Dubno, Judy R.;Chung, Dongjun
    • Communications for Statistical Applications and Methods
    • /
    • 제27권2호
    • /
    • pp.225-239
    • /
    • 2020
  • Analysis approaches for single compositional data are well established; however, effective analysis strategies for paired compositional data remain to be investigated. The current project was motivated by studies of age-related hearing loss (presbyacusis), where subjects are classified into four audiometric phenotypes that need to be ranked within these phenotypes based on their paired compositional data. We address this challenge by formulating this problem as a classification problem and integrating a penalized multinomial logistic regression model with compositional data analysis approaches. We utilize Elastic Net for a penalty function, while considering average, absolute difference, and perturbation operators for compositional data. We applied the proposed approach to the presbyacusis study of 532 subjects with probabilities that each ear of a subject belongs to each of four presbyacusis subtypes. We further investigated the ranking of presbyacusis subjects using the proposed approach based on previous literature. The data analysis results indicate that the proposed approach is effective for ranking subjects based on paired compositional data.

식생여과대 유사 저감 효율 산정을 위한 정규화 방안 (A Study on Regularization Methods to Evaluate the Sediment Trapping Efficiency of Vegetative Filter Strips)

  • 배주현;한정호;양재의;김종건;임경재;장원석
    • 한국농공학회논문집
    • /
    • 제61권6호
    • /
    • pp.9-19
    • /
    • 2019
  • Vegetative Filter Strip (VFS) is the best management practice which has been widely used to mitigate water pollutants from agricultural fields by alleviating runoff and sediment. This study was conducted to improve an equation for estimating sediment trapping efficiency of VFS using several different regularization methods (i.e., ordinary least squares analysis, LASSO, ridge regression analysis and elastic net). The four different regularization methods were employed to develop the sediment trapping efficiency equation of VFS. Each regularization method indicated high accuracy in estimating the sediment trapping efficiency of VFS. Among the four regularization methods, the ridge method showed the most accurate results according to $R^2$, RMSE and MAPE which were 0.94, 7.31% and 14.63%, respectively. The equation developed in this study can be applied in watershed-scale hydrological models in order to estimate the sediment trapping efficiency of VFS in agricultural fields for an effective watershed management in Korea.