• 제목/요약/키워드: LASSO

검색결과 169건 처리시간 0.024초

그래프 LASSO에서 모형선택기준의 비교 (Comparison of model selection criteria in graphical LASSO)

  • 안형석;박창이
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권4호
    • /
    • pp.881-891
    • /
    • 2014
  • 그래프모형(graphical model)은 확률 변수들간의 조건부 독립성(conditional independence)을 시각적인 네트워크형태로 표현할 수 있기 때문에, 정보학 (bioinformatics)이나 사회관계망 (social network) 등 수많은 변수들이 서로 연결되어 있는 복잡한 확률 시스템에 대한 직관적인 도구로 활용될 수 있다. 그래프 LASSO (graphical least absolute shrinkage and selection operator)는 고차원의 자료에 대한 가우스 그래프 모형 (Gaussian graphical model)의 추정에서 과대적합 (overfitting)을 방지하는데에 효과적인 것으로 알려진 방법이다. 본 논문에서는 그래프 LASSO 추정에서 매우 중요한 문제인 모형선택에 대하여 고려한다. 특히 여러가지 모형선택기준을 모의실험을 통해 비교하며 실제 금융 자료를 분석한다.

고차원 자료에서 영향점의 영향을 평가하기 위한 그래픽 방법 (Graphical method for evaluating the impact of influential observations in high-dimensional data)

  • 안소진;이재은;장대흥
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1291-1300
    • /
    • 2017
  • 고차원 자료에서는 관측값의 개수보다 변수의 개수가 과다하게 많은 것이 특징이다. 그러므로 회귀 계수 추정에 있어 관측값의 영향이 매우 클 수 있다. Jang과 Anserson-Cook (2017)은 라쏘추정량 사용시 영향점의 영향을 평가할 수 있는 라쏘 영향그림을 제안하였다. 본 연구에서는 고차원 자료에서 영향점을 평가하기 위한 그래픽 방법들로서 라쏘 영향그림 뿐만 아니라 라쏘 변수선택 순위그림, 삼차원 라쏘 영향그림을 제안하였다. 실세 두 가지 고차원 자료 예들에 영향점들을 찾기 위한 회귀진단 수단으로서 세가지 그래픽 방법들을 사용하여 본 결과 영향점들을 효과적으로 찾아낼 수 있었다.

LASSO를 이용한 비대칭 GARCH 모형의 변동성 커브 (News Impact Curves of Volatility for Asymmetric GARCH via LASSO)

  • 윤재은;이정원;황선영
    • 응용통계연구
    • /
    • 제27권1호
    • /
    • pp.159-168
    • /
    • 2014
  • Engle과 Ng (1993)가 제안한 뉴스 임팩트 커브(NIC)는 표준적인 GARCH 모형에 적용되는 대칭 커브이다. 최근들어 금융시계열의 변동성이 비대칭 성질을 가지는 경향이 있으며 이에 따라 분계점(threshlod) GARCH, 이중선형(bilinear) GARCH 등의 비대칭 모형이 연구되고 있다. 본 논문은 비대칭 모형의 변동성 커브에 대해 연구하고 있으며 LASSO를 통한 방법론을 제안하고 있다. 제시된 방법론을 국내 KOSDAQ 자료분석을 통해 예시해 보았다.

라플라스와 이중 파레토 벌점의 비교: LASSO와 Elastic Net (Comparison of Laplace and Double Pareto Penalty: LASSO and Elastic Net)

  • 경민정
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.975-989
    • /
    • 2014
  • 연속적인 변수 선택과 계수 추정을 동시에 활용할 수 있다는 특성 때문에 LASSO (Tibshirani, 1996)와 Elastic Net (Zou와 Hastie, 2005)은 다양한 분야에서 활발하게 사용되고 있다. 조건부 라플라스와 이중 파레토 사전분포를 적용한 공액계층모형을 표현하였고, 각각의 사전분포에 대한 완전 조건 사후분포를 도출하였다. 제안된 사전분포를 적용한 벌점회귀모형을 비교하기 위한 모의 실험을 진행하였고, 예측정확도를 판단하기 위해 아시아 국가 실패(the collapse of governments in Asia)의 실제 데이터에 제안한 모형을 적용하였다.

Drought forecasting over South Korea based on the teleconnected global climate variables

  • Taesam Lee;Yejin Kong;Sejeong Lee;Taegyun Kim
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.47-47
    • /
    • 2023
  • Drought occurs due to lack of water resources over an extended period and its intensity has been magnified globally by climate change. In recent years, drought over South Korea has also been intensed, and the prediction was inevitable for the water resource management and water industry. Therefore, drought forecasting over South Korea was performed in the current study with the following procedure. First, accumulated spring precipitation(ASP) driven by the 93 weather stations in South Korea was taken with their median. Then, correlation analysis was followed between ASP and Df4m, the differences of two pair of the global winter MSLP. The 37 Df4m variables with high correlations over 0.55 was chosen and sorted into three regions. The selected Df4m variables in the same region showed high similarity, leading the multicollinearity problem. To avoid this problem, a model that performs variable selection and model fitting at once, least absolute shrinkage and selection operator(LASSO) was applied. The LASSO model selected 5 variables which showed a good agreement of the predicted with the observed value, R2=0.72. Other models such as multiple linear regression model and ElasticNet were also performed, but did not present a performance as good as LASSO. Therefore, LASSO model can be an appropriate model to forecast spring drought over South Korea and can be used to mange water resources efficiently.

  • PDF

다중선형회귀모형에서의 변수선택기법 평가 (Evaluating Variable Selection Techniques for Multivariate Linear Regression)

  • 류나현;김형석;강필성
    • 대한산업공학회지
    • /
    • 제42권5호
    • /
    • pp.314-326
    • /
    • 2016
  • The purpose of variable selection techniques is to select a subset of relevant variables for a particular learning algorithm in order to improve the accuracy of prediction model and improve the efficiency of the model. We conduct an empirical analysis to evaluate and compare seven well-known variable selection techniques for multiple linear regression model, which is one of the most commonly used regression model in practice. The variable selection techniques we apply are forward selection, backward elimination, stepwise selection, genetic algorithm (GA), ridge regression, lasso (Least Absolute Shrinkage and Selection Operator) and elastic net. Based on the experiment with 49 regression data sets, it is found that GA resulted in the lowest error rates while lasso most significantly reduces the number of variables. In terms of computational efficiency, forward/backward elimination and lasso requires less time than the other techniques.

Variable Selection Via Penalized Regression

  • Yoon, Young-Joo;Song, Moon-Sup
    • Communications for Statistical Applications and Methods
    • /
    • 제12권3호
    • /
    • pp.615-624
    • /
    • 2005
  • In this paper, we review the variable-selection properties of LASSO and SCAD in penalized regression. To improve the weakness of SCAD for high noise level, we propose a new penalty function called MSCAD which relaxes the unbiasedness condition of SCAD. In order to compare MSCAD with LASSO and SCAD, comparative studies are performed on simulated datasets and also on a real dataset. The performances of penalized regression methods are compared in terms of relative model error and the estimates of coefficients. The results of experiments show that the performance of MSCAD is between those of LASSO and SCAD as expected.

VARIABLE SELECTION VIA PENALIZED REGRESSION

  • Yoon, Young-Joo;Song, Moon-Sup
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 춘계 학술발표회 논문집
    • /
    • pp.7-12
    • /
    • 2005
  • In this paper, we review the variable-selection properties of LASSO and SCAD in penalized regression. To improve the weakness of SCAD for high noise level, we propose a new penalty function called MSCAD which relaxes the unbiasedness condition of SCAD. In order to compare MSCAD with LASSO and SCAD, comparative studies are performed on simulated datasets and also on a real dataset. The performances of penalized regression methods are compared in terms of relative model error and the estimates of coefficients. The results of experiments show that the performance of MSCAD is between those of LASSO and SCAD as expected.

  • PDF

노인장기요양보험 이용지원 상담 대상자 선정모형 개발 (A Target Selection Model for the Counseling Services in Long-Term Care Insurance)

  • 한은정;김동건
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1063-1073
    • /
    • 2015
  • 우리나라 노인장기요양보험에서는 수급자와 그 가족부양자가 수급자의 심신기능 상태와 욕구에 따라 불이익이나 불편함이 없이 비용-효과적으로 장기요양 급여를 이용할 수 있도록 지원하고자 이용지원 상담을 제공하고 있다. 본 연구는 재가급여 이용자의 이용지원 정기상담 대상자 선정시 상담 대상자의 욕구를 반영하지 않아 이용지원 상담의 만족도와 효율성이 낮은 문제를 통계학적 모형을 활용하여 해결하고자 수행되었다. 모형 개발을 위해 2013년 3월 장기요양 재가급여를 이용한 수급자와 가족부양자를 대상으로 이용지원 상담에 대한 욕구와 관련 변수를 조사하였으며, 2,000명이 조사를 완료하였다. 조사 자료를 바탕으로 이용지원 상담 대상자 선정모형을 다양한 데이터마이닝 기법(로지스틱 회귀모형, 의사결정 나무모형, Lasso 모형, 자동 신경망모형, 그래디언트 부스팅, 앙상블 모형)을 통해 개발하였고, 이중 가장 안정적이고 현장 적용이 쉽고 성능이 좋은 Lasso 모형 결과를 최종모형으로 선정하였다. 본 연구가 이용지원 상담의 만족도를 높이고 업무를 효율화 하는데 기여할 것으로 기대된다.

안정적 유전자 특징 선택을 위한 유전자 발현량 데이터의 부트스트랩 기반 Lasso 회귀 분석 (Lasso Regression of RNA-Seq Data based on Bootstrapping for Robust Feature Selection)

  • 조정희;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권9호
    • /
    • pp.557-563
    • /
    • 2017
  • 많은 수의 유전자 데이터를 이용해서 Lasso 회귀 분석을 할 때, 유전자 발현량 값들 사이의 높은 상관성으로 인하여 회귀 계수의 추정값이 회귀 분석의 반복 시행마다 달라질 수 있다. L1 정규화에 의해 축소되는 회귀 계수의 불안정성은 변수 선택을 어렵게 하는 요인이 된다. 본 연구에서는 이러한 문제를 해결하기 위하여 부트스트랩 단계를 반복 시행하여 높은 빈도로 선택된 유전자들을 이용한 회귀 모형들을 만들고, 각 모형들에서 안정적으로 선택되는 특징 유전자들을 찾고, 그 유전자들이 위양성 결과가 아님을 입증하였다. 또한, 회귀모형 별 예측지수의 정확도를 실제지수와의 상관관계를 이용해 측정하였는데, 선택된 특징 유전자들의 회귀계수 부호의 분포가 정확도와 관련성을 보임을 확인하였다.