• Title/Summary/Keyword: Lasso 모형

Search Result 52, Processing Time 0.017 seconds

Adaptive lasso를 이용한 희박벡터자기회귀모형에서의 변수 선택 (Adaptive lasso in sparse vector autoregressive models)

  • 이슬기;백창룡
    • 응용통계연구
    • /
    • 제29권1호
    • /
    • pp.27-39
    • /
    • 2016
  • 본 논문은 다차원의 시계열 자료 분석에서 효율적인 희박벡터자기회귀모형에서의 모수 추정에 대해서 연구한다. 희박벡터자기회귀모형은 영에 가까운 계수를 정확이 영으로 둠으로써 희박성을 확보한다. 따라서 변수 선택과 모수 추정을 한꺼번에 할 수 있는 lasso를 이용한 방법론을 희박벡터자기회귀모형의 추정에 쓸 수 있다. 하지만 Davis 등(2015)에서는 모의실험을 통해 일반적인 lasso의 경우 영이아닌 계수를 참값보다 훨씬 더 많이 찾아 희박성에 약점이 있음을 보고하였다. 이에 따라 본 연구는 희박벡터자기회귀모형에 adaptive lasso를 이용하면 일반 lasso보다 희박성을 비롯한 전반적인 모수의 추정이 매우 유의하게 개선됨을 보인다. 또한 adaptive lasso에서 쓰이는 튜닝 모수들에 대한 선택도 아울러 논의한다.

비정상 자기회귀모형에서의 벌점화 추정 기법에 대한 연구 (Model selection for unstable AR process via the adaptive LASSO)

  • 나옥경
    • 응용통계연구
    • /
    • 제32권6호
    • /
    • pp.909-922
    • /
    • 2019
  • 벌점화 추정 기법 중 adaptive LASSO 방법은 모형 선택과 모수 추정을 동시에 할 수 있는 유명한 방법으로 이미 정상 자기회귀모형에서 연구된 적이 있다. 본 논문에서는 이를 확장하여 확률보행과정과 같은 비정상 자기회귀모형에서 adaptive LASSO 추정량이 갖는 성질을 모의실험을 통해 연구하였다. 다만 비정상 자기회귀모형에서는 단위근의 존재 여부를 판단하는 것과 모형의 차수를 선택하는 것이 가장 중요하므로, 이를 위해 원 자기회귀모형이 아닌 ADF 검정에서 고려하는 회귀모형으로 변환하여 adaptive LASSO를 적용하였다. 일반적으로 Adaptive LASSO를 적용할 때 조절모수의 선택이 가장 중요한 문제이며, 본 논문에서는 교차검증, AIC, BIC 세 가지 방법을 이용하여 조절모수를 선택하였다. 모의실험 결과를 보면, 이 중에서 BIC가 최소가 되도록 선택한 조절모수에 대응되는 adaptive LASSO 추정량이 단위근의 존재 여부를 잘 판단할 뿐만 아니라 자기회귀모형의 차수 또한 비교적 정확하게 선택함을 확인할 수 있다.

일반화가법모형에서 축소방법의 적용연구 (A Study on Applying Shrinkage Method in Generalized Additive Model)

  • 기승도;강기훈
    • 응용통계연구
    • /
    • 제23권1호
    • /
    • pp.207-218
    • /
    • 2010
  • 일반화가법모형은 기존 선형회귀모형의 문제점을 대부분 해결한 통계모형이지만 의미있는 독립변수의 수를 줄이는 방법이 적용되지 않을 경우 과대적합 문제가 발생할 수 있다. 그러므로 일반화가법모형에서 변수 축소방법을 적용하는 연구가 필요하다. 회귀분석에서 변수 축소방법으로 최근에는 Lasso 계열의 접근법이 연구되고 있다. 본 연구에서는 활용성이 높은 통계모형인 일반화가법모형에 Lasso 계열의 모형 중에서 Group Lasso와 Elastic net 모형을 적용하는 방법을 제시하고 이들의 해를 구하는 절차를 제안하였다. 그리고 제안된 방법을 모의실험과 실제자료인 회계년도 2005년 자동차보혐 자료에 적용을 통해 비교하여 보았다. 그 결과 본 논문에서 제안한 Group Lasso와 Elastic net을 이용하여 변수 축소를 통한 일반화가법모형이 기존의 방법보다 더 나은 결과를 제공하는 것으로 분석 되었다.

추세 제거된 시계열을 이용한 단위근 식별 (Determining the existence of unit roots based on detrended data)

  • 나옥경
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.205-223
    • /
    • 2021
  • 본 논문에서는 adaptive lasso 방법을 이용하여 단위근의 존재 여부를 판단하는 방법에 대해 연구하였다. 최근 원 시계열에 상수항과 선형 추세가 포함된 ADF-회귀모형식을 adaptive lasso로 추정하여 단위근을 식별하는 방법이 제안되었으나, 미지의 선형 추세가 존재할 때 검정력이 떨어지는 것으로 나타났다. 이 문제를 해결하기 위해 본 논문에서는 ADF-회귀모형식을 적합시킬 때 원 시계열 대신 선형 추세가 제거된 시계열을 사용하는 수정안을 제안하였다. 그리고 수정안에서는 일차적으로 선형 추세를 제거한 후 모형식을 적합시키기 때문에 ADF-회귀모형식 중 상수항과 선형 추세를 모두 포함하지 않는 모형식을 사용하였다. 기존의 방법보다 수정안을 사용할 때 단위근의 존재를 판단하는 검정력이 향상되는지 모의실험을 통해 검토하였으며, ADF 검정과 DF-GLS 검정과의 비교 실험도 진행하였다. 모의실험 결과 adaptive lasso를 이용하여 단위근의 존재를 판단할 때 원 시계열보다 추세가 제거된 시계열을 사용하는 경우가 높은 정확도를 가지며, 자료의 개수가 충분히 많을 때 단위근을 잘 판단함을 확인할 수 있었다.

그래프 LASSO에서 모형선택기준의 비교 (Comparison of model selection criteria in graphical LASSO)

  • 안형석;박창이
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권4호
    • /
    • pp.881-891
    • /
    • 2014
  • 그래프모형(graphical model)은 확률 변수들간의 조건부 독립성(conditional independence)을 시각적인 네트워크형태로 표현할 수 있기 때문에, 정보학 (bioinformatics)이나 사회관계망 (social network) 등 수많은 변수들이 서로 연결되어 있는 복잡한 확률 시스템에 대한 직관적인 도구로 활용될 수 있다. 그래프 LASSO (graphical least absolute shrinkage and selection operator)는 고차원의 자료에 대한 가우스 그래프 모형 (Gaussian graphical model)의 추정에서 과대적합 (overfitting)을 방지하는데에 효과적인 것으로 알려진 방법이다. 본 논문에서는 그래프 LASSO 추정에서 매우 중요한 문제인 모형선택에 대하여 고려한다. 특히 여러가지 모형선택기준을 모의실험을 통해 비교하며 실제 금융 자료를 분석한다.

라소를 이용한 간편한 주성분분석 (Simple principal component analysis using Lasso)

  • 박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.533-541
    • /
    • 2013
  • 이 연구에서는 라소를 이용한 간편한 주성분분석을 제안한다. 이 방법은 다음의 두 단계로 구성되어 있다. 먼저 주성분분석에 의해 주성분을 구한다. 다음으로 각 주성분을 반응변수로 하고 원자료를 설명변수로 하는 라소 회귀모형에 의한 회귀계수 추정량을 구한다. 이 회귀계수 추정량에 기반한 새로운 주성분을 사용한다. 이 방법은 라소 회귀분석의 성질에 의해 회귀계수 추정량이 보다 쉽게 0이 될 수 있기 때문에 해석이 쉬운 장점이 있다. 왜냐하면 주성분을 반응변수로 하고 원자료를 설명변수로 하는 회귀모형의 회귀계수가 고유벡터가 되기 때문이다. 라소 회귀모형을 위한 R 패키지를 이용하여 모의생성된 자료와 실제 자료에 이 방법을 적용하여 유용성을 보였다.

Adaptive lasso를 이용하여 추세-정상시계열과 차분-정상시계열을 판별하는 방법에 대한 연구 (Discrimination between trend and difference stationary processes based on adaptive lasso)

  • 나옥경
    • 응용통계연구
    • /
    • 제33권6호
    • /
    • pp.723-738
    • /
    • 2020
  • 본 논문에서는 추세-정상시계열과 차분-정상시계열을 판별하는 방법에 대해 연구한다. 두 시계열 모형은 시계열적 특징, 충격의 지속성 여부, 시계열을 정상화시키는 방법 등이 모두 다르므로, 어떤 모형을 선택하냐에 따라 분석 방법이나 해석에 차이가 발생한다. 따라서 시계열 자료를 분석할 때 추세-정상성과 차분-정상성을 판별하는 것은 매우 중요한 일이다. 두 시계열을 구분하는 중요한 기준은 단위근의 존재 여부이므로, 단위근 검정 결과를 활용할 수 있다. 최근 연구 결과들을 살펴보면, 다양한 시계열 모형을 적합시킬 때 뿐만 아니라 비정상 자기회귀모형의 차분 차수를 결정할 때도 adaptive lasso와 같은 벌점화 추정방법을 도입, 사용하고 있다. 본 논문에서도 adaptive lasso를 이용하여 추세-정상시계열과 차분-정상시계열을 판별하는 방법을 제안, 연구를 진행하였다. 단위근 검정을 이용한 분류 방법과 adaptive lasso 추정량을 기초로 한 분류 방법에 대한 비교 모의실험을 수행하였고, 그 결과 추세-정상시계열이 참인 경우는 adaptive lasso 방법의 분류 정확도가 단위근 검정방법보다 좀 더 우세하며, 차분-정상시계열의 경우에는 반대로 정확도가 떨어지는 것을 확인할 수 있었다.

노인장기요양보험 이용지원 상담 대상자 선정모형 개발 (A Target Selection Model for the Counseling Services in Long-Term Care Insurance)

  • 한은정;김동건
    • 응용통계연구
    • /
    • 제28권6호
    • /
    • pp.1063-1073
    • /
    • 2015
  • 우리나라 노인장기요양보험에서는 수급자와 그 가족부양자가 수급자의 심신기능 상태와 욕구에 따라 불이익이나 불편함이 없이 비용-효과적으로 장기요양 급여를 이용할 수 있도록 지원하고자 이용지원 상담을 제공하고 있다. 본 연구는 재가급여 이용자의 이용지원 정기상담 대상자 선정시 상담 대상자의 욕구를 반영하지 않아 이용지원 상담의 만족도와 효율성이 낮은 문제를 통계학적 모형을 활용하여 해결하고자 수행되었다. 모형 개발을 위해 2013년 3월 장기요양 재가급여를 이용한 수급자와 가족부양자를 대상으로 이용지원 상담에 대한 욕구와 관련 변수를 조사하였으며, 2,000명이 조사를 완료하였다. 조사 자료를 바탕으로 이용지원 상담 대상자 선정모형을 다양한 데이터마이닝 기법(로지스틱 회귀모형, 의사결정 나무모형, Lasso 모형, 자동 신경망모형, 그래디언트 부스팅, 앙상블 모형)을 통해 개발하였고, 이중 가장 안정적이고 현장 적용이 쉽고 성능이 좋은 Lasso 모형 결과를 최종모형으로 선정하였다. 본 연구가 이용지원 상담의 만족도를 높이고 업무를 효율화 하는데 기여할 것으로 기대된다.

모형 선택 기준들에 대한 LASSO 회귀 모형 편의의 영향 연구 (A study on bias effect of LASSO regression for model selection criteria)

  • 유동현
    • 응용통계연구
    • /
    • 제29권4호
    • /
    • pp.643-656
    • /
    • 2016
  • 고차원 자료(high dimensional data)는 변수의 수가 표본의 수보다 많은 자료로 다양한 분야에서 관측 또는 생성되고 있다. 일반적으로, 고차원 자료에 대한 회귀 모형에서는 모수의 추정과 과적합을 피하기 위하여 변수 선택이 이루어진다. 벌점화 회귀 모형(penalized regression model)은 변수 선택과 회귀 계수의 추정을 동시에 수행하는 장점으로 인하여 고차원 자료에 빈번하게 적용되고 있다. 하지만, 벌점화 회귀 모형에서도 여전히 조율 모수 선택(tuning parameter selection)을 통한 최적의 모형 선택이 요구된다. 본 논문에서는 벌점화 회귀 모형 중에서 대표적인 LASSO 회귀 모형을 기반으로 모형 선택의 기준들에 대한 LASSO 회귀 추정량의 편의가 어떠한 영향을 미치는지 모의실험을 통하여 수치적으로 연구하였고 편의의 보정의 필요성에 대하여 나타내었다. 실제 자료 분석에서의 영향을 나타내기 위하여, 폐암 환자의 유전자 발현량(gene expression) 자료를 기반으로 바이오마커 식별(biomarker identification) 문제에 적용하였다.

분류 앙상블 모형에서 Lasso-bagging과 WAVE-bagging 가지치기 방법의 성능비교 (Comparison of ensemble pruning methods using Lasso-bagging and WAVE-bagging)

  • 곽승우;김현중
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1371-1383
    • /
    • 2014
  • 분류 앙상블 모형이란 여러 분류기들의 예측 결과를 통합하여 더욱 정교한 예측성능을 가진 분류기를 만들기 위한 융합방법론이라 할 수 있다. 분류 앙상블을 구성하는 분류기들이 높은 예측 정확도를 가지고 있으면서 서로 상이한 모형으로 이루어져 있을 때 분류 앙상블 모형의 정확도가 높다고 알려져 있다. 하지만, 실제 분류 앙상블 모형에는 예측 정확도가 그다지 높지 않으며 서로 유사한 분류기도 포함되어 있기 마련이다. 따라서 분류 앙상블 모형을 구성하고 있는 여러 분류기들 중에서 서로 상이하면서도 정확도가 높은 것만을 선택하여 앙상블 모형을 구성해 보는 가지치기 방법을 생각할 수 있다. 본 연구에서는 Lasso 회귀분석 방법을 이용하여 분류기 중에 일부를 선택하여 모형을 만드는 방법과 가중 투표 앙상블 방법론의 하나인 WAVE-bagging을 이용하여 분류기 중 일부를 선택하는 앙상블 가지치기 방법을 비교하였다. 26개 자료에 대해 실험을 한 결과 WAVE-bagging 방법을 이용한 분류 앙상블 가지치기 방법이 Lasso-bagging을 이용한 방법보다 더 우수함을 보였다.