• 제목/요약/키워드: Lasso 모형

검색결과 52건 처리시간 0.022초

다중선형회귀모형에서의 변수선택기법 평가 (Evaluating Variable Selection Techniques for Multivariate Linear Regression)

  • 류나현;김형석;강필성
    • 대한산업공학회지
    • /
    • 제42권5호
    • /
    • pp.314-326
    • /
    • 2016
  • The purpose of variable selection techniques is to select a subset of relevant variables for a particular learning algorithm in order to improve the accuracy of prediction model and improve the efficiency of the model. We conduct an empirical analysis to evaluate and compare seven well-known variable selection techniques for multiple linear regression model, which is one of the most commonly used regression model in practice. The variable selection techniques we apply are forward selection, backward elimination, stepwise selection, genetic algorithm (GA), ridge regression, lasso (Least Absolute Shrinkage and Selection Operator) and elastic net. Based on the experiment with 49 regression data sets, it is found that GA resulted in the lowest error rates while lasso most significantly reduces the number of variables. In terms of computational efficiency, forward/backward elimination and lasso requires less time than the other techniques.

데일리 렌즈 데이터를 사용한 데이터마이닝 기법 비교 (Comparison of data mining methods with daily lens data)

  • 석경하;이태우
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1341-1348
    • /
    • 2013
  • 데이터베이스 마케팅과 시장예측 등의 분야에서 분류문제를 해결하기 위해 다양한 데이터마이닝 기법들이 적용되고 있다. 본 연구에서는 데일리 렌즈 고객들의 거래 데이터를 기반으로 의사결정나무, 로지스틱 회귀모형과 같은 기존의 통계적 분류기법과 최근에 개발된 배깅, 부스팅, 라소, 랜덤 포리스트 그리고 지지벡터기계의 분류 성능을 비교하고자 한다. 비교 실험을 위해 데이터 정제, 탐색, 파생변수 생성, 그리고 변수 선택과정을 거쳤다. 실험결과 정분류율 측면에서는 지지벡터기계가 다른 모형보다 근소하게 높았지만 표준편차가 크게 나왔다. 정분류율과 표준편차의 관점에서는 랜덤 포리스트가 가장 좋은 결과를 보였다. 그러나 모형의 해석, 간명성 그리고 학습에 걸리는 시간을 고려하였을 때 라소모형이 적합하다는 결론을 내렸다.

SNS 기반 여론 감성 분석 (Sentiment Analysis for Public Opinion in the Social Network Service)

  • 하상현;노태협
    • 문화기술의 융합
    • /
    • 제6권1호
    • /
    • pp.111-120
    • /
    • 2020
  • 본 연구는 소셜네트워크서비스(SNS)상의 빅데이터를 이용한 텍스트 분석기법의 응용으로서 설문 조사 기반의 여론 조사 방법론과 달리 비정형적 언어 기반의 감성 여론 조사 방법론을 제안한다. 기존의 설문 기반 여론 분석모형에 대한 대안적 방법으로 주관성에 기초한 감성 분류 모형을 이용하였다. 이를 위하여, 제20대 국회의원 선거운동 기간 중 선거 관련 실시간 트위터 자료를 수집하여 속성 기반 감성 분석을 이용한 여론의 극성과 강도에 대한 실증 분석을 수행하였다. 개별 SNS에서 사용된 단어의 극성을 분류하기 위해 Lasso 및 Ridge 회귀 모형을 이용하여 극성에 영향력이 큰 변수를 추출하였다. 추출된 변수가 극성에 미치는 긍정 및 부정에 대한 영향을 구분하고, 영향력의 강도를 분석하였다. 대중들이 소셜네트워크상에서 표현한 내용을 바탕으로 한 여론에 대한 긍정 및 부정의 감성 분석을 통해 여론의 향방을 예측하고 극성분석 모형의 정확도를 측정하여, 여론 조사 분야에서 감성 분석 방법론의 적용가능성을 확인하였다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.

국내 예능 시청률과 회차 예측 및 영향요인 분석 (A study on entertainment TV show ratings and the number of episodes prediction)

  • 김미림;임소연;장초희;송종우
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.809-825
    • /
    • 2017
  • 오디션, 육아, 버라이어티 등 다양한 예능 프로그램들의 수가 점점 증가하고 있다. 특히 종합편성채널이 개국한 이후에 예능 시장 경쟁이 심화되고 있다. 그에 따라 시청률과 회차에 대한 연구의 필요성이 대두되고 있다. 본 연구의 목적은 예능 프로그램 시청률과 회차의 예측모형을 제시하고 주요요인을 살펴보는 데 있다. 모형 적합 시 선형회귀모형, 로지스틱 회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 머신 등과 같은 다양한 분석 방법을 고려하였다. 예능 시청률 예측 모형에서는 첫 회가 방영되기 전과 방영된 후 두 가지 모형을 적합하였고, 회차 예측 모형에서는 예능 시청률 예측 모형의 예측치를 추가 변수로 생성하여 모형을 적합하였다. 그 결과 첫 회 방영 전 예능 시청률 예측에서는 방송사, 이전 시즌 시청률, 시작 연도, 기사 수가 큰 영향을 주는 것으로 나타났다. 첫 회 방영 후 예능 시청률 예측에서는 첫 회 시청률, 방송사, 예능 유형이 중요한 변수로 나타났으며, 두 모형 모두 랜덤 포레스트 모형에서 가장 좋은 결과를 보였다. 예능 회차 예측에서는 평균 시청률 예측치, 시작 연도, 예능유형, 방송국 등이 중요한 변수로 나타났다.

다변량 선형회귀모형의 벌점화 최소거리추정에 관한 연구 (Penalized least distance estimator in the multivariate regression model)

  • 신정민;강종경;방성완
    • 응용통계연구
    • /
    • 제37권1호
    • /
    • pp.1-12
    • /
    • 2024
  • 동일한 설명변수 집합에 여러 개의 반응 변수들이 종속되어 있는 경우를 많은 실제 자료에서 볼 수 있다. 특히, 여러 개의 반응변수가 서로 상관관계를 가지고 있으면 각각의 반응변수에 대한 개별적인 분석보다는 반응변수들 사이의 상관관계를 고려한 동시 추정(simultaneous estimation)이 매우 효과적이다. 이러한 다변량 회귀분석에서 최소거리추정량(least distance estimator; LDE)은 반응변수들간의 상관관계를 모형 적합 과정에 반영하여 다차원 유클리드 공간에서 각 훈련 개체와 추정값 사이의 거리를 최소화하도록 회귀계수들을 동시에 추정한다. 뿐만 아니라 최소거리추정량은 이상치에 대한 강건성을 제공한다. 본 논문에서는 다변량 선형 회귀분석에서의 최소거리추정법에 대해 살펴보고, 나아가 효율적인 변수선택을 위한 벌점화 최소거리추정량을 제시하였다. 본 연구에서 제안하는 adaptive group LASSO 벌점항을 적용한 AGLDE 기법은 반응변수들간의 상관관계를 모형 적합에 반영함과 동시에 설명변수의 중요도에 따라 효율적으로 변수선택을 수행할 수 있다. 제안 방법의 유용성은 모의실험과 실제 자료 분석을 통해 확인하였다.

퍼터베이션 방법을 활용한 평균-숏폴 포트폴리오 최적화 (Mean-shortfall optimization problem with perturbation methods)

  • 원하연;박세영
    • 응용통계연구
    • /
    • 제34권1호
    • /
    • pp.39-56
    • /
    • 2021
  • Markowitz (1952)의 분산투자 모형 발표 이후 포트폴리오 최적화에 대한 많은 연구가 이루어졌다. 마코위츠의 평균-분산 포트폴리오 최적화 모형은 수익 분포가 정규분포를 따른다는 가정하에서 성립한다. 그러나 실생활에서는 수익 분포가 정규분포를 따르지 않는 경우가 존재한다. 또한 분산은 이상치의 영향을 많이 받는 민감한 지표이다. 이런 분산의 단점을 보완할 수 있는 하방위험인 숏폴(Shortfall)을 위험 지표로 적용함으로써 수익 분포에 대해 최적화가 가능한 평균-숏폴 포트폴리오 모형이 제안되었다. 또한 Jorion (2003)과 Park(2019)은 포트폴리오의 위험도를 최소화하는 동시에 적은 수의 자산으로 구성(sparse)되고 안정적(stable)인 포트폴리오를 얻는 퍼터베이션 방법을 제안하였다. 본 논문에서는 평균-숏폴 포트폴리오 모형에 퍼터베이션 방법과 adaptive Lasso를 적용하여 사용되는 자산의 수가 적으면서 안정적이고 쉽게 적용 가능한 포트폴리오 모형을 제안한다. 그리고 실증 데이터 분석을 통하여 모형의 타당성을 입증한다.

동적요인모형에 기반한 한국의 GDP 성장률 예측 (Forecasting Korea's GDP growth rate based on the dynamic factor model)

  • 이경서;임예지
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.255-263
    • /
    • 2024
  • GDP는 한 나라의 가계, 기업, 정부 등 모든 경제 주체가 일정 기간 동안 창출한 재화와 서비스의 시장 가치의 합을 나타낸다. GDP를 통하여 국가의 경제 규모를 파악할 수 있으며, 정부의 정책 방향에 영향을 미치는 대표적인 경제 지표이므로 이에 대한 연구가 다양하게 이루어지고 있다. 본 논문에서는 G20 국가들의 주요 거시경제 지표를 활용하여 dynamic factor model 기반의 GDP 성장률 예측 모델을 제시하였다. 추출된 factor를 다양한 회귀분석 방법론과 결합하여 그 결과들을 비교하였으며, 기존의 전통적인 시계열 예측방법인 ARIMA 모델, common component를 이용한 예측 등도 함께 비교하였다. COVID 이후 지표의 변동성이 큰 점을 고려하여 예측 시기를 COVID 전후로 나누었으며, 그 결과 factor에 대해 ridge regression과 lasso regression을 적용하여 예측한 경우 가장 좋은 성능을 나타내었다.

약물유전체학에서 약물반응 예측모형과 변수선택 방법 (Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics)

  • 김규환;김원국
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.153-166
    • /
    • 2021
  • 약물유전체학 연구의 주요 목표는 고차원의 유전 변수를 기반으로 개인의 약물 반응성을 예측하는 것이다. 변수의 개수가 많기 때문에 변수의 개수를 줄이기 위해서는 변수 선택이 필요하며, 선택된 변수들은 머신러닝 알고리즘을 사용하여 예측 모델을 구축하는데 사용된다. 본 연구에서는 400명의 뇌전증 환자의 차세대 염기서열 분석 데이터에 로지스틱 회귀, ReliefF, TurF, 랜덤 포레스트, LASSO의 조합과 같은 여러 가지 혼합 변수 선택 방법을 적용하였다. 선택된 변수들에 랜덤포레스트, 그래디언트 부스팅, 서포트벡터머신을 포함한 머신러닝 방법들을 적용했고 스태킹을 통해 앙상블 모형을 구축하였다. 본 연구의 결과는 랜덤포레스트와 ReliefF의 혼합 변수 선택 방법을 이용한 스태킹 모형이 다른 모형보다 더 좋은 성능을 보인다는 것을 보여주었다. 5-폴드 교차 검증을 기반으로 하여 적합한 최적 모형의 평균 검증 정확도는 0.727이고 평균 검증 AUC 값은 0.761로 나타났다. 또한, 동일한 변수를 사용할 때 스태킹 모델이 단일 머신러닝 예측 모델보다 성능이 우수한 것으로 나타났다.

KNOCKOFF를 이용한 성근 VHAR 모형의 FDR 제어 (Controlling the false discovery rate in sparse VHAR models using knockoffs)

  • 박민수;이재원;백창룡
    • 응용통계연구
    • /
    • 제35권6호
    • /
    • pp.685-701
    • /
    • 2022
  • FDR은 1종 오류를 제어하는 매우 보수적인 FWER과 달리 더 자유로운 변수 판단을 제공하여 고차원 자료의 추론에 있어 널리 쓰이고 있다. 본 논문은 Barber와 Candès (2015)가 제안한 knockoff 방법론을 사용하여 FDR을 일정 수준으로 제어하면서 고차원 장기억 시계열 모형인 성근 VHAR 모형을 추정하는 방법을 제안한다. 또한 기존의 방법론인 AL (adaptive Lasso)와의 모의실험을 통한 비교 연구를 통해서 장단점을 비교하였다. 그 결과 AL이 성근 일치성을 보이는 등 전체적으로 좋은 성질을 가지고 있지만, FDR의 관점에서는 비교적 높은 값을 주는 것을 관찰했다. 즉 AL은 0인 계수를 0이 아닌 계수로 추정하려는 경향이 있었다. 반면, knockoff 방법론은 FDR을 일정 수준으로 유지하였지만 표본의 수가 작을 경우 매우 보수적으로 0이 아닌 계수를 찾아냄을 관찰할 수 있었다. 하지만, 모형이 희박할 수록 knockoff의 성능이 크게 향상됨을 확인할 수 있어 표본의 개수가 크고 성근 모형일 경우 knockoff 방법론이 우수함을 살펴볼 수 있었다.