• 제목/요약/키워드: Lasso Regression

검색결과 105건 처리시간 0.02초

릿지 회귀와 라쏘 회귀 모형에 의한 부산 전략산업의 지역경제 효과에 대한 머신러닝 예측 (Machine Learning Prediction of Economic Effects of Busan's Strategic Industry through Ridge Regression and Lasso Regression)

  • 이재득
    • 한국항만경제학회지
    • /
    • 제37권1호
    • /
    • pp.197-215
    • /
    • 2021
  • 본 연구는 규제항을 도입한 릿지 회귀분석과 라쏘 회귀분석을 사용하여 부산 전략산업의 지역경제에 미치는 효과를 특히 고용과 소득에 대한 영향을 중심으로 머신러닝 기법으로 예측하고 분석하였다. 주요 연구결과는 다음과 같다. 첫째, 고용에 대한 전략산업들의 영향을 릿지 회귀모형과 라쏘 회귀모형으로 추정해보면, 전략산업 가운데 서비스플랫폼, 콘텐츠, 스마트금융산업으로 이루어진 지능정보서비스 산업과 MICE, 특화관광으로 구성된 글로벌관광산업의 순으로 고용을 증가시키는데 기여하고 있다. 둘째, 릿지 회귀모형과 라쏘 회귀모형에 의하면 초기투자 단계인 자율주행차, 항공, 드론 산업으로 이루어진 미래수송기기산업은 고용과 소득을 유의하게 증가시키지 않는 것으로 나타났다. 셋째, 전략산업의 소득에 대한 릿지 회귀모형의 추정계수들을 보면, 지능정보서비스산업과 글로벌관광산업의 순으로 부산지역의 소득을 증가시키고 있다. 넷째, 라쏘 회귀모형에서 라이프케어, 스마트해양, 지능형기계, 클린테크산업 등 4개의 전략산업들은 소득에 유의한 영향을 주고 있지 않는 반면, 지능정보서비스산업과 글로벌관광산업 등 2개의 전략산업들은 소득을 증가시키고 있으나, 장기 투자 산업인 미래수송기기산업은 현재 지역경제와 소득에 부의 영향을 줄 수 있는 것으로 나타났다. 그리하여 전략산업을 선정하고 육성하는데 있어, 부산지역 경제목표와 정책 우선순위를 먼저 설정할 필요가 있다는 점을 시사한다.

고차원 자료에서 영향점의 영향을 평가하기 위한 그래픽 방법 (Graphical method for evaluating the impact of influential observations in high-dimensional data)

  • 안소진;이재은;장대흥
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1291-1300
    • /
    • 2017
  • 고차원 자료에서는 관측값의 개수보다 변수의 개수가 과다하게 많은 것이 특징이다. 그러므로 회귀 계수 추정에 있어 관측값의 영향이 매우 클 수 있다. Jang과 Anserson-Cook (2017)은 라쏘추정량 사용시 영향점의 영향을 평가할 수 있는 라쏘 영향그림을 제안하였다. 본 연구에서는 고차원 자료에서 영향점을 평가하기 위한 그래픽 방법들로서 라쏘 영향그림 뿐만 아니라 라쏘 변수선택 순위그림, 삼차원 라쏘 영향그림을 제안하였다. 실세 두 가지 고차원 자료 예들에 영향점들을 찾기 위한 회귀진단 수단으로서 세가지 그래픽 방법들을 사용하여 본 결과 영향점들을 효과적으로 찾아낼 수 있었다.

A small review and further studies on the LASSO

  • Kwon, Sunghoon;Han, Sangmi;Lee, Sangin
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.1077-1088
    • /
    • 2013
  • High-dimensional data analysis arises from almost all scientific areas, evolving with development of computing skills, and has encouraged penalized estimations that play important roles in statistical learning. For the past years, various penalized estimations have been developed, and the least absolute shrinkage and selection operator (LASSO) proposed by Tibshirani (1996) has shown outstanding ability, earning the first place on the development of penalized estimation. In this paper, we first introduce a number of recent advances in high-dimensional data analysis using the LASSO. The topics include various statistical problems such as variable selection and grouped or structured variable selection under sparse high-dimensional linear regression models. Several unsupervised learning methods including inverse covariance matrix estimation are presented. In addition, we address further studies on new applications which may establish a guideline on how to use the LASSO for statistical challenges of high-dimensional data analysis.

자연어 처리 기반 『상한론(傷寒論)』 변병진단체계(辨病診斷體系) 분류를 위한 기계학습 모델 선정 (Selecting Machine Learning Model Based on Natural Language Processing for Shanghanlun Diagnostic System Classification)

  • 김영남
    • 대한상한금궤의학회지
    • /
    • 제14권1호
    • /
    • pp.41-50
    • /
    • 2022
  • Objective : The purpose of this study is to explore the most suitable machine learning model algorithm for Shanghanlun diagnostic system classification using natural language processing (NLP). Methods : A total of 201 data items were collected from 『Shanghanlun』 and 『Clinical Shanghanlun』, 'Taeyangbyeong-gyeolhyung' and 'Eumyangyeokchahunobokbyeong' were excluded to prevent oversampling or undersampling. Data were pretreated using a twitter Korean tokenizer and trained by logistic regression, ridge regression, lasso regression, naive bayes classifier, decision tree, and random forest algorithms. The accuracy of the models were compared. Results : As a result of machine learning, ridge regression and naive Bayes classifier showed an accuracy of 0.843, logistic regression and random forest showed an accuracy of 0.804, and decision tree showed an accuracy of 0.745, while lasso regression showed an accuracy of 0.608. Conclusions : Ridge regression and naive Bayes classifier are suitable NLP machine learning models for the Shanghanlun diagnostic system classification.

  • PDF

Penalized rank regression estimator with the smoothly clipped absolute deviation function

  • Park, Jong-Tae;Jung, Kang-Mo
    • Communications for Statistical Applications and Methods
    • /
    • 제24권6호
    • /
    • pp.673-683
    • /
    • 2017
  • The least absolute shrinkage and selection operator (LASSO) has been a popular regression estimator with simultaneous variable selection. However, LASSO does not have the oracle property and its robust version is needed in the case of heavy-tailed errors or serious outliers. We propose a robust penalized regression estimator which provide a simultaneous variable selection and estimator. It is based on the rank regression and the non-convex penalty function, the smoothly clipped absolute deviation (SCAD) function which has the oracle property. The proposed method combines the robustness of the rank regression and the oracle property of the SCAD penalty. We develop an efficient algorithm to compute the proposed estimator that includes a SCAD estimate based on the local linear approximation and the tuning parameter of the penalty function. Our estimate can be obtained by the least absolute deviation method. We used an optimal tuning parameter based on the Bayesian information criterion and the cross validation method. Numerical simulation shows that the proposed estimator is robust and effective to analyze contaminated data.

내재된 인자회귀모형의 베이지안 분석법 (Bayesian analysis of latent factor regression model)

  • 경민정
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2020
  • 선형모형에서 두개 이상의 설명변수들 사이에 존재하는 다중공선성 문제를 변수들 간에 내재되어 있는 공통의 구조인 인자를 구성하고, 인자들을 회귀변수로 사용하여 해결하는 인자회귀모형에 대하여 논의한다. 무한개로 가정 가능한 내재된 인자 중 유의미한 인자적재행렬을 구성하기 위하여 벌점모수의 값이 큰 LASSO 사전분포를 적용하는 베이지안 추정법을 사용한다. 결정된 인자적재행렬과 다른 모수들의 추정값을 각 설명변수의 선형모수로 역변환 하여, 새로운 관측값에 대한 예측 모형으로도 사용한다. 제안한 방법을 제품 서비스 관리 자료에 적용하여 정해진 인자의 개수에 대한 인자가 일반적인 공통인자회귀모형과 동일한 결과를 나타냄을 확인하였고, 일반적인 공통인자회귀모형과 비교를 위해 계산한 평균 제곱 오차값이 더 작다는 것을 알 수 있었다.

국내 드라마 시청률 예측 및 영향요인 분석 (A Study on Domestic Drama Rating Prediction)

  • 강수연;전희정;김지혜;송종우
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.933-949
    • /
    • 2015
  • 최근 상업방송의 도입과 채널의 다양화로 국내 드라마 시장의 시청률 경쟁이 심화되었다. 이에 시청률에 대한 실증적인 연구의 필요성이 대두되고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 최근 방송시장의 변화를 고려한 국내 드라마 시청률 예측 모형을 제시하고 시청률에 유의한 영향을 미치는 변수들을 도출하는 데 있다. 모형 적합 시 선형회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅 등과 같은 다양한 분석 방법을 고려하였다. 이 때 드라마 방영 전 알 수 있는 기본 정보들만을 고려하여 드라마의 초반 시청률을 예측하는 모형을 적합한 후 방영 초기의 여론을 고려한 평균 시청률 예측 모형을 적합하였다. 그 결과 드라마 초반 시청률은 방송사, 방송시간, 드라마 방영 이전 드라마 관련 검색량 등 드라마의 구조적 요인과 임소문 효과의 영향을 크게 받으며, 평균 시청률은 드라마 초반 시청률과 드라마 방영 이후 드라마 관련 검색량 등 방영 초기의 여론에 큰 영향을 받는 것으로 나타났다.

풍속 예측을 위한 선형회귀분석과 비선형회귀분석 기법의 비교 및 인자분석 (Comparison of Linear and Nonlinear Regressions and Elements Analysis for Wind Speed Prediction)

  • 김동연;서기성
    • 한국지능시스템학회논문지
    • /
    • 제25권5호
    • /
    • pp.477-482
    • /
    • 2015
  • 단기풍속 예측을 위한 진화적 선형 및 비선형 회귀분석 기반의 보정 기법을 비교한다. 모델의 체계적 오류를 교정하기 위한 효율적인 MOS(Model Output Statistics)의 개발이 필요하나, 기존의 선형회귀분석 기반의 보정기법은 다양한 기상요소의 복잡한 비선형 특성을 반영하기 힘들다. 이를 개선하기 위해서 유전 프로그래밍을 사용하여 풍속 예측에 대한 비선형 보정 수식을 생성하는 기법을 제안하고 기본 다중선형회귀분석법 및 Ridge, Lasso 회귀분석법과 비교한다. 더불어, 선형회귀분석법과 진화적 비선형회귀분석 기법의 인자 선택의 차이와 유사성을 비교하고 분석한다. 2007년~2013년의 KLAPS(Korea Local Analysis and Prediction System) 재분석자료를 사용하여 제주도와 부산지역의 격자점에 대한 실험을 수행한다.

벌점-최소제곱법을 이용한 다중 변화점 탐색 (Detection of multiple change points using penalized least square methods: a comparative study between ℓ0 and ℓ1 penalty)

  • 손원;임요한;유동현
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1147-1154
    • /
    • 2016
  • 본 연구에서는 다중 변화점 탐색과 관련하여 최근 많은 관심을 받고 있는 ${\ell}_0$-벌점 최소제곱법과 fused-라쏘-회귀(fused lasso regression; FLR)방법을 모의 실험을 통하여 비교하였다. 모의 실험의 결과로 FLR방법은 비-변화점을 변화점으로 잘못 탐색하는 경향이 ${\ell}_0$-벌점 최소제곱법과 비교할 때 상대적으로 높게 나타났으며 ${\ell}_0$-벌점 최소제곱법이 전반적으로 FLR방법에 비하여 좋은 성능을 보였다. 더불어 ${\ell}_0$-벌점 최소제곱법은 동적프로그래밍을 통하여 FLR 방법과 유사하게 효율적인 계산이 가능하다.

Lasso Regression을 이용한 지역 경제 성장과 비만율의 상관관계 분석 (Analysis of the relationship between regional economic growth and obesity by using Lasso Regression)

  • 길은규;오수진;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.565-568
    • /
    • 2018
  • 본 연구에서는 Lasso Regression을 기반으로 하여 지역 경제 성장과 비만율을 예측한다. 연구는 3단계로 나누어 진행된다. 우선 지역성장을 대변할 수 있는 가상의 GDP 수치를 구한다. 그 다음 가상의 GDP 수치와 비만율 데이터를 이용하여 학습모델을 만든다. 마지막으로 이전의 데이터를 이용하여 앞으로의 성장을 예측하고 학습모델에 적용하여 비만율을 예측한다. 본 연구의 데이터는 학습데이터와 실험데이터를 구성된다. 학습데이터로는 국내의 8도 중 하나인 강원도의 데이터를 이용하며 실험데이터로는 강릉과 원주의 데이터를 이용한다. 평가 비교 대상으로는 과거의 흐름을 반영하는 최소자승법 예측기법을 선정하여 비교한다. 연구 결과 강릉의 경우 비교 데이터와의 오차율 평균은 1.22%로 큰 차이가 없음을 알 수 있다. 따라서 본 연구에서 제안하는 방법이 과거의 흐름을 기반으로 작성됨을 알 수 있다. 하지만 단순히 과거의 흐름만을 통해 예측하는 것은 여러 요소가 복합적으로 작용하는 비만율 예측에 알맞지 않기 때문에 본 연구 방법이 유의미하다고 여겨진다.