• 제목/요약/키워드: lasso

검색결과 170건 처리시간 0.029초

Prediction of extreme PM2.5 concentrations via extreme quantile regression

  • Lee, SangHyuk;Park, Seoncheol;Lim, Yaeji
    • Communications for Statistical Applications and Methods
    • /
    • 제29권3호
    • /
    • pp.319-331
    • /
    • 2022
  • In this paper, we develop a new statistical model to forecast the PM2.5 level in Seoul, South Korea. The proposed model is based on the extreme quantile regression model with lasso penalty. Various meteorological variables and air pollution variables are considered as predictors in the regression model, and the lasso quantile regression performs variable selection and solves the multicollinearity problem. The final prediction model is obtained by combining various extreme lasso quantile regression estimators and we construct a binary classifier based on the model. Prediction performance is evaluated through the statistical measures of the performance of a binary classification test. We observe that the proposed method works better compared to the other classification methods, and predicts 'very bad' cases of the PM2.5 level well.

Penalized maximum likelihood estimation with symmetric log-concave errors and LASSO penalty

  • Seo-Young, Park;Sunyul, Kim;Byungtae, Seo
    • Communications for Statistical Applications and Methods
    • /
    • 제29권6호
    • /
    • pp.641-653
    • /
    • 2022
  • Penalized least squares methods are important tools to simultaneously select variables and estimate parameters in linear regression. The penalized maximum likelihood can also be used for the same purpose assuming that the error distribution falls in a certain parametric family of distributions. However, the use of a certain parametric family can suffer a misspecification problem which undermines the estimation accuracy. To give sufficient flexibility to the error distribution, we propose to use the symmetric log-concave error distribution with LASSO penalty. A feasible algorithm to estimate both nonparametric and parametric components in the proposed model is provided. Some numerical studies are also presented showing that the proposed method produces more efficient estimators than some existing methods with similar variable selection performance.

릿지 회귀와 라쏘 회귀 모형에 의한 부산 전략산업의 지역경제 효과에 대한 머신러닝 예측 (Machine Learning Prediction of Economic Effects of Busan's Strategic Industry through Ridge Regression and Lasso Regression)

  • 이재득
    • 한국항만경제학회지
    • /
    • 제37권1호
    • /
    • pp.197-215
    • /
    • 2021
  • 본 연구는 규제항을 도입한 릿지 회귀분석과 라쏘 회귀분석을 사용하여 부산 전략산업의 지역경제에 미치는 효과를 특히 고용과 소득에 대한 영향을 중심으로 머신러닝 기법으로 예측하고 분석하였다. 주요 연구결과는 다음과 같다. 첫째, 고용에 대한 전략산업들의 영향을 릿지 회귀모형과 라쏘 회귀모형으로 추정해보면, 전략산업 가운데 서비스플랫폼, 콘텐츠, 스마트금융산업으로 이루어진 지능정보서비스 산업과 MICE, 특화관광으로 구성된 글로벌관광산업의 순으로 고용을 증가시키는데 기여하고 있다. 둘째, 릿지 회귀모형과 라쏘 회귀모형에 의하면 초기투자 단계인 자율주행차, 항공, 드론 산업으로 이루어진 미래수송기기산업은 고용과 소득을 유의하게 증가시키지 않는 것으로 나타났다. 셋째, 전략산업의 소득에 대한 릿지 회귀모형의 추정계수들을 보면, 지능정보서비스산업과 글로벌관광산업의 순으로 부산지역의 소득을 증가시키고 있다. 넷째, 라쏘 회귀모형에서 라이프케어, 스마트해양, 지능형기계, 클린테크산업 등 4개의 전략산업들은 소득에 유의한 영향을 주고 있지 않는 반면, 지능정보서비스산업과 글로벌관광산업 등 2개의 전략산업들은 소득을 증가시키고 있으나, 장기 투자 산업인 미래수송기기산업은 현재 지역경제와 소득에 부의 영향을 줄 수 있는 것으로 나타났다. 그리하여 전략산업을 선정하고 육성하는데 있어, 부산지역 경제목표와 정책 우선순위를 먼저 설정할 필요가 있다는 점을 시사한다.

다수준 프레일티모형 변수선택법을 이용한 다기관 방광암 생존자료분석 (Analysis of multi-center bladder cancer survival data using variable-selection method of multi-level frailty models)

  • 김보현;하일도;이동환
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.499-510
    • /
    • 2016
  • 생존분석 회귀모형에서 적절한 변수를 선택하는 것은 매우 중요하다. 본 논문에서는 "frailtyHL" R 패키지 (Ha 등, 2012)를 기반으로 하여 다수준 프레일티 모형 (multi-level frailty models)에서 벌점화 변수선택 방법 (penalized variable-selection method)의 절차를 소개한다. 여기서 모형 추정은 벌점화 다단계 가능도에 기초하며, 세 가지 벌점 함수 (LASSO, SCAD 및 HL)가 고려된다. 개발된 방법의 예증을 위해 벨기에 EORTC (European Organization for Research and Treatment of Cancer; 유럽 암 치료기구)에서 수행된 다국가/다기관 임상시험 자료를 이용하여 세 가지 변수 선택 방법의 결과를 비교하고, 그 결과들의 상대적 장 단점에 대해 토론한다. 특히, 자료 분석 결과에 의하면 SCAD와 HL방법이 LASSO보다 중요한 변수를 잘 선택하는 것으로 나타났다.

내재된 인자회귀모형의 베이지안 분석법 (Bayesian analysis of latent factor regression model)

  • 경민정
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.365-377
    • /
    • 2020
  • 선형모형에서 두개 이상의 설명변수들 사이에 존재하는 다중공선성 문제를 변수들 간에 내재되어 있는 공통의 구조인 인자를 구성하고, 인자들을 회귀변수로 사용하여 해결하는 인자회귀모형에 대하여 논의한다. 무한개로 가정 가능한 내재된 인자 중 유의미한 인자적재행렬을 구성하기 위하여 벌점모수의 값이 큰 LASSO 사전분포를 적용하는 베이지안 추정법을 사용한다. 결정된 인자적재행렬과 다른 모수들의 추정값을 각 설명변수의 선형모수로 역변환 하여, 새로운 관측값에 대한 예측 모형으로도 사용한다. 제안한 방법을 제품 서비스 관리 자료에 적용하여 정해진 인자의 개수에 대한 인자가 일반적인 공통인자회귀모형과 동일한 결과를 나타냄을 확인하였고, 일반적인 공통인자회귀모형과 비교를 위해 계산한 평균 제곱 오차값이 더 작다는 것을 알 수 있었다.

새로운 관심영역 추출 방법을 이용한 역광보정 (Backlight Compensation by Using a Novel Region of Interest Extraction Method)

  • 성준모;이성신;이성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권6호
    • /
    • pp.321-328
    • /
    • 2017
  • 우리는 빛의 정도에 따라 이미지의 밝기와 채도, 대비를 보정하고 더 나아가 역광을 보정하는 기술을 구현하였다. 역광보정은 자동이나 수동으로 할 수 있는데, 수동으로 역광보정을 적용하기 위해서는 먼저 관심영역을 지정해 주어야 한다. 관심영역은 사진 속 원하는 사물의 윤곽선을 이어줌으로써 선택한다. 우리는 자석 올가미를 이용하여 사용자가 섬세한 선택을 가능하게 하였다. 기존 올가미 기능은 시작점과 끝점을 일치시켜 주어야 하는 단점이 있었으나 제안하는 올가미 기능은 시작점과 끝점을 일치시키지 않아도 관심영역을 선택할 수 있는 장점이 있다. 또한 사용자가 이진화 임계값과 질감추출을 위한 k-means 군집의 개수를 선택할 수 있도록 하여 다양한 역광보정 결과를 자동으로 얻을 수 있게 하였다.

Tracing the breeding farm of domesticated pig using feature selection (Sus scrofa)

  • Kwon, Taehyung;Yoon, Joon;Heo, Jaeyoung;Lee, Wonseok;Kim, Heebal
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제30권11호
    • /
    • pp.1540-1549
    • /
    • 2017
  • Objective: Increasing food safety demands in the animal product market have created a need for a system to trace the food distribution process, from the manufacturer to the retailer, and genetic traceability is an effective method to trace the origin of animal products. In this study, we successfully achieved the farm tracing of 6,018 multi-breed pigs, using single nucleotide polymorphism (SNP) markers strictly selected through least absolute shrinkage and selection operator (LASSO) feature selection. Methods: We performed farm tracing of domesticated pig (Sus scrofa) from SNP markers and selected the most relevant features for accurate prediction. Considering multi-breed composition of our data, we performed feature selection using LASSO penalization on 4,002 SNPs that are shared between breeds, which also includes 179 SNPs with small between-breed difference. The 100 highest-scored features were extracted from iterative simulations and then evaluated using machine-leaning based classifiers. Results: We selected 1,341 SNPs from over 45,000 SNPs through iterative LASSO feature selection, to minimize between-breed differences. We subsequently selected 100 highest-scored SNPs from iterative scoring, and observed high statistical measures in classification of breeding farms by cross-validation only using these SNPs. Conclusion: The study represents a successful application of LASSO feature selection on multi-breed pig SNP data to trace the farm information, which provides a valuable method and possibility for further researches on genetic traceability.

Efficient Compression Algorithm with Limited Resource for Continuous Surveillance

  • Yin, Ling;Liu, Chuanren;Lu, Xinjiang;Chen, Jiafeng;Liu, Caixing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권11호
    • /
    • pp.5476-5496
    • /
    • 2016
  • Energy efficiency of resource-constrained wireless sensor networks is critical in applications such as real-time monitoring/surveillance. To improve the energy efficiency and reduce the energy consumption, the time series data can be compressed before transmission. However, most of the compression algorithms for time series data were developed only for single variate scenarios, while in practice there are often multiple sensor nodes in one application and the collected data is actually multivariate time series. In this paper, we propose to compress the time series data by the Lasso (least absolute shrinkage and selection operator) approximation. We show that, our approach can be naturally extended for compressing the multivariate time series data. Our extension is novel since it constructs an optimal projection of the original multivariates where the best energy efficiency can be realized. The two algorithms are named by ULasso (Univariate Lasso) and MLasso (Multivariate Lasso), for which we also provide practical guidance for parameter selection. Finally, empirically evaluation is implemented with several publicly available real-world data sets from different application domains. We quantify the algorithm performance by measuring the approximation error, compression ratio, and computation complexity. The results show that ULasso and MLasso are superior to or at least equivalent to compression performance of LTC and PLAMlis. Particularly, MLasso can significantly reduce the smooth multivariate time series data, without breaking the major trends and important changes of the sensor network system.

LASSO를 사용한 시간 지연 추정 알고리즘 (Time Delay Estimation Using LASSO (Least Absolute Selection and Shrinkage Operator))

  • 임준석;편용국;최석임
    • 한국통신학회논문지
    • /
    • 제39B권10호
    • /
    • pp.715-721
    • /
    • 2014
  • 두 개 센서에 도래하는 신호 간의 시간 지연을 추정 방법에는 여러 가지가 존재한다. 그 중에서 채널 추정 기법을 기반으로 한 방법의 경우는 두 센서에 입력되는 서로 다른 신호간의 상대적인 지연을 채널의 임펄스 응답처럼 추정하도록 되어 있다. 이 경우에는 해당 채널의 특성이 희박 채널의 특성을 가지고 있다. 기존의 방법들은 채널의 희박성을 이용하지 못하고 있는 방법이 대부분이다. 본 논문에서는 채널의 희박성을 이용하기 위하여 희박신호 최적화 방법의 하나인 LASSO 최적화를 사용한 시간 지연 추정 방법을 제안한다. 제안한 방법을 기존의 방법과 비교하여, 백색 가우시안 신호원에서는 약 10dB 이상의 성능 개선 결과를 보이고, 유색 신호원에서도 갑자기 추정성능이 열하되는 현상이 없음을 보인다.

국내 드라마 시청률 예측 및 영향요인 분석 (A Study on Domestic Drama Rating Prediction)

  • 강수연;전희정;김지혜;송종우
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.933-949
    • /
    • 2015
  • 최근 상업방송의 도입과 채널의 다양화로 국내 드라마 시장의 시청률 경쟁이 심화되었다. 이에 시청률에 대한 실증적인 연구의 필요성이 대두되고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 최근 방송시장의 변화를 고려한 국내 드라마 시청률 예측 모형을 제시하고 시청률에 유의한 영향을 미치는 변수들을 도출하는 데 있다. 모형 적합 시 선형회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅 등과 같은 다양한 분석 방법을 고려하였다. 이 때 드라마 방영 전 알 수 있는 기본 정보들만을 고려하여 드라마의 초반 시청률을 예측하는 모형을 적합한 후 방영 초기의 여론을 고려한 평균 시청률 예측 모형을 적합하였다. 그 결과 드라마 초반 시청률은 방송사, 방송시간, 드라마 방영 이전 드라마 관련 검색량 등 드라마의 구조적 요인과 임소문 효과의 영향을 크게 받으며, 평균 시청률은 드라마 초반 시청률과 드라마 방영 이후 드라마 관련 검색량 등 방영 초기의 여론에 큰 영향을 받는 것으로 나타났다.