• 제목/요약/키워드: Lasso

검색결과 173건 처리시간 0.021초

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

불균형 자료의 분류분석을 위한 가중 L1-norm SVM (Weighted L1-Norm Support Vector Machine for the Classification of Highly Imbalanced Data)

  • 김은경;전명식;방성완
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.9-21
    • /
    • 2015
  • SVM은 높은 수준의 분류 정확도와 유연성을 바탕으로 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 집단별 개체수가 상이한 불균형 자료의 분류분석에서 SVM은 다수집단으로 편향되게 분류함수를 추정하므로 소수집단의 분류 정확도가 심각하게 감소하게 된다. 불균형 자료의 분류분석을 위하여 집단별 오분류 비용을 차등 적용하는 가중 $L_2$-norm SVM이 개발되었으나, 이는 릿지 형태의 벌칙함수를 사용하므로 분류함수의 추정에서 불필요한 잡음변수의 제거에는 효율적이지 못하다. 따라서 본 논문에서는 라소 형태의 별칙함수를 사용하고 훈련개체의 오분류 비용을 차등적으로 부여함으로서 불균형 자료의 분류분석에서 변수선택의 기능을 지니는 가중 $L_1$-norm SVM을 제안하였으며, 모의실험과 실제자료의 분석을 통하여 제안한 방법론의 효율적인 성능과 유용성을 확인하였다.

순열검정을 이용한 FLSA의 사후추론 (Permutation test for a post selection inference of the FLSA)

  • 최지은;손원
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.863-874
    • /
    • 2021
  • FLSA는 총변동벌점을 이용해 구간별상수인 평균 구조를 구현하는 벌점모형으로 다중변화점 탐색을 위해 활용되고 있다. 한편, FLSA는 변화점 탐색에 있어서 점근적 일치성이 만족되지 않으므로 잡음의 크기가 0에 가깝게 수렴하는 경우에도 다수의 거짓 변화점이 식별될 수 있다는 단점이 있다. 이 연구에서는 이러한 FLSA의 문제점을 해결하기 위한 사후추론 방법으로 순열검정 방법을 제안한다. 단일변화점 모형과 관련된 순열검정 방법은 Antoch와 Hušková (2001)에 의해 제안된 바 있다. 이 연구에서는 Antoch와 Hušková (2001)의 검정절차를 확장하여 다중변화점 식별에 사용되는 FLSA와 결합함으로써 다중변화점 모형에 적용할 수 있는 순열검정절차를 제안한다. 모의실험 결과, 제안된 방법은 z-검정과 CUSUM 통계량의 극한분포에 기반을 둔 검정방법에 비해 전반적으로 우수하였으며 거짓 변화점의 식별에 유용함을 확인할 수 있었다.

에어비앤비(Airbnb) 웹 로그 데이터를 이용한 고객 행동 예측 (Consumer behavior prediction using Airbnb web log data)

  • 안효인;최유리;오래은;송종우
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.391-404
    • /
    • 2019
  • 그동안의 고객 행동에 대한 예측은 주로 고객이 가지는 고정적인 특성을 이용해왔다. 최근에는 점차 고객들의 활동이 오프라인에서 온라인으로 이동하면서 각 고객의 웹 로그를 추적하는 일이 가능해졌다. 그러나 방대한 양의 웹 로그 데이터를 수집할 수 있게 된 반면, 이에 대한 연구는 로그 데이터를 정리하거나 기술적인 특성만을 설명하는 것에 그쳤다. 본 연구에서는 웹사이트 Kaggle에서 제공하는 Airbnb 고객들의 성별, 연령 등의 기본 정보 및 웹 로그가 포함된 데이터셋을 이용하여 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하였다. Lasso, SVM, Random Forest, XGBoost 등 다양한 방법론을 활용하여 최적의 모형을 찾고, 웹 로그 데이터의 유무에 따른 예측 오차를 비교하여 웹 로그의 효용성을 확인하였다. 결과적으로 오분류율이 약 20%로 낮은 랜덤 포레스트 분류모형을 최적모형으로 선택하였다. 또한, 웹 로그 데이터를 이용하여 고객 개개인의 행동을 예측한 결과 사용하지 않은 경우와 비교해 예측의 정확도가 최대 두 배 더 높아진 것을 확인할 수 있었다.

퍼터베이션 방법을 활용한 평균-숏폴 포트폴리오 최적화 (Mean-shortfall optimization problem with perturbation methods)

  • 원하연;박세영
    • 응용통계연구
    • /
    • 제34권1호
    • /
    • pp.39-56
    • /
    • 2021
  • Markowitz (1952)의 분산투자 모형 발표 이후 포트폴리오 최적화에 대한 많은 연구가 이루어졌다. 마코위츠의 평균-분산 포트폴리오 최적화 모형은 수익 분포가 정규분포를 따른다는 가정하에서 성립한다. 그러나 실생활에서는 수익 분포가 정규분포를 따르지 않는 경우가 존재한다. 또한 분산은 이상치의 영향을 많이 받는 민감한 지표이다. 이런 분산의 단점을 보완할 수 있는 하방위험인 숏폴(Shortfall)을 위험 지표로 적용함으로써 수익 분포에 대해 최적화가 가능한 평균-숏폴 포트폴리오 모형이 제안되었다. 또한 Jorion (2003)과 Park(2019)은 포트폴리오의 위험도를 최소화하는 동시에 적은 수의 자산으로 구성(sparse)되고 안정적(stable)인 포트폴리오를 얻는 퍼터베이션 방법을 제안하였다. 본 논문에서는 평균-숏폴 포트폴리오 모형에 퍼터베이션 방법과 adaptive Lasso를 적용하여 사용되는 자산의 수가 적으면서 안정적이고 쉽게 적용 가능한 포트폴리오 모형을 제안한다. 그리고 실증 데이터 분석을 통하여 모형의 타당성을 입증한다.

약물유전체학에서 약물반응 예측모형과 변수선택 방법 (Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics)

  • 김규환;김원국
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.153-166
    • /
    • 2021
  • 약물유전체학 연구의 주요 목표는 고차원의 유전 변수를 기반으로 개인의 약물 반응성을 예측하는 것이다. 변수의 개수가 많기 때문에 변수의 개수를 줄이기 위해서는 변수 선택이 필요하며, 선택된 변수들은 머신러닝 알고리즘을 사용하여 예측 모델을 구축하는데 사용된다. 본 연구에서는 400명의 뇌전증 환자의 차세대 염기서열 분석 데이터에 로지스틱 회귀, ReliefF, TurF, 랜덤 포레스트, LASSO의 조합과 같은 여러 가지 혼합 변수 선택 방법을 적용하였다. 선택된 변수들에 랜덤포레스트, 그래디언트 부스팅, 서포트벡터머신을 포함한 머신러닝 방법들을 적용했고 스태킹을 통해 앙상블 모형을 구축하였다. 본 연구의 결과는 랜덤포레스트와 ReliefF의 혼합 변수 선택 방법을 이용한 스태킹 모형이 다른 모형보다 더 좋은 성능을 보인다는 것을 보여주었다. 5-폴드 교차 검증을 기반으로 하여 적합한 최적 모형의 평균 검증 정확도는 0.727이고 평균 검증 AUC 값은 0.761로 나타났다. 또한, 동일한 변수를 사용할 때 스태킹 모델이 단일 머신러닝 예측 모델보다 성능이 우수한 것으로 나타났다.

OBDII 데이터 기반의 실시간 연료 소비량 예측 모델 연구 (A Modeling of Realtime Fuel Comsumption Prediction Using OBDII Data)

  • 양희은;김도현;최호섭
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.57-64
    • /
    • 2021
  • 자율주행차 시대가 도래하면서 ECU (Electronic Control Unit)는 점차 고도화되고 있고, 이에 따라 차량에서 정확한 데이터를 추출하고 분석하려는 연구가 다양하게 시도되어 왔다. 그러나 ECU는 차량 제조사별로 상이한 프로토콜을 가지고 있어 상용 단말기로는 정확한 데이터 추출과 분석이 어렵다. 본 연구에서는 정확한 차량 데이터를 추출하기 위하여 전용 펌웨어를 개발하여 차량의 2019년 1월부터 2월의 실제 주행데이터 53,580건의 데이터를 추출하였으며, 20회가 넘는 실제 도로 주행을 통해서 데이터의 정확도를 검증하였다. 이러한 데이터를 바탕으로 실시간 연료 소비량 예측 모델의 정확도를 높이기 위하여 스태킹 앙상블 기법을 이용하였다. 본 연구에서는 베이스 모델로 Ridge, Lasso, XGBoost, LightGBM이 사용되고 메타 모델은 Ridge가 사용되었으며, 예측 성능은 MAE 0.011, RMSE 0.017로 최적의 결과를 보였다.

1 추세필터의 변화점 식별에 있어서의 비일치성 (An empirical evidence of inconsistency of the ℓ1 trend filtering in change point detection)

  • 유동현;임요한;손원
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.371-384
    • /
    • 2022
  • 구간별 상수 구조를 가지는 관측값으로부터 변화점을 식별하기 위해 FLSA가 자주 사용되고 있다. FLSA는 총변동벌점을 이용하기 때문에 평균 수준이 단조성을 가지는 경우에는 변화점 식별에서의 일치성이 보장되지 않는다는 특징이 있다. ℓ1 추세필터는 오차제곱합과 기울기 차이에 대한 ℓ1 벌점의 합을 목적함수로 가지는 구간별 선형 구조 추정방법으로 구간별 선형 구조에서의 변화점을 식별하기 위해 활용할 수 있다. 한편, ℓ1 추세필터의 경우에도 총변동벌점을 이용하므로 FLSA와 마찬가지로 변화점 식별에 있어서 비일치성을 보일 것으로 예상할 수 있는데 이와 관련된 연구는 아직까지 많이 이루어져 있지 않다. 이 연구에서는 모의실험을 통해 구간별 선형 모형에서 변화점을 식별하기 위해 사용되는 ℓ1 추세필터의 비일치성에 대해 살펴본다.

2D 전립선 단면 영상에서 영역 분류를 위한 라디오믹스 기반 바이오마커 검증 연구 (Radiomics-based Biomarker Validation Study for Region Classification in 2D Prostate Cross-sectional Images)

  • 박준영;김영재;김지섭;김광기
    • 대한의용생체공학회:의공학회지
    • /
    • 제44권1호
    • /
    • pp.25-32
    • /
    • 2023
  • Recognizing the size and location of prostate cancer is critical for prostate cancer diagnosis, treatment, and predicting prognosis. This paper proposes a model to classify the tumor region and normal tissue with cross-sectional visual images of prostatectomy tissue. We used specimen images of 44 prostate cancer patients who received prostatectomy at Gachon University Gil Hospital. A total of 289 prostate slice images consist of 200 slices including tumor region and 89 slices not including tumor region. Images were divided based on the presence or absence of tumor, and a total of 93 features from each slice image were extracted using Radiomics: 18 first order, 24 GLCM, 16 GLRLM, 16 GLSZM, 5 NGTDM, and 14 GLDM. We compared feature selection techniques such as LASSO, ANOVA, SFS, Ridge and RF, LR, SVM classifiers for the model's high performances. We evaluated the model's performance with AUC of the ROC curve. The results showed that the combination of feature selection techniques LASSO, Ridge, and classifier RF could be best with an AUC of 0.99±0.005.

댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구 (Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction)

  • 조영식;정관수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF