• 제목/요약/키워드: 스태킹 일반화

검색결과 5건 처리시간 0.021초

다중 스태킹을 가진 새로운 앙상블 학습 기법 (A New Ensemble Machine Learning Technique with Multiple Stacking)

  • 이수은;김한준
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.1-13
    • /
    • 2020
  • 기계학습(machine learning)이란 주어진 데이터에 대한 일반화 과정으로부터 특정 문제를 해결할 수 있는 모델(model) 생성 기술을 의미한다. 우수한 성능의 모델을 생성하기 위해서는 양질의 학습데이터와 일반화 과정을 위한 학습 알고리즘이 준비되어야 한다. 성능 개선을 위한 한 가지 방법으로서 앙상블(Ensemble) 기법은 단일 모델(single model)을 생성하기보다 다중 모델을 생성하며, 이는 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 학습 기법을 포함한다. 본 논문은 기존 스태킹 기법을 개선한 다중 스태킹 앙상블(Multiple Stacking Ensemble) 학습 기법을 제안한다. 다중 스태킹 앙상블 기법의 학습 구조는 딥러닝 구조와 유사하고 각 레이어가 스태킹 모델의 조합으로 구성되며 계층의 수를 증가시켜 각 계층의 오분류율을 최소화하여 성능을 개선한다. 4가지 유형의 데이터셋을 이용한 실험을 통해 제안 기법이 기존 기법에 비해 분류 성능이 우수함을 보인다.

CV 기반 악성 URL 탐지 앙상블 스태킹 모델 (CV-based malicious URL detection ensemble stacking model)

  • 이종호;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.846-849
    • /
    • 2024
  • 다양한 분야에서 QR 코드가 급속도로 확산되면서, QR 코드를 악용하여 사용자를 악성 웹사이트로 리디렉션하는 '큐싱(Qshing)'이라는 새로운 형태의 사이버 범죄가 등장했다. 이에 본 연구에서는 일반화 성능을 향상시키기 위해 교차 검증(CV)을 활용하여 QR 코드 스캔과 관련된 악성 URL을 탐지하도록 설계된 스태킹 앙상블 모델을 제안한다. 이러한 통합은 실제 애플리케이션에서 높은 성능을 기대할 수 있도록 설계되었다. 본 연구는 이 모델이 기존의 연구보다 QR 코드 관련 사이버 위협에 대처하는 보다 효과적인 수단을 제공할 것으로 기대한다.

한국 유역의 지역화를 통해 유출량 예측을 개선하기 위한 수문학적 후 처리된 스태킹 앙상블 모형 (A stacking ensemble model to improve streamflow forecasts at medium range forecasts through hydrological regionalization over South Korea)

  • 이동기;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.182-182
    • /
    • 2021
  • 본 연구에서는 1일부터 최대 7일까지의 시간을 두고 남한 전체의 유출량에 대한 예측 모형을 제시하고자 한다. 이를 위하여 LSM (Land Surface Model) 모형을 사용하여 유출량을 모의하였고 이 과정에서 미 계측치에 대한 유출량을 예측하기 위하여 Xgboost (Extreme Gradient Boost)를 활용하여 매개변수를 지역화하였다. 이러한 지역화 기법을 통하여 남한 전체의 유출량에 대한 그리드화 된 유출값을 얻을 수 있었다. 또한 본 연구에서는 기상 예측자료를 유출량에 대한 예측으로 변환하기 위하여 Stacking 앙상블 기반의 수문학적 후처리 기법을 사용하였다. Stacking 앙상블 기법은 Base-learner와 Meta-learner의 조합으로 이루어 지는데 본 연구에서 새롭게 사용되는 패널티 기반의 분위회귀분석 방법론은 기존의 방법론과의 비교에 있어서 유용한 것으로 파악되었다. 결과적으로 본 연구에서는 총 7일의 앞선 시간의 예측에 있어서 한반도 전체의 유출량에서 비교적 짧은 시간에 대한 예측인 1일과 2일에서의 예측은 실질적으로 사용이 가능한 것으로 파악되었다.

  • PDF

다중 인코더 기반의 트랜스포머 모델을 활용한 한반도 대규모 유역에 중장기 유출량 예측 전망 방법 제시 (A medium-range streamflow forecasting approach over South Korea using Double-encoder-based transformer model)

  • 이동기;윤성현;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.101-101
    • /
    • 2023
  • 지난 수십 년 동안 다양한 딥러닝 방법이 개발되고 있으며 수문 분야에서는 이러한 딥러닝 모형이 기존의 수문모형의 역할을 대체하여 사용할 수 있다는 가능성이 제시되고 있다. 본 연구에서는 딥러닝 모형 중에 트랜스포머 모형에 다중 인코더를 사용하여 중장기 기간 (1 ~ 10일)의 리드 타임에 대한 한국의 유출량 예측 전망의 가능성을 확인하고자 하였다. 트랜스포머 모형은 인코더와 디코더 구조로 구성되어 있으며 어텐션 (attention) 기법을 사용하여 기존 모형의 정보를 손실하는 단점을 보완한 모형이다. 본 연구에서 사용된 다중 인코더 기반의 트랜스포머 모델은 트랜스포머의 인코더와 디코더 구조에서 인코더를 하나 더 추가한 모형이다. 그리고 결과 비교를 위해 기존에 수문모형을 활용한 스태킹 앙상블 모형 (Stacking ensemble model) 기반의 예측모형을 추가로 구축하였다. 구축된 모형들은 남한 전체를 총 469개의 대규모 격자로 나누어 각 격자의 유출량을 비교하여 평가하였다. 결과적으로 수문모형보다 딥러닝 모형인 다중 인코더 기반의 트랜스포머 모형이 더 긴 리드 타임에서 높은 성능을 나타냈으며 이를 통해 수문모형의 역할을 딥러닝 모형이 어느 정도는 대신할 수 있고 높은 성능을 가질 수 있는 것을 확인하였다.

  • PDF

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.