• 제목/요약/키워드: gradient boosting regression

검색결과 79건 처리시간 0.022초

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

국내 예능 시청률과 회차 예측 및 영향요인 분석 (A study on entertainment TV show ratings and the number of episodes prediction)

  • 김미림;임소연;장초희;송종우
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.809-825
    • /
    • 2017
  • 오디션, 육아, 버라이어티 등 다양한 예능 프로그램들의 수가 점점 증가하고 있다. 특히 종합편성채널이 개국한 이후에 예능 시장 경쟁이 심화되고 있다. 그에 따라 시청률과 회차에 대한 연구의 필요성이 대두되고 있다. 본 연구의 목적은 예능 프로그램 시청률과 회차의 예측모형을 제시하고 주요요인을 살펴보는 데 있다. 모형 적합 시 선형회귀모형, 로지스틱 회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 머신 등과 같은 다양한 분석 방법을 고려하였다. 예능 시청률 예측 모형에서는 첫 회가 방영되기 전과 방영된 후 두 가지 모형을 적합하였고, 회차 예측 모형에서는 예능 시청률 예측 모형의 예측치를 추가 변수로 생성하여 모형을 적합하였다. 그 결과 첫 회 방영 전 예능 시청률 예측에서는 방송사, 이전 시즌 시청률, 시작 연도, 기사 수가 큰 영향을 주는 것으로 나타났다. 첫 회 방영 후 예능 시청률 예측에서는 첫 회 시청률, 방송사, 예능 유형이 중요한 변수로 나타났으며, 두 모형 모두 랜덤 포레스트 모형에서 가장 좋은 결과를 보였다. 예능 회차 예측에서는 평균 시청률 예측치, 시작 연도, 예능유형, 방송국 등이 중요한 변수로 나타났다.

IoT 및 딥 러닝 기반 스마트 팜 환경 최적화 및 수확량 예측 플랫폼 (A Smart Farm Environment Optimization and Yield Prediction Platform based on IoT and Deep Learning)

  • 최호길;안희학;정이나;이병관
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.672-680
    • /
    • 2019
  • 본 논문은 농장의 바이오 센서 데이터를 수집해서 농장에서 재배중인 농작물의 질병을 진단하고, 그 해 수확량을 예측하는 IoT 및 딥 러닝 기반 스마트 팜 환경 최적화 및 수확량 예측 플랫폼을 제안한다. 이 플랫폼은 현재 날씨, 토양 미생물 등 수집 가능한 모든 정보를 수집하여 작물이 잘 성장할 수 있도록 농장 환경을 최적화하고, 농장에서 재배중인 작물의 잎을 이용하여 작물의 질병을 진단하고, 그리고, 농장의 모든 정보를 사용하여 올해 수확량을 예측한다. 실험 결과 AEOM(Agricultural Environment Optimization Module)의 평균 정확도는 RF(Random Forest)보다 약 15%, GBD(Gradient Boosting Tree)보다 약 8% 높고, 데이터가 증가해도 RF나 GBD에 비해 정확도가 덜 감소한다. 선형 회귀에 따르면 정확도의 기울기는 ReLU의 경우 -3.641E-4, Sigmoid의 경우 -4.0710E-4, 계단함수의 경우 -7.4534E-4이다. 따라서 ReLU 사용시 정확도 기울기가 가장 낮으므로 테스트 데이터의 양이 증가함에 따라 ReLU는 다른 두 가지 활성화 기능보다 더 정확하다. 본 논문에서 제안한 EOYPP는 농장 전체를 관리하는 플랫폼으로 실제 농장에 도입된다면 국내 스마트 팜의 발전에 크게 이바지할 것이다.

TBM 데이터와 머신러닝 기법을 이용한 디스크 커터마모 예측에 관한 연구 (A Study on the Prediction of Disc Cutter Wear Using TBM Data and Machine Learning Algorithm)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제32권6호
    • /
    • pp.502-517
    • /
    • 2022
  • TBM의 활용이 증가하면서 최근 국내외에서 머신러닝 기법으로 TBM 데이터를 분석하여 디스크커터의 교환주기 예측 및 굴진율을 예측하는 연구가 증가하고 있다. 본 연구에서는 굴진 시 획득되는 기계 데이터와 지반 데이터를 기반으로 최근에 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 회귀 모델을 접목하여 슬러리 쉴드 TBM 현장의 디스크 커터 마모 예측을 하였다. 디스크 커터 마모 예측을 위해서 Training과 Test 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 그 결과, 앙상블 계열의 그레디언트 부스팅 모델이 결정계수가 0.852, 평균 제곱근 오차가 3.111로 좋은 성능을 보여주었고 특히 학습성능과 더불어 학습속도에서 우수한 결과를 보여주었다. 현재 도출된 결과로 볼 때, 슬러리 쉴드 TBM의 기계데이터와 지반정보가 포함된 데이터를 활용한 디스크 커터 마모 예측 모델의 적합성은 높다고 보인다. 추가적으로 지반조건의 다양성과 디스크 마모 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.

고해상도 위성영상과 머신러닝을 활용한 녹조 모니터링 기법 연구 (Remote Sensing based Algae Monitoring in Dams using High-resolution Satellite Image and Machine Learning)

  • 정지영;장현준;김성훈;최영돈;이혜숙;최성화
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.42-42
    • /
    • 2022
  • 지금까지도 유역에서의 녹조 모니터링은 현장채수를 통한 점 단위 모니터링에 크게 의존하고 있어 기후, 유속, 수온조건 등에 따라 수체에 광범위하게 발생하는 녹조를 효율적으로 모니터링하고 대응하기에는 어려운 점들이 있어왔다. 또한, 그동안 제한된 관측 데이터로 인해 현장 측정된 실측 데이터 보다는 녹조와 관련이 높은 NDVI, FGAI, SEI 등의 파생적인 지수를 산정하여 원격탐사자료와 매핑하는 방식의 분석연구 등이 선행되었다. 본 연구는 녹조의 모니터링시 정확도와 효율성을 향상을 목표로 하여, 우선은 녹조 측정장비를 활용, 7000개 이상의 녹조 관측 데이터를 확보하였으며, 이를 바탕으로 동기간의 고해상도 위성 자료와 실측자료를 매핑하기 위해 다양한Machine Learning기법을 적용함으로써 그 효과성을 검토하고자 하였다. 연구대상지는 낙동강 내성천 상류에 위치한 영주댐 유역으로서 데이터 수집단계에서는 면단위 현장(in-situ) 관측을 위해 2020년 2~9월까지 4회에 걸쳐 7291개의 녹조를 측정하고, 동일 시간 및 공간의 Sentinel-2자료 중 Band 1~12까지 총 13개(Band 8은 8과 8A로 2개)의 분광특성자료를 추출하였다. 다음으로 Machine Learning 분석기법의 적용을 위해 algae_monitoring Python library를 구축하였다. 개발된 library는 1) Training Set과 Test Set의 구분을 위한 Data 준비단계, 2) Random Forest, Gradient Boosting Regression, XGBoosting 알고리즘 중 선택하여 적용할 수 있는 모델적용단계, 3) 모델적용결과를 확인하는 Performance test단계(R2, MSE, MAE, RMSE, NSE, KGE 등), 4) 모델결과의 Visualization단계, 5) 선정된 모델을 활용 위성자료를 녹조값으로 변환하는 적용단계로 구분하여 영주댐뿐만 아니라 다양한 유역에 범용적으로 적용할 수 있도록 구성하였다. 본 연구의 사례에서는 Sentinel-2위성의 12개 밴드, 기상자료(대기온도, 구름비율) 총 14개자료를 활용하여 Machine Learning기법 중 Random Forest를 적용하였을 경우에, 전반적으로 가장 높은 적합도를 나타내었으며, 적용결과 Test Set을 기준으로 NSE(Nash Sutcliffe Efficiency)가 0.96(Training Set의 경우에는 0.99) 수준의 성능을 나타내어, 광역적인 위성자료와 충분히 확보된 현장실측 자료간의 데이터 학습을 통해서 조류 모니터링 분석의 효율성이 획기적으로 증대될 수 있음을 확인하였다.

  • PDF

Prediction of Residual Axillary Nodal Metastasis Following Neoadjuvant Chemotherapy for Breast Cancer: Radiomics Analysis Based on Chest Computed Tomography

  • Hyo-jae Lee;Anh-Tien Nguyen;Myung Won Song;Jong Eun Lee;Seol Bin Park;Won Gi Jeong;Min Ho Park;Ji Shin Lee;Ilwoo Park;Hyo Soon Lim
    • Korean Journal of Radiology
    • /
    • 제24권6호
    • /
    • pp.498-511
    • /
    • 2023
  • Objective: To evaluate the diagnostic performance of chest computed tomography (CT)-based qualitative and radiomics models for predicting residual axillary nodal metastasis after neoadjuvant chemotherapy (NAC) for patients with clinically node-positive breast cancer. Materials and Methods: This retrospective study included 226 women (mean age, 51.4 years) with clinically node-positive breast cancer treated with NAC followed by surgery between January 2015 and July 2021. Patients were randomly divided into the training and test sets (4:1 ratio). The following predictive models were built: a qualitative CT feature model using logistic regression based on qualitative imaging features of axillary nodes from the pooled data obtained using the visual interpretations of three radiologists; three radiomics models using radiomics features from three (intranodal, perinodal, and combined) different regions of interest (ROIs) delineated on pre-NAC CT and post-NAC CT using a gradient-boosting classifier; and fusion models integrating clinicopathologic factors with the qualitative CT feature model (referred to as clinical-qualitative CT feature models) or with the combined ROI radiomics model (referred to as clinical-radiomics models). The area under the curve (AUC) was used to assess and compare the model performance. Results: Clinical N stage, biological subtype, and primary tumor response indicated by imaging were associated with residual nodal metastasis during the multivariable analysis (all P < 0.05). The AUCs of the qualitative CT feature model and radiomics models (intranodal, perinodal, and combined ROI models) according to post-NAC CT were 0.642, 0.812, 0.762, and 0.832, respectively. The AUCs of the clinical-qualitative CT feature model and clinical-radiomics model according to post-NAC CT were 0.740 and 0.866, respectively. Conclusion: CT-based predictive models showed good diagnostic performance for predicting residual nodal metastasis after NAC. Quantitative radiomics analysis may provide a higher level of performance than qualitative CT features models. Larger multicenter studies should be conducted to confirm their performance.

Performance of Prediction Models for Diagnosing Severe Aortic Stenosis Based on Aortic Valve Calcium on Cardiac Computed Tomography: Incorporation of Radiomics and Machine Learning

  • Nam gyu Kang;Young Joo Suh;Kyunghwa Han;Young Jin Kim;Byoung Wook Choi
    • Korean Journal of Radiology
    • /
    • 제22권3호
    • /
    • pp.334-343
    • /
    • 2021
  • Objective: We aimed to develop a prediction model for diagnosing severe aortic stenosis (AS) using computed tomography (CT) radiomics features of aortic valve calcium (AVC) and machine learning (ML) algorithms. Materials and Methods: We retrospectively enrolled 408 patients who underwent cardiac CT between March 2010 and August 2017 and had echocardiographic examinations (240 patients with severe AS on echocardiography [the severe AS group] and 168 patients without severe AS [the non-severe AS group]). Data were divided into a training set (312 patients) and a validation set (96 patients). Using non-contrast-enhanced cardiac CT scans, AVC was segmented, and 128 radiomics features for AVC were extracted. After feature selection was performed with three ML algorithms (least absolute shrinkage and selection operator [LASSO], random forests [RFs], and eXtreme Gradient Boosting [XGBoost]), model classifiers for diagnosing severe AS on echocardiography were developed in combination with three different model classifier methods (logistic regression, RF, and XGBoost). The performance (c-index) of each radiomics prediction model was compared with predictions based on AVC volume and score. Results: The radiomics scores derived from LASSO were significantly different between the severe AS and non-severe AS groups in the validation set (median, 1.563 vs. 0.197, respectively, p < 0.001). A radiomics prediction model based on feature selection by LASSO + model classifier by XGBoost showed the highest c-index of 0.921 (95% confidence interval [CI], 0.869-0.973) in the validation set. Compared to prediction models based on AVC volume and score (c-indexes of 0.894 [95% CI, 0.815-0.948] and 0.899 [95% CI, 0.820-0.951], respectively), eight and three of the nine radiomics prediction models showed higher discrimination abilities for severe AS. However, the differences were not statistically significant (p > 0.05 for all). Conclusion: Models based on the radiomics features of AVC and ML algorithms may perform well for diagnosing severe AS, but the added value compared to AVC volume and score should be investigated further.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.

비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측 모델 (A Recidivism Prediction Model Based on XGBoost Considering Asymmetric Error Costs)

  • 원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.127-137
    • /
    • 2019
  • 재범예측은 70년대 이전부터 전문가들에 의해서 꾸준히 연구되어온 분야지만, 최근 재범에 의한 범죄가 꾸준히 증가하면서 재범예측의 중요성이 커지고 있다. 특히 미국과 캐나다에서 재판이나 가석방심사 시 재범 위험 평가 보고서를 결정적인 기준으로 채택하게 된 90년대를 기점으로 재범예측에 관한 연구가 활발해졌으며, 비슷한 시기에 국내에서도 재범요인에 관한 실증적인 연구가 시작되었다. 지금까지 대부분의 재범예측 연구는 재범요인 분석이나 재범예측의 정확성을 높이는 연구에 집중된 경향을 보이고 있다. 그러나 재범 예측에는 비대칭 오류 비용 구조가 있기 때문에 경우에 따라 예측 정확도를 최대화함과 동시에 예측 오분류 비용을 최소화하는 연구도 중요한 의미를 가진다. 일반적으로 재범을 저지르지 않을 사람을 재범을 저지를 것으로 오분류하는 비용은 재범을 저지를 사람을 재범을 저지르지 않을 것으로 오분류하는 비용보다 낮다. 전자는 추가적인 감시 비용만 증가되는 반면, 후자는 범죄 발생에 따른 막대한 사회적, 경제적 비용을 야기하기 때문이다. 이러한 비대칭비용에 따른 비용 경제성을 반영하여, 본 연구에서 비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측모델을 제안한다. 모델의 첫 단계에서 최근 데이터 마이닝 분야에서 높은 성능으로 각광받고 있는 앙상블 기법, XGBoost를 적용하였고, XGBoost의 결과를 로지스틱 회귀 분석(Logistic Regression Analysis), 의사결정나무(Decision Trees), 인공신경망(Artificial Neural Networks), 서포트 벡터 머신(Support Vector Machine)과 같은 다양한 예측 기법과 비교하였다. 다음 단계에서 임계치의 최적화를 통해 FNE(False Negative Error)와 FPE(False Positive Error)의 가중 평균인 전체 오분류 비용을 최소화한다. 이후 모델의 유용성을 검증하기 위해 모델을 실제 재범예측 데이터셋에 적용하여 XGBoost 모델이 다른 비교 모델 보다 우수한 예측 정확도를 보일 뿐 아니라 오분류 비용도 가장 효과적으로 낮춘다는 점을 확인하였다.