• 제목/요약/키워드: gradient boosting

검색결과 221건 처리시간 0.029초

국내 드라마 시청률 예측 및 영향요인 분석 (A Study on Domestic Drama Rating Prediction)

  • 강수연;전희정;김지혜;송종우
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.933-949
    • /
    • 2015
  • 최근 상업방송의 도입과 채널의 다양화로 국내 드라마 시장의 시청률 경쟁이 심화되었다. 이에 시청률에 대한 실증적인 연구의 필요성이 대두되고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 최근 방송시장의 변화를 고려한 국내 드라마 시청률 예측 모형을 제시하고 시청률에 유의한 영향을 미치는 변수들을 도출하는 데 있다. 모형 적합 시 선형회귀모형, LASSO 회귀모형, 랜덤 포레스트, 그래디언트 부스팅 등과 같은 다양한 분석 방법을 고려하였다. 이 때 드라마 방영 전 알 수 있는 기본 정보들만을 고려하여 드라마의 초반 시청률을 예측하는 모형을 적합한 후 방영 초기의 여론을 고려한 평균 시청률 예측 모형을 적합하였다. 그 결과 드라마 초반 시청률은 방송사, 방송시간, 드라마 방영 이전 드라마 관련 검색량 등 드라마의 구조적 요인과 임소문 효과의 영향을 크게 받으며, 평균 시청률은 드라마 초반 시청률과 드라마 방영 이후 드라마 관련 검색량 등 방영 초기의 여론에 큰 영향을 받는 것으로 나타났다.

Predicting Daily Nutrient Water Consumption by Strawberry Plants in a Greenhouse Environment

  • Sathishkumar, VE;Lee, Myeong-Bae;Lim, Jong-Hyun;Shin, Chang-Sun;Park, Chang-Woo;Cho, Yong Yun
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.581-584
    • /
    • 2019
  • Food consumption is growing worldwide every year owing to a growing population. Hence, the increasing population needs the production of sufficient and good quality food products. Strawberry is one of the world's most famous fruit. To obtain the highest strawberry output, we worked with three strawberry varieties supplied with three kinds of nutrient water in a greenhouse and with the outcome of the strawberry production, the highest yielding strawberry variety is detected. This Study uses the nutrient water consumed every day by the highest yielding strawberry variety. The atmospheric temperature, humidity and CO2 levels within the greenhouse are identified and used for the prediction, since the water consumption by any plant depends primarily on weather conditions. Machine learning techniques show successful outcomes in a multitude of issues including time series and regression issues. In this study, daily nutrient water consumption of strawberry plants is predicted using machine learning algorithms is proposed. Four Machine learning algorithms are used such as Linear Regression (LR), K nearest neighbour (KNN), Support Vector Machine with Radial Kernel (SVM) and Gradient Boosting Machine (GBM). Gradient Boosting System produces the best results.

기계학습을 이용한 복숭아 경락가격 및 거래량 예측모형 비교 (The Comparison of Peach Price and Trading Volume Prediction Model Using Machine Learning Technique)

  • 김미혜;홍성민;윤상후
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2933-2940
    • /
    • 2018
  • 과일의 경우 다른 작물보다 날씨의 영향을 많이 받으므로, 농업인의 고부가가치 창출을 위해서는 날씨를 고려한 작물모형개발이 필요하다. 본 연구에서는 과실류 중에서 비교적 제한된 조건에서 생산되는 복숭아를 연구대상으로 선정하였으며, 옥답 4.0에서 제공하는 2015년부터 2017년까지 대구에서 거래된 복숭아자료를 사용하였다. 분석에 사용되는 기상자료는 재배면적에 대한 가중치를 부여하여 생성하였으며, 1일 전부터 7일 전까지 날씨자료 중 상관성이 높은 변수를 사용하였다. 분석 방법으로는 기계학습법에 해당하는 랜덤포레스트와 그래디언트부스팅(gradient boosting machine), XGboost을 사용하였다. 분석결과, XGboost의 성능이 가장 우수하게 나타났으며, 경락가격 예측은 비교적 잘 예측할 수 있었지만, 거래량 예측의 정확성은 그리 높지 않았다. 복숭아 거래량 예측에 영향을 미치는 상위 3개의 기상변수로는 최저온도, 평균최대온도, 강수량으로 나타났다.

그래디언트 부스팅 모델을 활용한 상점 매출 예측 (Store Sales Prediction Using Gradient Boosting Model)

  • 최재영;양희윤;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.171-177
    • /
    • 2021
  • 최근 머신러닝의 발전에 따라 일상생활과 산업에서 기술을 적용하는 사례들이 많아지고 있다. 금융 데이터와 머신러닝 기법을 활용한 연구 또한 활발하게 이루어지고 있다. 본 논문은 이러한 동향에 따라 상점 매출 데이터에 머신러닝 기법을 접목해 매출 예측 모델을 구축, 핀테크 산업에서의 활용 방안을 제시한다. 다양한 결측치 처리 기법을 적용하고 그래디언트 부스팅 기반의 머신러닝 기법인 XGBoost, LightGBM, CatBoost를 사용하여 각 모델의 상점 매출예측 성능을 비교한다. 연구 결과, 단일대체법 중 중앙값 대체법을 사용한 데이터셋에 XGBoost를 활용해 예측을 진행한 모델의 성능이 가장 우수했다. 연구를 통해 얻은 모델을 이용하여 상점의 매출 예측을 진행함으로서 핀테크 기업의 고객 상점들은 대출금을 상환하기 전 금융 보조를 받는 근거로, 핀테크 기업은 상환 가능성이 높은 우수 상점에 금융 상품을 제공하는 등 기업과 고객 모두에게 긍정적인 방향으로 활용할 수 있다.

쾌삭 303계 스테인리스강 소형 압연 선재 제조 공정의 생산품질 예측 모형 (Quality Prediction Model for Manufacturing Process of Free-Machining 303-series Stainless Steel Small Rolling Wire Rods)

  • 서석준;김흥섭
    • 산업경영시스템학회지
    • /
    • 제44권4호
    • /
    • pp.12-22
    • /
    • 2021
  • This article suggests the machine learning model, i.e., classifier, for predicting the production quality of free-machining 303-series stainless steel(STS303) small rolling wire rods according to the operating condition of the manufacturing process. For the development of the classifier, manufacturing data for 37 operating variables were collected from the manufacturing execution system(MES) of Company S, and the 12 types of derived variables were generated based on literature review and interviews with field experts. This research was performed with data preprocessing, exploratory data analysis, feature selection, machine learning modeling, and the evaluation of alternative models. In the preprocessing stage, missing values and outliers are removed, and oversampling using SMOTE(Synthetic oversampling technique) to resolve data imbalance. Features are selected by variable importance of LASSO(Least absolute shrinkage and selection operator) regression, extreme gradient boosting(XGBoost), and random forest models. Finally, logistic regression, support vector machine(SVM), random forest, and XGBoost are developed as a classifier to predict the adequate or defective products with new operating conditions. The optimal hyper-parameters for each model are investigated by the grid search and random search methods based on k-fold cross-validation. As a result of the experiment, XGBoost showed relatively high predictive performance compared to other models with an accuracy of 0.9929, specificity of 0.9372, F1-score of 0.9963, and logarithmic loss of 0.0209. The classifier developed in this study is expected to improve productivity by enabling effective management of the manufacturing process for the STS303 small rolling wire rods.

부지화 잎의 화학성분에 기반한 질소결핍 여부 구분 머신러닝 모델 개발 (Development of Machine Learning Models Classifying Nitrogen Deficiency Based on Leaf Chemical Properties in Shiranuhi (Citrus unshiu × C. sinensis))

  • 박원표;허성
    • 한국자원식물학회지
    • /
    • 제35권2호
    • /
    • pp.192-200
    • /
    • 2022
  • 본 연구에서는 부지화 잎의 무기양분 농도 측정 결과를 바탕으로 질소를 제외한 다른 무기양분의 함량을 통해서 잎의 질소 결핍 여부를 구분하는 머신러닝 모델을 개발하였다. 그러기 위해서 부지화의 질소결핍구와 대조구의 잎 샘플을 분석한 36개의 데이터를 부트스트랩핑 방법을 통해서 학습용 데이터셋 1,000 여 개로 증량시켰다. 이를 이용해 학습한 각 모델을 테스트한 결과, gradient boosting 모델이 가장 우수한 분류성능을 보여주었다. 본 모델을 이용해 질소함량을 직접적으로 분석할 수 없는 경우, 잎의 무기성분 함량에 기반하여 질소결핍 가능성 여부를 판단해 질소가 부족한 부지화 나무를 분별하고, 정확한 질소함량을 측정하게 유도하여 그에 기초한 적정 질소비료 시비를 가능케 하고자 하였다.

취수원 수질예측을 위한 성층 물리변수 활용 데이터 기반 모델링 연구 (A Study on Data-driven Modeling Employing Stratification-related Physical Variables for Reservoir Water Quality Prediction)

  • 장현준;정지영;주경원;이충성;김성훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.143-143
    • /
    • 2023
  • 최근 대청댐('17), 평림댐('19) 등 광역 취수원에서 망간의 먹는 물 수질기준(0.05mg/L 이하) 초과 사례가 발생되어, 다수의 민원이 제기되는 등 취수원의 망간 관리 중요성이 부각되고 있다. 특히, 동절기 전도(Turn-over)시기에 고농도 망간이 발생되는 경우가 많은데, 현재 정수장에서는 망간을 처리하기 위해 유입구간에 필터를 설치하고 주기적으로 교체하는 방식으로 처리하고 있다. 그러나 단기간에 고농도 망간 다량 유입 시 처리용량의 한계 등 정수장에서의 공정관리가 어려워지므로 사전 예측에 의한 대응 체계 고도화가 필요한 실정이다. 본 연구는 광역취수원인 주암댐을 대상으로 망간 예측의 정확도 향상 및 예측기간 확대를 위해 다양한 머신러닝 기법들을 적용하여 비교 분석하였으며, 독립변수 및 초매개변수 최적화를 진행하여 모형의 정확도를 개선하였다. 머신러닝 모형은 수심별 탁도, 저수위, pH, 수온, 전기전도도, DO, 클로로필-a, 기상, 수문 자료 등의 독립변수와 화순정수장에 유입된 망간 농도를 종속변수로 각 변수에 해당하는 실측치를 학습데이터로 사용하였다. 그리고 데이터기반 모형의 정확도를 개선하기 위해서 성층의 수준을 판별하는 지표로서 PEA(Potential Energy Anomaly)를 도입하여 데이터 분석에 활용하고자 하였다. 분석 결과, 망간 유입률은 계절 주기에 따라 농도가 달라지는 것을 확인하였고 동절기 전도시점과 하절기 장마기간 난류생성 시기에 저층의 고농도 망간이 유입이 되는 것을 분석하였다. 또한, 두 시기의 망간 농도의 변화 패턴이 상이하므로 예측 모델은 각 계절별로 구축해 학습을 진행함으로써 예측의 정확도를 향상할 수 있었다. 다양한 머신러닝 모델을 구축하여 성능 비교를 진행한 결과, 동절기에는 Gradient Boosting Machine, 하절기에는 eXtreme Gradient Boosting의 기법이 우수하여 추론 모델로 활용하고자 하였다. 선정 모델을 통한 단기 수질예측 결과, 전도현상 발생 시기에 대한 추종 및 예측력이 기존의 데이터 모형만 적용했을 경우대비 약 15% 이상 예측 효율이 향상된 것으로 나타났다. 본 연구는 머신러닝 모델을 활용한 망간 농도 예측으로 정수장의 신속한 대응 체계 마련을 지원하고, 수처리 공정의 효율성을 높이는 데 기여할 것으로 기대되며, 후속 연구로 과거 시계열 자료 활용 및 물리모형과의 연결 등을 통해 모델의 신뢰성을 제고 할 계획이다.

  • PDF

Unveiling the mysteries of flood risk: A machine learning approach to understanding flood-influencing factors for accurate mapping

  • Roya Narimani;Shabbir Ahmed Osmani;Seunghyun Hwang;Changhyun Jun
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.164-164
    • /
    • 2023
  • This study investigates the importance of flood-influencing factors on the accuracy of flood risk mapping using the integration of remote sensing-based and machine learning techniques. Here, the Extreme Gradient Boosting (XGBoost) and Random Forest (RF) algorithms integrated with GIS-based techniques were considered to develop and generate flood risk maps. For the study area of NAPA County in the United States, rainfall data from the 12 stations, Sentinel-1 SAR, and Sentinel-2 optical images were applied to extract 13 flood-influencing factors including altitude, aspect, slope, topographic wetness index, normalized difference vegetation index, stream power index, sediment transport index, land use/land cover, terrain roughness index, distance from the river, soil, rainfall, and geology. These 13 raster maps were used as input data for the XGBoost and RF algorithms for modeling flood-prone areas using ArcGIS, Python, and R. As results, it indicates that XGBoost showed better performance than RF in modeling flood-prone areas with an ROC of 97.45%, Kappa of 93.65%, and accuracy score of 96.83% compared to RF's 82.21%, 70.54%, and 88%, respectively. In conclusion, XGBoost is more efficient than RF for flood risk mapping and can be potentially utilized for flood mitigation strategies. It should be noted that all flood influencing factors had a positive effect, but altitude, slope, and rainfall were the most influential features in modeling flood risk maps using XGBoost.

  • PDF

Ensemble deep learning-based models to predict the resilient modulus of modified base materials subjected to wet-dry cycles

  • Mahzad Esmaeili-Falak;Reza Sarkhani Benemaran
    • Geomechanics and Engineering
    • /
    • 제32권6호
    • /
    • pp.583-600
    • /
    • 2023
  • The resilient modulus (MR) of various pavement materials plays a significant role in the pavement design by a mechanistic-empirical method. The MR determination is done by experimental tests that need time and money, along with special experimental tools. The present paper suggested a novel hybridized extreme gradient boosting (XGB) structure for forecasting the MR of modified base materials subject to wet-dry cycles. The models were created by various combinations of input variables called deep learning. Input variables consist of the number of W-D cycles (WDC), the ratio of free lime to SAF (CSAFR), the ratio of maximum dry density to the optimum moisture content (DMR), confining pressure (σ3), and deviatoric stress (σd). Two XGB structures were produced for the estimation aims, where determinative variables were optimized by particle swarm optimization (PSO) and black widow optimization algorithm (BWOA). According to the results' description and outputs of Taylor diagram, M1 model with the combination of WDC, CSAFR, DMR, σ3, and σd is recognized as the most suitable model, with R2 and RMSE values of BWOA-XGB for model M1 equal to 0.9991 and 55.19 MPa, respectively. Interestingly, the lowest value of RMSE for literature was at 116.94 MPa, while this study could gain the extremely lower RMSE owned by BWOA-XGB model at 55.198 MPa. At last, the explanations indicate the BWO algorithm's capability in determining the optimal value of XGB determinative parameters in MR prediction procedure.

머신러닝과 설명가능한 인공지능 SHAP을 활용한 사범대 과학교육 전공생의 전공만족도 및 학업만족도 영향요인 탐색 (Exploration of Factors on Pre-service Science Teachers' Major Satisfaction and Academic Satisfaction Using Machine Learning and Explainable AI SHAP)

  • 서지범;강남화
    • 과학교육연구지
    • /
    • 제47권1호
    • /
    • pp.37-51
    • /
    • 2023
  • 본 연구는 사범대 과학교육전공 재학생의 전공만족도와 학업만족도에 영향을 주는 요인을 머신러닝 모델인 랜덤 포레스트와 그래디언트 부스팅 모델과 SHAP 기법을 활용하여 탐색했다. 연구 결과, 그래디언트 부스팅 모델의 성능이 랜덤 포레스트보다 우수한 것으로 드러났으나 그 차이는 크지 않았다. 전공만족도에 영향을 주는 요인으로는 '본인 전공 교과에 해당하는 고교시절 과학교사 만족도', '교직 동기', '나이' 등이 있으며, 학업만족도는 '나이', '성별', '내신 과학 전문교과 이수여부'의 영향을 크게 받는 것으로 드러났다. SHAP value를 활용하여 변인의 영향력을 밝힐 수 있었고, 그 결과가 집단 전체에 대한 것과 개별적 분석으로 각각 도출이 가능했고, 서로 보완적 결과가 도출이 가능함을 확인하였다. 연구 결과를 바탕으로 과학교육과 재학생의 전공 및 학업 만족도를 지원하기 위한 방안을 제안하였다.