• Title/Summary/Keyword: 예측 중요도

Search Result 5,672, Processing Time 0.034 seconds

Response Modeling for the Marketing Promotion with Weighted Case Based Reasoning Under Imbalanced Data Distribution (불균형 데이터 환경에서 변수가중치를 적용한 사례기반추론 기반의 고객반응 예측)

  • Kim, Eunmi;Hong, Taeho
    • Journal of Intelligence and Information Systems
    • /
    • v.21 no.1
    • /
    • pp.29-45
    • /
    • 2015
  • Response modeling is a well-known research issue for those who have tried to get more superior performance in the capability of predicting the customers' response for the marketing promotion. The response model for customers would reduce the marketing cost by identifying prospective customers from very large customer database and predicting the purchasing intention of the selected customers while the promotion which is derived from an undifferentiated marketing strategy results in unnecessary cost. In addition, the big data environment has accelerated developing the response model with data mining techniques such as CBR, neural networks and support vector machines. And CBR is one of the most major tools in business because it is known as simple and robust to apply to the response model. However, CBR is an attractive data mining technique for data mining applications in business even though it hasn't shown high performance compared to other machine learning techniques. Thus many studies have tried to improve CBR and utilized in business data mining with the enhanced algorithms or the support of other techniques such as genetic algorithm, decision tree and AHP (Analytic Process Hierarchy). Ahn and Kim(2008) utilized logit, neural networks, CBR to predict that which customers would purchase the items promoted by marketing department and tried to optimized the number of k for k-nearest neighbor with genetic algorithm for the purpose of improving the performance of the integrated model. Hong and Park(2009) noted that the integrated approach with CBR for logit, neural networks, and Support Vector Machine (SVM) showed more improved prediction ability for response of customers to marketing promotion than each data mining models such as logit, neural networks, and SVM. This paper presented an approach to predict customers' response of marketing promotion with Case Based Reasoning. The proposed model was developed by applying different weights to each feature. We deployed logit model with a database including the promotion and the purchasing data of bath soap. After that, the coefficients were used to give different weights of CBR. We analyzed the performance of proposed weighted CBR based model compared to neural networks and pure CBR based model empirically and found that the proposed weighted CBR based model showed more superior performance than pure CBR model. Imbalanced data is a common problem to build data mining model to classify a class with real data such as bankruptcy prediction, intrusion detection, fraud detection, churn management, and response modeling. Imbalanced data means that the number of instance in one class is remarkably small or large compared to the number of instance in other classes. The classification model such as response modeling has a lot of trouble to recognize the pattern from data through learning because the model tends to ignore a small number of classes while classifying a large number of classes correctly. To resolve the problem caused from imbalanced data distribution, sampling method is one of the most representative approach. The sampling method could be categorized to under sampling and over sampling. However, CBR is not sensitive to data distribution because it doesn't learn from data unlike machine learning algorithm. In this study, we investigated the robustness of our proposed model while changing the ratio of response customers and nonresponse customers to the promotion program because the response customers for the suggested promotion is always a small part of nonresponse customers in the real world. We simulated the proposed model 100 times to validate the robustness with different ratio of response customers to response customers under the imbalanced data distribution. Finally, we found that our proposed CBR based model showed superior performance than compared models under the imbalanced data sets. Our study is expected to improve the performance of response model for the promotion program with CBR under imbalanced data distribution in the real world.

Long-term Precipitation Prediction with Icosahedral-hexagonal Gridpoint Model GME (Icosahedral-Hexagonal 격자 체계의 전구 모형 GME를 이용한 장기 강수량 예측)

  • Woo, Su-Min;Oh, Jai-Ho;Koh, A-Ra;Majewski, Detlev
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2008.05a
    • /
    • pp.2207-2211
    • /
    • 2008
  • 한반도 및 동아시아의 여름철은 장마와 태풍으로 인한 집중호우의 발생으로 많은 피해를 입는다. 따라서 여름철에 나타나는 이러한 집중호우가 나타나는 지역, 시기, 기간, 그리고 강수량 등을 예측하는 것은 매우 중요하다. 특히, 효율적인 수자원 관리를 위하여 이러한 예측은 매우 중요한데, 단기적으로 정확하고 신속하게 강수를 예측하는 것도 중요하지만, 장기적으로 계절 강수, 특히 여름철의 장마 또는 우기의 시기와 강수량과 태풍 발생의 시기 등을 미리 예측하여 이에 따른 집중 호우의 발생 지역, 기간, 강수량을 예측하여 사전에 대비하는 것도 매우 중요하다. 특히, 최근에는 6,7월 장마에 의한 집중 호우의 영향보다도 8월에 강수량이 높아지고 있는 경향을 보이므로 강수량의 장기적 경향의 파악이 매우 중요하다. 장기 기후를 예측하는 데는 과거 자료를 이용한 통계 방법도 유용하지만 최근에는 AOGCM (Atmospheric Oceanic General Circulation Model)을 이용한 연구가 활발하게 이루어지고 있다. 하지만 강수와 같이 지역적으로 나타나는 현상은 저해상도의 AOGCM으로는 유용한 정보를 제공하기가 어려움이 따른다. 따라서 본 연구에서는 전구를 삼각형으로 된 20면체로 격자화 시켜 모든 격자의 크기가 거의 동일하고, 해상도 조절이 가능한 Geodesic 격자를 활용한 GME 모델을 사용하였다. GME 모델은 icosahedral-hexagonal grid 격자 체계를 가진 독일 기상청(Deutscher Wetterdient)에서 현업으로 사용 중인 모델이다. 본 연구에서는 수직/수평 해상도를 40km/40layers로 하여 GME 모델을 수행하였으며, 일간격의 장기 기후 자료를 생산하였다. 사용된 초기자료로는 ECMWF (European Centre for Medium Range Weather Forecasts) 자료이며, 경계 자료로는 ERA Climatology의 최근 30년간의 SST (Sea Surface Temperature) 평균 자료를 이용하여 규준 실험(Control Run), 즉, climatology 자료를 생산하였으며, persistent SST 아노말리와 ERA Climatology의 최근 30년간의 SST 자료를 이용하여 내삽 과정을 거친 SST forcing을 주어서 예측 실험(Prediction Run)을 통하여 모의 자료를 생산하였다. 특히, 규준 실험에서는 수치 모델이 가지는 불확실성을 줄이고 예보 정확도를 향상시키기 위하여 각각의 실험은 초기자료를 달리한 앙상블 모의실험을 수행하였다. 장기 모의 3개월을 위하여 모의 기간 1달 전부터 모의를 수행하여, 첫 1달은 모델의 spin-up 시간으로 분석에서 제외 하였다. 생산된 Climatology 자료와 Prediction 자료를 비교하여 아노말리와 Category 분석을 실시하여 한반도 및 동아시아 지역의 강수(Precipitation)를 중심으로 기압장(Pressure), 온도(2m Temperature) 위주로 분석하였다. 이러한 예측된 매 계절의 전망 자료 중에서도 수자원 분야에서 관심이 집중되는 여름철에 초점을 맞추어 실제 관측 자료와 비교하여 GME 모델의 계절 모의 예측성 성능을 분석하여 평가하고 다가올 여름철의 강수량의 장기 변화를 모의하고자 하였다.

  • PDF

Water Level Prediction (수위예측)

  • Oh, Sang-Hoon
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.3-4
    • /
    • 2019
  • 강의 수위 예측은 강 유역의 홍수 발생에 대한 방재 차원에서 아주 중요하다. 이 논문에서는 낙동강을 대상으로 수위를 예측하는 신경회로망 모델을 기반으로 홍수위에 도달하는 입력 조건을 학습에 의해 찾아내는 방법을 제시한다.

  • PDF

LabVIEW를 이용한 변압기 권선 진단 프로그램 개발연구

  • 김종서;정영일;임용배;이은석;김덕근
    • Proceedings of the Korean Institute of Industrial Safety Conference
    • /
    • 2001.11a
    • /
    • pp.135-140
    • /
    • 2001
  • 산업이 고도화 첨단화 됨에 따라 전력의 안정성과 신뢰성이 중요한 문제로 인식되고 있고, 한 순간의 정전도 허용하지 않는 전력설비의 열화진단이 점점 중요한 과제로 제기되고 있다 특히 전력 설비에서 가장 중요한 것은 변압기의 신뢰성으로 절연지의 성능에 크게 영향을 받으며, 이것은 권선의 절연 특성에 상당한 영향을 준다. 그러므로 절연지의 열화상태 파악은 변압기 권선에서 발생할 수 있는 주요 문제를 예측하는데 필수적이며, 이런 문제의 사전예측은 치명적인 고장과 다른 설비에 대한 2차적 손상을 피할 수 있다.(중략)

  • PDF

Deep Learning-Based Short-Term Time Series Forecasting Modeling for Palm Oil Price Prediction (팜유 가격 예측을 위한 딥러닝 기반 단기 시계열 예측 모델링)

  • Sungho Bae;Myungsun Kim;Woo-Hyuk Jung;Jihwan Woo
    • Information Systems Review
    • /
    • v.26 no.2
    • /
    • pp.45-57
    • /
    • 2024
  • This study develops a deep learning-based methodology for predicting Crude Palm Oil (CPO) prices. Palm oil is an essential resource across various industries due to its yield and economic efficiency, leading to increased industrial interest in its price volatility. While numerous studies have been conducted on palm oil price prediction, most rely on time series forecasting, which has inherent accuracy limitations. To address the main limitation of traditional methods-the absence of stationarity-this research introduces a novel model that uses the ratio of future prices to current prices as the dependent variable. This approach, inspired by return modeling in stock price predictions, demonstrates superior performance over simple price prediction. Additionally, the methodology incorporates the consideration of lag values of independent variables, a critical factor in multivariate time series forecasting, to eliminate unnecessary noise and enhance the stability of the prediction model. This research not only significantly improves the accuracy of palm oil price prediction but also offers an applicable approach for other economic forecasting issues where time series data is crucial, providing substantial value to the industry.

Predicting Forest Fires Using Machine Learning Considering Human Factors (인적요인을 고려한 머신러닝 활용 산림화재 예측)

  • Jin-Myeong Jang;Joo-Chan Kim;Hwa-Joong Kim;Kwang-Tae Kim
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.5
    • /
    • pp.109-126
    • /
    • 2023
  • Early detection of forest fires is essential in preventing large-scale forest fires. Predicting forest fires serves as a vital early detection method, leading to various related studies. However, many previous studies focused solely on climate and geographic factors, overlooking human factors, which significantly contribute to forest fires. This study aims to develop forest fire prediction models that take into account human, weather and geographical factors. This study conducted a comparative analysis of four machine learning models alongside the logistic regression model, using forest fire data from Gangwon-do spanning 2003 to 2020. The results indicate that XG Boost models performed the best (AUC=0.925), closely followed by Random Forest (AUC=0.920), both of which are machine learning techniques. Lastly, the study analyzed the relative importance of various factors through permutation feature importance analysis to derive operational insights. While meteorological factors showed a greater impact compared to human factors, various human factors were also found to be significant.

A Prediction Model for Coating Thickness Based on PLS Model and Variable Selection (부분최소자승법과 변수선택을 이용한 코팅두께 예측모델 개발)

  • Lee, Hye-Seon;Lee, Young-Rok;Jun, Chi-Hyuck;Hong, Jae-Hwa
    • The Korean Journal of Applied Statistics
    • /
    • v.23 no.2
    • /
    • pp.295-304
    • /
    • 2010
  • Coating thickness is one of target variables in quality control process in steel industry. To predict coating thickness and to control quality of anti-fingerprint steel coils, ultraviolet-visible spectra are measured. We propose a variable-interval selection procedure based on the variable importance in projection in partial least square model. Using the proposed variable interval selection method, prediction performance gets better in the reduced model than the full model with full spectra absorbance. It is also shown that the first differencing as a data preprocessing technique does work well for the prediction of coating thickness.

Real-Time Flood Forecasting Using Neuro-Fuzzy in Medium and Small Streams (Neuro-Fuzzy를 이용한 중.소하천 실시간 홍수예측)

  • Choi, Seung-Yong;Han, Kun-Yeun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.262-262
    • /
    • 2011
  • 최근 들어 지구환경 변화에 따른 이상기후의 영향으로 태풍 및 집중호우로 인한 하천범람 등 홍수재해에 의한 인명과 재산의 피해가 급증하고 있다. 특히 한반도 지역에서는 집중호우와 태풍과 같은 이상강우로 인한 홍수피해의 발생이 매년 나타나고 있으며 홍수피해의 빈도와 강도는 증가하고 있는 실정이다. 이러한 상황에서 극심한 기상이변으로 인하여 발생되는 이상홍수의 예측에 관한 사항은 치수 이수는 물론 친수관점에서 볼 때 하천관리의 측면에서 매우 중요한 관심사로 부각되고 있다. 특히 홍수예측은 주민의 대피 및 통제, 시설물의 보호 등을 위해 충분한 선행시간을 확보할 수 있는 실시간적 관점에서의 홍수예측 및 관리가 중요하다. 기존의 수문학적 강우-유출 모형은 비선형성이 강하고 유역의 지형학적 인자와 기후학적 인자의 영향을 포함하기 때문에 정확한 예측이 어렵고 유출량을 계산하기 위한 유역추적, 저수지추적 및 하도추적의 각 추적과정에서 크고 작은 오차들이 발생하고 그것들이 누적되어 유출 모형의 해석 결과에는 많은 오차들이 포함되어 있다는 문제점이 있다. 또한 주로 유역 면적이 크고 홍수의 도달시간이 긴 대하천의 홍수예측에는 기존의 강우-유출 모형이 적당한 방법임에도 불구하고 유역면적이 작은 중소하천에 적용됨으로써 많은 불확실성을 포함하고 있으며 충분한 선행시간을 확보하지 못하는 문제점을 가지고 있다. 따라서 본 연구에서는 중소하천에서의 기존의 홍수예경보가 가지고 있는 문제점을 해결하기 위해 실시간 수위측정 자료 및 강우자료를 이용한 간단한 입력자료 만으로도 홍수예측이 가능한 뉴로-퍼지(Neuro-Fuzzy) 모형을 구축하여 충분한 선행시간을 확보함으로써 중소하천에서 의 실시간 홍수예측이 가능한 시스템을 구성하여 실시간으로 구동되는 효율적인 홍수예경보 시스템을 개발하고자 하였다. 임진강 유역을 대상으로 기존의 강우-유출 모형이 요구하는 유역의 물리적, 지형 자료 및 매개변수와 같은 광범위한 양의 자료를 배제하고, 유역의 강우 자료와 수위자료만으로 유역의 중요지점에 대한 홍수위 및 홍수량을 예측할 수 있는 뉴로-퍼지 모형을 구축하고 대상 유역에 적용하여 실측치와 비교 검증하였다.

  • PDF

A Design of Context Prediction Structure using Homogeneous Feature Extraction (동질적 특징추출을 이용한 상황예측 구조의 설계)

  • Kim, Hyung-Sun;Im, Kyoung-Mi;Lim, Jae-Hyun
    • Journal of Internet Computing and Services
    • /
    • v.11 no.4
    • /
    • pp.85-94
    • /
    • 2010
  • In this paper, we propose a location-prediction structure that can provide user service in advance. It consists of seven steps and supplies intelligent services which can forecast user's location. Context information collected from physical sensors and a history database is so difficult that it can't present importance of data and abstraction of data because of heterogeneous data type. Hence, we offer the location-prediction that change data type from heterogeneous data to homogeneous data. Extracted data is clustered by SOFM, then it gets user's location information by ARIMA and realizes the services by a reasoning engine. In order to validate the proposed location-prediction, we built a test-bed and test it by the scenario.

Improving the prediction accuracy for LDL-cholesterol based on semi-supervised learning (준지도학습 기반 LDL-콜레스테롤 예측의 정확도 개선)

  • Yang, Su-Bhin;Kim, Min-Tae;Kwon, Su-Bin;Woo, Na-Hyun;Kim, Hak-Jae;Jeong, Tai-Kyeong;Lee, Sung-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.553-556
    • /
    • 2022
  • 이상지질혈증의 발병에 대한 조기 진단 및 관리하는 것은 중요한 문제이다. 이상지질혈증의 진단은 혈액계측 정보 중에서 네 가지 LDL, HDL, TG, 그리고 TC를 이용하여 진단하며, 이상지질혈증 관리를 위해서는 LDL을 추정하는 것이 중요하다. 본 논문에서는 나이, 성별, 그리고 BMI와 같은 신체계측 정보를 학습하여 LDL-콜레스테롤을 예측하기 위한 준지도학습(Semi-supervised learning) 기반 기계학습 방법을 제안한다. 제안 방법은 얕은 학습(Shallow Learning)기반의 MLP(Multi-Layer Perceptron)을 이용하고, 이상지질혈증 진단인자간의 상관관계를 고려하여 신체계측 정보로 예측된 HDL, TG, 그리고 TC을 이용하여 일반적인 기계학습을 이용한 예측방법의 정확도를 개선한다. 즉, 제안방법은 신체계측 정보를 이용하여 혈액계측 정보의 LDL, HDL, TG, 그리고 TC을 각각 예측하고, 신체계측에 혈액계측의 예측 정보를 추가하여 학습한 준지도학습 기반 얕은 네트워크를 설계한다. 실험결과, HDL, TG, 그리고 TC의 혈액예측 정보를 이용한 준지도학습 기반 LDL 예측 정확도는 71.4%로 신체계측 정보만을 이용한 예측 방법의 67.0% 보다 약 4.4% 개선할 수 있음을 확인한다.