• Title/Summary/Keyword: 단계별 회귀

Search Result 285, Processing Time 0.036 seconds

A Prediction Method Combining Clustering Method and Stepwise Regression (군집분석 기법과 단계별 회귀모델을 결합한 예측 방법)

  • Chong Il-gyo;Jun Chi-Hyuck
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2002.05a
    • /
    • pp.949-952
    • /
    • 2002
  • A regression model is used in predicting the response variable given predictor variables However, in case of large number of predictor variables, a regression model has some problems such as multicollinearity, interpretation of the functional relationship between the response and predictors and prediction accuracy. A clustering method and stepwise regression could be used to reduce the amount of data by grouping predictors having similar properties and by selecting the subset of predictors. respectively. This paper proposes a prediction method combining clustering method and stepwise regression. The proposed method fits a global model and local models and predicts responses given new observations by using both models. The paper also compares the performance of proposed method with stepwise regression via a real data of ample obtained in a steel process.

  • PDF

A Data Fusion Algorithm for Link Travel Time Estimation (링크 통행시간 추정을 위한 데이터 퓨젼 알고리즘의 개발)

  • 최기수;정연식
    • Journal of Korean Society of Transportation
    • /
    • v.16 no.2
    • /
    • pp.177-195
    • /
    • 1998
  • 지능형교통체계(ITS:Intellegent Transport System)의 구현을 위한 가장 중요한 요소중의 하나는 교통정보의 생성이다. 교통정보의 생성은 루프 검지기, 폐쇄회로(CCTV), probe 차량, 경찰, 통신원 등을 수집된 제보자료들을 분석 및 가공함으로써 이루어진다. 그러나 이들 수집원은 주어진 시간에 있어 모든 네트웍을 통해서 자료가 완전히 수집되어지는 것은 아니다. 즉, 특정 지역에 수집원이 몰려 있는 경우가 있는 반면, 전혀 수집되어지지 않는 지역이 발생할 수도 있다. 이러한 공간적인 불균형적 특성은 동시에 발생한 다량의 자료를 처리하는 기술과 자료가 수집되지 않은 지역에 대한 처리기술을 요하게 된다. 본 논문은 전술한 바와 같은 사항에 대하여 ITS의 진행 단계별로 드러날 수 있는 문제점을 검토하고, 자료통합에 대한 일반적인 개념을 우선 설명한다. 다음에 특정시각에 주어진 자료의 통합을 위해 퍼지선형회귀모형(fuzzy linear regression model)과 데이터 퓨전(data fusion)기법의 내용을 소개하고, 신뢰성있는 단일 교통정보생성을 위한 테이터 퓨전 알고리즘을 제시한다. 또한 제시된 알고리즘을 토대로 가상의 자료를 이용하여 적용가능 봉? 타진해 보았다. 제시되어진 알고리즘은 향후 교통정보 수집환경이 어느 정도 형성된다고 볼 때, 예측치와 실측자료간의 자료검증을 통하여 신뢰도를 가질 경우 보다 광범위하게 사용되어질 수 있을 것으로 판단된다.

  • PDF

A Study on Parameter Tuning for Redis via Parameter Classification and Phased Bayesian Optimization (Redis 파라미터 분류 및 단계적 베이지안 최적화를 통한 파라미터 튜닝 연구)

  • Jo, Seong-Woon;Park, Sang-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.476-479
    • /
    • 2021
  • DBMS 파라미터 튜닝이란 데이터베이스에서 제공하는 다양한 파라미터의 값을 조율하여, 최적의 성능을 도출하는 과정이다. 데이터베이스 종류에 따라 파라미터 개수가 수십 개에서 수백 개로 다양하며, 각 기능이 모두 다르기 때문에 최적의 조합을 찾는 것은 쉽지 않다. 선행 연구에서는 BO 기법을 사용하여 적절한 파라미터 값을 추출했지만, 파라미터 개수에 비례하여 차원이 커지는 문제가 발생한다. 본 논문에서는 통계적으로 파라미터를 분류하여 탐색 공간을 줄인 다음 단계적으로 BO 를 수행하는 PBO 방식을 제안한다. 파라미터 값을 랜덤하게 할당하여 벤치마킹한 결과값을 군집화한 후, 각 군집별로 파라미터와의 연관성을 분석해 높은 상관관계를 가진 파라미터를 매칭시켜 분류한다. 제안하는 방법론을 검증하기 위하여 8 가지 회귀 모델과의 비교 실험을 통해 제안한 방법론의 우수성을 검증하였다.

Surface Sediments Classification in Tidal Flats using Multivariate Kriging and KOMPSAT-2 Imagery (다변량 크리깅과 KOMPSAT-2 영상을 이용한 간석지 표층 퇴적물 분류)

  • LEE, Sang-Won;PARK, No-Wook;JANG, Dong-Ho;YOO, Hee Young;LIM, Hyosuk
    • Journal of The Geomorphological Association of Korea
    • /
    • v.19 no.3
    • /
    • pp.37-49
    • /
    • 2012
  • The objective of this paper is to propose a methodology for surface sediments classification in tidal flats that can combine ground survey data with high-resolution remote sensing data by multivariate kriging. Unlike conventional methodologies that have classified remote sensing data by using pre-classified sediment components, a new classification methodology presented in this paper first generates sediment component fraction maps and then classifies the sediments on a final stage. For generating sediment component fractions, regression kriging, as one of multivariate kriging algorithms, is applied to integrate ground survey data and remote sensing data. First, trend components of sand, silt, and clay are derived through regression analysis of ground survey data and spectral information from remote sensing data. Then, residuals at sample locations are computed and interpolated to generate residual components in the study area. Finally, the sediment component fractions are computed by adding the residuals to the trend components and are classified on a final stage. A case study at the Baramarae tidal flats with KOMPSAT-2 imagery is carried out to evaluate the classification capability of the proposed classification methodology. Through the case study, the proposed methodology showed the best classification accuracy, compared with the conventional classification methodologies. Especially, much improvement of classification accuracy for fine-grained sediments were also obtained. Therefore, it is expected that the presented classification methodology would be an effective one for surface sediments classification in tidal flats.

A Study on Estimation of Soil Moisture Multiple Linear Regression Model Using Conditional Merging and MODIS Land Surface Temperature Data (조건부 합성기법과 MODIS LST를 활용한 토양수분 다중선형 회귀모형 산정 연구)

  • Jung, Chung Gil;Lee, Ji Wan;Kim, Da Rae;Kim, Se Hun;Kim, Seong Joon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.103-104
    • /
    • 2017
  • 본 연구에서는 다중회귀분석모형(MLRM)과 MODIS (MODerate resolution Imaging Spectroradiometer) LST (Land Surface Temperature) 자료를 이용하여 전국 공간토양수분을 산정하였다. 공간토양수분을 산정하기 위한 과정은 크게 두가지로 구분된다. 첫 번째로 기존의 MODIS LST 자료를 조건부 합성 보정기법을 적용하여 실측 LST 자료와 비교하여 위성 LST 자료가 갖고 있는 오차를 보정하였다. 그 결과, 조건부 합성 보정기법을 적용하기전 전국 71개 지상 관측지점에서 관측한 실측 LST와 MODIS LST의 R2는 전체 평균 0.70으로 어는정도 유의성 있는 상관관계를 나타냈으나 조건부 합성 보정기법을 적용한 후 실측 LST와 MODIS LST의 R2는 전체 평균 0.92로 상당히 크게 향상됨을 알 수 있었다. 두 번째로 보정된 MODIS LST를 이용하여 다중회귀분석 모형을 개발하고 토양수분을 예측하는 단계로 입력자료로 위성영상 자료와 관측자료를 융합하여 사용하였다. 위성영상 자료로는 보정된 MODIS LST와 MODIS NDV를 구축하였고 일단위 강수량 및 일조시간의 기상자료는 기상청으로부터 전국 68개 지점에 대해 구축하여 IDW 공간보간기법을 이용한 공간자료로 구축하였다. 토양수분 결과를 비교하기 위한 관측 토양수분은 자동농업기상관측(Automated Agriculture Observing System, AAOS)지점에서 2013년 1월부터 2015년 12월까지의 실측 일단위 토양수분 자료를 구축하여 사용하였다. 다중회귀분석 모형은 각각의 입력자료를 독립인자로서 조합하여 12개의 시나리오를 만들었다. 시공간적 경향을 고려하기 위하여 계절별, 토양 토성(soil texture)를 구분하여 회귀분석을 실시하였다. 관측 토양수분과 모의 토양수분을 비교한 결과 $R^2$가 0.80 (철원), 0.90 (춘천), 0.80 (수원), 0.63 (서산), 0.77 (청주), 0.82 (전주), 0.52 (순천), 0.63 (진주), 0.99 (보성)로 높은 상관성을 보였다. 본 연구에서는 토양수분을 예측하기 위한 인자 중 가장 민간함 LST를 보정하지 않는 토양수분 예측 방법은 상당한 오차를 포함하게 되어 실측 토양수분 결과와 크게 차이가 나타남을 보여주었다.

  • PDF

Analysis on the Survivor's Pension Payment with Logistic Regression Model (로지스틱 회귀모형을 이용한 유족연금 수급 분석)

  • Kim, Mi-Jung;Kim, Jin-Hyung
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.2
    • /
    • pp.183-200
    • /
    • 2008
  • Research for efficient management of the National Pension has been emphasized as the current society trends toward aging and low birth rate. In this article, we suggest a statistical model for effective classification and prediction of the reserve for the survivor's pension in Korea. Logistic regression model is incorporated; correct classification rate, and distribution of the posterior probability for the reserve of survivor's pension are investigated and compared with the results from the general logistic models. Assessment of predictive model is also done with lift graph, ROC curve and K-S statistic. We suggest strategies for reducing financial risks in managing and planning the pension as an application of the suggested model.

Determination of optimal order for the full-logged I-D-F polynomial equation and significance test of regression coefficients (전대수 다항식형 확률강우강도식의 최적차수 결정 및 회귀계수에 대한 유의성 검정)

  • Park, Jin Hee;Lee, Jae Joon
    • Journal of Korea Water Resources Association
    • /
    • v.55 no.10
    • /
    • pp.775-784
    • /
    • 2022
  • In this study, to determine the optimal order of the full-logged I-D-F polynomial equation, which is mainly used to calculate the probable rainfall over a temporal rainfall duration, the probable rainfall was calculated and the regression coefficients of the full-logged I-D-F polynomial equation was estimated. The optimal variable of the polynomial equation for each station was selected using a stepwise selection method, and statistical significance tests were performed through ANOVA. Using these results, the statistically appropriately calculated rainfall intensity equation for each station was presented. As a result of analyzing the variable selection outputs of the full-logged I-D-F polynomial equation at 9 stations in Gyeongbuk, the 1st to 3rd order equations at 6 stations and the incomplete 3rd order at 1 station were determined as the optimal equations. Since the 1st order equation is similar to the Sherman type equation and the 2nd order one is similar to the general type equation, it was presented as a unified form of rainfall intensity equation for convenience of use by increasing the number of independent variables. Therefore, it is judged that there is no statistical problem in considering only the 3rd order polynomial regression equation for the full-logged I-D-F.

Simplification of Multiple Stage-Discharge Curves by Using Probability Distribution Curve (확률 분포 곡선을 이용한 다중 수위-유량 곡선 단순화)

  • Kim, Tae Jin;Kim, Jung Ho
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.284-284
    • /
    • 2018
  • 대부분의 물분쟁의 경우 강 또는 호수를 공유하고 있는 국가 간에 발생하고 있으며 국내에도 제한된 물로 인하여 다양한 지역에서 물 분쟁이 발생하고 있다. 이렇듯 물 부족으로 인한 물분쟁 현상은 점차 심화되고 있으며 특히 강을 공유하고 있는 인접지역에서 발생할 가능성이 높아지고 있다. 본 연구에서 Water Rights Analysis Package (WRAP) 모델의 국내 적용을 위한 기초자료 구축단계로서 수위별로 되어 있는 수위-유량 관계 곡선식을 단순화하여 자연하천유량 산정을 위한 절차를 간편화하였다. 첫째, 확률 분포곡선을 이용한 수위 자료 구간별 구분; 둘째, 구분된 수위 자료에 대한 회귀 분석 실시; 셋째, 실측 유량 자료 및 모의 유량 자료를 이용한 신뢰도 산정 및 비교를 통한 본 연구결과에 대한 타당성 검토를 수행하였다.

  • PDF

Garlic yields estimation using climate data (기상자료를 이용한 마늘 생산량 추정)

  • Choi, Sungchun;Baek, Jangsun
    • Journal of the Korean Data and Information Science Society
    • /
    • v.27 no.4
    • /
    • pp.969-977
    • /
    • 2016
  • Climate change affects the growth of crops which were planted especially in fields, and it becomes more important to use climate data to predict the yields of the major vagetables. The variation of the crop products caused by climate change is one of the significant factors for the discrepancy of the demand and supply, and leads to the price instability. In this paper, using a panel regression model, we predicted the garlic yields with the weather conditions of different regions. More specifically we used the panel data of the several climate variables for 15 main garlic production areas from 2006 to 2015. Seven variables (average temperature, average maximum temperature, average minimum temperature, average surface temperature, cumulative precipitation, average relative humidity, cumulative duration time of sunshine) for each month were considered, and most significant 7 variables were selected from the total 84 variables by the stepwise regression. The random effects model was chosen by the Hausman test. The average maximum temperature (January), the cumulative precipitation (March, October), the cumulative duration time of sunshine (April, October) were chosen among the variables as the significant climate variables of the model

Exploring the Technology Fit of Digital Media on Product Shopping Task (디지털 매체 기술과 제품 구매 태스크의 적합성 탐색)

  • Han, Hyun-Soo;Joung, Seok-In
    • The Journal of Society for e-Business Studies
    • /
    • v.16 no.4
    • /
    • pp.283-299
    • /
    • 2011
  • In this paper, we draw upon Task-Technology Fit theory to investigate the fit attributes which impacted on customer preference over three virtual shopping channels which included TV home shopping, Internet shopping, and broadband applications, i.e. IPTV. The fit attributes also reflected the product category contingency, which is classified based on the degree of quality assessing difficulty on the web, such as quasi-commodity, look and feel goods, and look and feel with variable quality goods. Using the collected survey data, we employed stepwise regression analysis to validate the fit attributes in the context of performing virtual shopping task via those three distinctive media technologies. Furthermore, through ANOVA test with Duncan statistics, we reported comparative intensity of the valid fit attributes across the product categories and distinct media technologies. The results validated four critical fit attributes and significant distinctions among product categories and three virtual shopping channels. The findings provide practical insights in distribution channel design exploiting digital convergence technologies.