• 제목/요약/키워드: principal component regression

검색결과 253건 처리시간 0.018초

A Study on the Several Robust Regression Estimators

  • Kim, Jee-Yun;Roh, Kyung-Mi;Hwang, Jin-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권2호
    • /
    • pp.307-316
    • /
    • 2004
  • Principal Component Regression(PCR) and Partial Least Squares Regression(PLSR) are the two most popular regression techniques in chemometrics. In the field of chemometrics usually the number of regressor variables greatly exceeds the number of observation. So we have to reduce the number of regressors to avoid the identifiability problem. In this paper we compare PCR and PLSR techniques combined with various robust regression methods including regression depth estimation. We compare the efficiency, goodness-of-fit and robustness of each estimators under several contamination schemes.

  • PDF

주성분 회귀모형을 이용한 과학기술 지식생산함수 추정 (Estimation of S&T Knowledge Production Function Using Principal Component Regression Model)

  • 박수동;성웅현
    • 기술혁신학회지
    • /
    • 제13권2호
    • /
    • pp.231-251
    • /
    • 2010
  • 과학기술 R&D 활동의 대표적 성과인 SCI 논문과 특허의 생산에 영향을 미치는 요인은 연구비, 연구원수, 지식스톡(R&D스톡, 논문스톡, 특허스톡 등), 연구환경, 개방화 정도, 인적자본, GDP 등 다양하다. 일반적인 회귀모형을 이용하여 논문 또는 특허의 생산에 영향을 미치는 요인을 추정하면 생산요인들 간에 다중공선성 문제가 발생하여 추정의 오류가 발생한다. 본 논문에서는 과학기술 지식생산에 영향을 미치는 요인들 간의 다중공선성 문제를 해결하기 위해 주성분 회귀모형을 이용하였다. SCI 논문을 산출로 가정한 과학생산성과와 특허를 산출로 가정한 기술생산성과에 영향을 미치는 요인을 회귀모형과 주성분 회귀모형을 이용하여 3가지 사례를 대상으로 비교 분석하였다. 일반 회귀모형을 이용하여 SCI 논문과 특허의 생산에 영향을 미치는 요인들을 분석한 결과, 요인들간에 다중공선성이 매우 높게 나타났고, 그 결과 회귀계수와 추정과 검정에 오류가 발생되었다. 반면 주성분 회귀모형을 이용하여 분석한 결과 다중공선성문제가 해결되어, 개별 생산요인에 대한 효과를 적절하게 추정할 수 있었다. 본 논문에서 제안한 주성분 회귀모형을 이용한 과학기술 지식생산함수 추정방법은 다중공선성이 강한 소수의 생산요소를 포함한 회귀분석에서 유용하게 적용될 수 있을 것이다.

  • PDF

Shrinkage Structure of Ridge Partial Least Squares Regression

  • Kim, Jong-Duk
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권2호
    • /
    • pp.327-344
    • /
    • 2007
  • 다중공선성의 데이터에 사용되는 대표적인 편향회귀방법은 능형회귀(RR), 주성분회귀(PCR), 부분최소제곱회귀(PLS) 등이다. 이 회귀방법들은 계수베거 추정량의 놈(norm)이 모두 보통 최소제곱회귀(OLS)의 추정량의 놈보다 작아진다는 의미에서 축소회귀라 부른다. 새로운 회귀방법으로 RR과 PCR을 결합한 능형주성분회귀(RPCR)가 있고 RR과 PLS를 결합한 능형부분최소제곱회귀(RPLS)가 있으며 이들도 또한 축소회귀이다. 이들 추정량은 X'X의 고유벡터들의 선형결합으로 나타낼 수 있고 따라서 각 고유방향에서 OLS에 비해 얼마나 축소되는지를 연구할 수 있다. 본 논문에서는 먼저 이들 추정량을 일반적인 축소인자의 식으로 나타내고 이를 이용하여 MSE의 일반식을 구하였으며 PLS 추정량의 MSE 식도 구하였다. 그리고 RPLS의 축소인자 식을 두 가지 다른 형태로 유도하였다. RPLS의 경우도 이 축소인자 식을 MSE의 일반식에 대입하면 MSE 식이 바로 얻어진다. 그러나 PLS나 RPLS의 축소인자는 y의 복잡한 비선형이 되어 결정적이 아니므로 이들 추정량의 MSE는 근사적인 식이라 할 수 있다. 따라서 PLS나 RPLS를 평가하기 위해 이 MSE를 사용하는 것은 제한적이며, 경험적인 방법으로 이들 회귀의 수행성을 평가하는 것이 필요하다. 다중공선성의 대표적인 데이터인 근적외선 분광 데이터를 이용하여 이 유도된 회귀의 축소인자 값이 인자수에 따라 어떻게 변화하는지와 전체적인 축소 비율도 살펴보았다. 이들의 축소 형태를 잘 이해하면 회귀방법들의 예측력과 안정성을 파악하는데 많은 도움이 되리라 판단된다.

  • PDF

RBF 뉴럴네트워크를 사용한 바이오매스 에너지문제의 계량적 분석 (Quantitative Analysis for Biomass Energy Problem Using a Radial Basis Function Neural Network)

  • 백승현;황승준
    • 산업경영시스템학회지
    • /
    • 제36권4호
    • /
    • pp.59-63
    • /
    • 2013
  • In biomass gasification, efficiency of energy quantification is a difficult part without finishing the process. In this article, a radial basis function neural network (RBFN) is proposed to predict biomass efficiency before gasification. RBFN will be compared with a principal component regression (PCR) and a multilayer perceptron neural network (MLPN). Due to the high dimensionality of data, principal component transform is first used in PCR and afterwards, ordinary regression is applied to selected principal components for modeling. Multilayer perceptron neural network (MLPN) is also used without any preprocessing. For this research, 3 wood samples and 3 other feedstock are used and they are near infrared (NIR) spectrum data with high-dimensionality. Ash and char are used as response variables. The comparison results of two responses will be shown.

Classification via principal differential analysis

  • Jang, Eunseong;Lim, Yaeji
    • Communications for Statistical Applications and Methods
    • /
    • 제28권2호
    • /
    • pp.135-150
    • /
    • 2021
  • We propose principal differential analysis based classification methods. Computations of squared multiple correlation function (RSQ) and principal differential analysis (PDA) scores are reviewed; in addition, we combine principal differential analysis results with the logistic regression for binary classification. In the numerical study, we compare the principal differential analysis based classification methods with functional principal component analysis based classification. Various scenarios are considered in a simulation study, and principal differential analysis based classification methods classify the functional data well. Gene expression data is considered for real data analysis. We observe that the PDA score based method also performs well.

주성분 분석과 다중회귀모형을 사용한 자동차 건조 공정의 히트펌프 건조기 소모 전력 분석 (Analyses of Power Consumption of the Heat Pump Dryer in the Automobile Drying Process by using the Principal Component Analysis and Multiple Regression)

  • 이창용;송근수;김진호
    • 산업경영시스템학회지
    • /
    • 제38권1호
    • /
    • pp.143-151
    • /
    • 2015
  • In this paper, we investigate how the power consumption of a heat pump dryer depends on various factors in the drying process by analyzing variables that affect the power consumption. Since there are in general many variables that affect the power consumption, for a feasible analysis, we utilize the principal component analysis to reduce the number of variables (or dimensionality) to two or three. We find that the first component is correlated positively to the entrance temperature of various devices such as compressor, expander, evaporator, and the second, negatively to condenser. We then model the power consumption as a multiple regression with two and/or three transformed variables of the selected principal components. We find that fitted value from the multiple regression explains 80~90% of the observed value of the power consumption. This results can be applied to a more elaborate control of the power consumption in the heat pump dryer.

Unified Non-iterative Algorithm for Principal Component Regression, Partial Least Squares and Ordinary Least Squares

  • Kim, Jong-Duk
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권2호
    • /
    • pp.355-366
    • /
    • 2003
  • A unified procedure for principal component regression (PCR), partial least squares (PLS) and ordinary least squares (OLS) is proposed. The process gives solutions for PCR, PLS and OLS in a unified and non-iterative way. This enables us to see the interrelationships among the three regression coefficient vectors, and it is seen that the so-called E-matrix in the solution expression plays the key role in differentiating the methods. In addition to setting out the procedure, the paper also supplies a robust numerical algorithm for its implementation, which is used to show how the procedure performs on a real world data set.

  • PDF

Bayesian Typhoon Track Prediction Using Wind Vector Data

  • Han, Minkyu;Lee, Jaeyong
    • Communications for Statistical Applications and Methods
    • /
    • 제22권3호
    • /
    • pp.241-253
    • /
    • 2015
  • In this paper we predict the track of typhoons using a Bayesian principal component regression model based on wind field data. Data is obtained at each time point and we applied the Bayesian principal component regression model to conduct the track prediction based on the time point. Based on regression model, we applied to variable selection prior and two kinds of prior distribution; normal and Laplace distribution. We show prediction results based on Bayesian Model Averaging (BMA) estimator and Median Probability Model (MPM) estimator. We analysis 8 typhoons in 2006 using data obtained from previous 6 years (2000-2005). We compare our prediction results with a moving-nest typhoon model (MTM) proposed by the Korea Meteorological Administration. We posit that is possible to predict the track of a typhoon accurately using only a statistical model and without a dynamical model.

계절변동의 함수적 예측 (Functional Forecasting of Seasonality)

  • 이긍희
    • 응용통계연구
    • /
    • 제28권5호
    • /
    • pp.885-893
    • /
    • 2015
  • 통계청과 한국은행 등 통계작성기관에서 이용되고 있는 계절조정은 연간 경제통계 작성시 시계열을 예측한 후 계절조정방법을 적용하여 1년 후 계절변동을 예측하고 원통계 작성시 원통계에서 이를 제거하여 계절조정계열을 작성하고 있다. 이 경우 계절변동을 효과적으로 예측하는 것이 계절조정계열의 품질 향상을 위해 무엇보다 중요하다. 계절변동은 1년 단위로 비슷한 함수적 형태를 지니면서 변하므로 계절변동은 일종의 함수적 시계열이다. 함수적 시계열은 함수적 주성분분석을 바탕으로 한 함수적 시계열모형으로 예측할 수 있다. 본 연구에서는 함수적 시계열 모형을 이용하여 향후 1년간 계절변동을 예측하는 방안을 마련하고 X-11 방식 등 기존의 예측방법과 비교하여 유용성을 파악하였다.

근적외 스펙트럼을 이용한 정량분석용 최적 주성분회귀모델을 얻기 위한 알고리듬 (Algorithm for Finding the Best Principal Component Regression Models for Quantitative Analysis using NIR Spectra)

  • 조정환
    • Journal of Pharmaceutical Investigation
    • /
    • 제37권6호
    • /
    • pp.377-395
    • /
    • 2007
  • Near infrared(NIR) spectral data have been used for the noninvasive analysis of various biological samples. Nonetheless, absorption bands of NIR region are overlapped extensively. It is very difficult to select the proper wavelengths of spectral data, which give the best PCR(principal component regression) models for the analysis of constituents of biological samples. The NIR data were used after polynomial smoothing and differentiation of 1st order, using Savitzky-Golay filters. To find the best PCR models, all-possible combinations of available principal components from the given NIR spectral data were derived by in-house programs written in MATLAB codes. All of the extensively generated PCR models were compared in terms of SEC(standard error of calibration), $R^2$, SEP(standard error of prediction) and SECP(standard error of calibration and prediction) to find the best combination of principal components of the initial PCR models. The initial PCR models were found by SEC or Malinowski's indicator function and a priori selection of spectral points were examined in terms of correlation coefficients between NIR data at each wavelength and corresponding concentrations. For the test of the developed program, aqueous solutions of BSA(bovine serum albumin) and glucose were prepared and analyzed. As a result, the best PCR models were found using a priori selection of spectral points and the final model selection by SEP or SECP.