• 제목/요약/키워드: principal component regression

검색결과 251건 처리시간 0.026초

기계학습 기반의 가스폭발위험범위 예측모델에 관한 연구 (A Study on Predictive Models based on the Machine Learning for Evaluating the Extent of Hazardous Zone of Explosive Gases)

  • 정용재;이창준
    • Korean Chemical Engineering Research
    • /
    • 제58권2호
    • /
    • pp.248-256
    • /
    • 2020
  • 본 연구에서는 폭발위험장소의 방폭설비 설치를 위해 필요한 가스폭발위험범위 예측모델 개발을 수행하였다. 이를 위해 12개의 가연성가스에 대한 1,200개의 폭발위험범위 데이터를 생성하였다. 가스폭발위험범위를 출력변수로 설정하였고 데이터 생성과정에서 필요한 12개의 변수를 입력변수로 설정하였다. 다중 회귀, 주성분 회귀, 인공신경망 기법을 이용해 예측모델을 개발하였다. 각각 모델의 예측 성능을 비교한 결과, 평균절대퍼센트오차(MAPE)는 각각 44.2%, 49.3%, 5.7%이고 평균제곱근오차(RMSE)는 1.389 m, 1.602 m, 0.203 m로 나타났다. 결과를 통해 인공신경망이 가장 우수한 성능을 보여주었고 가스폭발위험범위 예측을 위한 최적 모델이라는 것을 확인하였다.

MOISTURE CONTENT MEASUREMENT OF POWDERED FOOD USING RF IMPEDANCE SPECTROSCOPIC METHOD

  • Kim, K. B.;Lee, J. W.;S. H. Noh;Lee, S. S.
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2000년도 THE THIRD INTERNATIONAL CONFERENCE ON AGRICULTURAL MACHINERY ENGINEERING. V.II
    • /
    • pp.188-195
    • /
    • 2000
  • This study was conducted to measure the moisture content of powdered food using RF impedance spectroscopic method. In frequency range of 1.0 to 30㎒, the impedance such as reactance and resistance of parallel plate type sample holder filled with wheat flour and red-pepper powder of which moisture content range were 5.93∼-17.07%w.b. and 10.87 ∼ 27.36%w.b., respectively, was characterized using by Q-meter (HP4342). The reactance was a better parameter than the resistance in estimating the moisture density defined as product of moisture content and bulk density which was used to eliminate the effect of bulk density on RF spectral data in this study. Multivariate data analyses such as principal component regression, partial least square regression and multiple linear regression were performed to develop one calibration model having moisture density and reactance spectral data as parameters for determination of moisture content of both wheat flour and red-pepper powder. The best regression model was one by the multiple linear regression model. Its performance for unknown data of powdered food was showed that the bias, standard error of prediction and determination coefficient are 0.179% moisture content, 1.679% moisture content and 0.8849, respectively.

  • PDF

호우피해자료에서의 고차원 자료 및 다중공선성 문제를 해소한 회귀모형 개발 (Development of Regression Models Resolving High-Dimensional Data and Multicollinearity Problem for Heavy Rain Damage Data)

  • 김정환;박지현;최창현;김형수
    • 대한토목학회논문집
    • /
    • 제38권6호
    • /
    • pp.801-808
    • /
    • 2018
  • 선형회귀모형의 학습은 일반적으로 자료의 개수가 설명변수의 개수보다 충분히 크고, 설명변수들 사이에 심각한 다중공선성이 없다는 가정 하에서 안정적으로 이루어진다. 본 연구에서는 이러한 가정이 위배되었을 경우 모형 학습의 어려움을 실제 호우피해자료를 분석함으로써 조명하였고, 이를 해결하기 위해 자료를 통합한 다음 주성분회귀모형 또는 능형회귀모형을 사용할 것을 검토하였다. 모형의 학습에 사용된 자료와 별도의 독립된 자료에서 제안된 모형들의 예측력을 평가하였고, 제안된 방법이 선형회귀모형보다 더 나은 예측력을 보이는 것을 확인하였다.

Bayesian inference of the cumulative logistic principal component regression models

  • Kyung, Minjung
    • Communications for Statistical Applications and Methods
    • /
    • 제29권2호
    • /
    • pp.203-223
    • /
    • 2022
  • We propose a Bayesian approach to cumulative logistic regression model for the ordinal response based on the orthogonal principal components via singular value decomposition considering the multicollinearity among predictors. The advantage of the suggested method is considering dimension reduction and parameter estimation simultaneously. To evaluate the performance of the proposed model we conduct a simulation study with considering a high-dimensional and highly correlated explanatory matrix. Also, we fit the suggested method to a real data concerning sprout- and scab-damaged kernels of wheat and compare it to EM based proportional-odds logistic regression model. Compared to EM based methods, we argue that the proposed model works better for the highly correlated high-dimensional data with providing parameter estimates and provides good predictions.

SVM-Guided Biplot of Observations and Variables

  • Huh, Myung-Hoe
    • Communications for Statistical Applications and Methods
    • /
    • 제20권6호
    • /
    • pp.491-498
    • /
    • 2013
  • We consider support vector machines(SVM) to predict Y with p numerical variables $X_1$, ${\ldots}$, $X_p$. This paper aims to build a biplot of p explanatory variables, in which the first dimension indicates the direction of SVM classification and/or regression fits. We use the geometric scheme of kernel principal component analysis adapted to map n observations on the two-dimensional projection plane of which one axis is determined by a SVM model a priori.

한국프로야구에서 타자능력지수 제안 - 대체선수대비승수(WAR)을 중심으로 (Suggestion of batter ability index in Korea baseball - focusing on the sabermetrics statistics WAR)

  • 이제영;김현규
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1271-1281
    • /
    • 2016
  • 야구에서 타자의 능력을 측정하는 많은 세이버메트릭스 통계량들 중에서 대체선수대비승수(wins above replacement; WAR)은 가장 많이 쓰이는 통계량이다. WAR은 선수의 공격능력과 주루능력, 수비능력 등을 하나의 수치로 표현하는 방법이란 점에서 큰 장점을 가지고 있다. 본 논문에서는 지난 3년간(2013-2015년) 한국프로야구 기록 자료를 바탕으로 세이버메트릭스 변수들의 값을 구한 뒤, 이를 이용하여 WAR을 대체할 수 있는 타자능력지수를 제안하였다. 타자능력지수는 산술평균방법, 가중평균방법, 주성분회귀분석 등을 통해 산출하고 WAR과 비교하여 가장 관계가 높은 방법을 선택하였다.

LMS and LTS-type Alternatives to Classical Principal Component Analysis

  • Huh, Myung-Hoe;Lee, Yong-Goo
    • Communications for Statistical Applications and Methods
    • /
    • 제13권2호
    • /
    • pp.233-241
    • /
    • 2006
  • Classical principal component analysis (PCA) can be formulated as finding the linear subspace that best accommodates multidimensional data points in the sense that the sum of squared residual distances is minimized. As alternatives to such LS (least squares) fitting approach, we produce LMS (least median of squares) and LTS (least trimmed squares)-type PCA by minimizing the median of squared residual distances and the trimmed sum of squares, in a similar fashion to Rousseeuw (1984)'s alternative approaches to LS linear regression. Proposed methods adopt the data-driven optimization algorithm of Croux and Ruiz-Gazen (1996, 2005) that is conceptually simple and computationally practical. Numerical examples are given.

Prediction of Melting Point for Drug-like Compounds Using Principal Component-Genetic Algorithm-Artificial Neural Network

  • Habibi-Yangjeh, Aziz;Pourbasheer, Eslam;Danandeh-Jenagharad, Mohammad
    • Bulletin of the Korean Chemical Society
    • /
    • 제29권4호
    • /
    • pp.833-841
    • /
    • 2008
  • Principal component-genetic algorithm-multiparameter linear regression (PC-GA-MLR) and principal component-genetic algorithm-artificial neural network (PC-GA-ANN) models were applied for prediction of melting point for 323 drug-like compounds. A large number of theoretical descriptors were calculated for each compound. The first 234 principal components (PC’s) were found to explain more than 99.9% of variances in the original data matrix. From the pool of these PC’s, the genetic algorithm was employed for selection of the best set of extracted PC’s for PC-MLR and PC-ANN models. The models were generated using fifteen PC’s as variables. For evaluation of the predictive power of the models, melting points of 64 compounds in the prediction set were calculated. Root-mean square errors (RMSE) for PC-GA-MLR and PC-GA-ANN models are 48.18 and $12.77{^{\circ}C}$, respectively. Comparison of the results obtained by the models reveals superiority of the PC-GA-ANN relative to the PC-GA-MLR and the recently proposed models (RMSE = $40.7{^{\circ}C}$). The improvements are due to the fact that the melting point of the compounds demonstrates non-linear correlations with the principal components.

주요성분분석에 의한 일반회귀 신경망의 성능개선 (Performance Improvement of General Regression Neural Network Using Principal Component Analysis)

  • 조용현
    • 한국정보처리학회논문지
    • /
    • 제7권11호
    • /
    • pp.3408-3416
    • /
    • 2000
  • 본 논문에서는 독립변수들의 특징을 추출하여 패턴층 뉴런의 중앙값을 이용함으로써 일반회귀 신경망의 성능을 개선하는 방법을 제안하였다. 제안된 방법에서는 적응적 학습 알고리즘의 주요성분분석 기법을 이용하여 회귀분석에 이용되는 데이터의 각 독립변수들의 집합으로 변환시키는 특징을 살려 일반회귀 신경망의 성능을 더 개선하기 위함이다. 제안된 기법의 일반회귀 신경망을 2개의 독립변수 집합을 가진 Solow의 경제문제와 4개의 독립변수 집합을 가진 국내 유선전화문제에 각각 적용하여 시뮬레이션한 결과, 중심값을 각 독립변수들의 평균이나 가중평균을 이용하는 일반회귀 신경망에 의한 결과와 비교할 때 더욱 우수한 회귀성능이 있음을 확인할 수 있었다. 그리고 신경망의 뉴런 수나 평활요소의 설정 면에서도 우수한 특성이 있음을 확인할 수 있었다.

  • PDF

주성분 분석법을 이용한 회귀다항식 기반 모델 및 패턴 분류기 설계 (Design of Regression Model and Pattern Classifier by Using Principal Component Analysis)

  • 노석범;이동윤
    • 한국정보전자통신기술학회논문지
    • /
    • 제10권6호
    • /
    • pp.594-600
    • /
    • 2017
  • 본 논문에서는 매우 높은 차원을 가진 데이터에서 의미 있는 특징 벡터 추출하여 입력 공간의 차원을 줄이기 위하여 주성분 분석법을 사용하였다. 주성분 분석법을 이용하여 축소된 차원을 가진 입력 데이터를 이용하여 회귀 다항식의 입력벡터로 사용하는 모델과 패턴 분류기의 설계 방법을 제안하였다. 제안된 모델 및 패턴 분류기는 매우 단순한 구조를 가진 회귀다항식을 기반으로 설계하여 모델 및 패턴 분류기의 과적합 문제를 해결 하고자 하였다. 제안된 설계방법을 적용하여 설계된 모델과 패턴 분류기의 성능을 비교 및 평가하기 위하여, 다양한 기계 학습 데이터 집합을 사용하였다.