• 제목/요약/키워드: 주성분회귀분석

검색결과 152건 처리시간 0.027초

주성분회귀분석을 활용한 다항회귀분석 성능개선: PGF 수치역변환 사례를 중심으로 (Improving Polynomial Regression Using Principal Components Regression With the Example of the Numerical Inversion of Probability Generating Function)

  • 양원석;박현민
    • 한국콘텐츠학회논문지
    • /
    • 제15권1호
    • /
    • pp.475-481
    • /
    • 2015
  • 종속변수와 설명변수 사이의 관계가 선형이 아닌 경우에는 비선형 관계를 반영할 수 있는 다항회귀분석을 이용하여 회귀분석을 수행한다. 한편, 다항회귀분석에는 설명변수의 거듭제곱항들이 설명변수에 추가되므로 설명변수들 사이에 상관관계가 발생하여 다항회귀모형의 성능 저하 문제가 발생할 수 있다. 본 논문에서는 PGF 수치역변환 문제를 사례로 하여 주성분회귀분석을 통해 다항회귀분석의 성능을 극적으로 향상시킬 수 있음을 보인다. 본 논문에서는 PGF의 정의를 이용하여 PGF를 다항회귀분석으로 모형화한다. 다항회귀분석을 이용하여 PGF 전개식의 회귀계수를 추정하면 회귀계수의 추정 자체가 불가능하거나 계수 추정의 정확성이 저하되는 문제가 발생한다. 이 경우 다항회귀분석에 주성분회귀분석을 적용하면 계수 추정의 정확도가 극적으로 향상되어 다항회귀분석의 계수 추정 시 발생하는 문제를 해결할 수 있음을 밝힌다.

주성분회귀와 고유값회귀에 대한 감도분석의 성질에 대한 연구 (A study on the properties of sensitivity analysis in principal component regression and latent root regression)

  • 신재경;장덕준
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권2호
    • /
    • pp.321-328
    • /
    • 2009
  • 회귀분석에서 설명변수들 사이에 상관이 높으면 최소제곱추정법에서 구한 회귀계수들의 정도가 떨어진다. 다중공선성이라 불리는 이 현상은 실제 자료분석에서 심각한 문제를 야기시킨다. 이 다중공선성의 문제를 극복하기 위한 여러 가지 방법이 제안되었다. 능형회귀, 축소추정량 그리고 주성분분석에 기초한 주성분회귀와 고유값회귀등이 있다. 지난 수십 년간 많은 통계학자들은 일반적인 중 회귀에서 감도분석에 관해 연구하였으며, 주성분회귀, 고유값회귀와 로지스틱 주성분회귀에 대해서도 같은 주제로 연구하였다. 이 모든 방법에서 주성분분석은 중요한 역할을 하였다. 또한, 많은 통계학자들이 주성분분석과 관련된 다변량 방법에서 감도분석에 대해 연구를 하였다. 본 연구논문에서는 주성분회귀와 고유값회귀를 소개하고, 또한 주성분회귀와 고유값회귀에서 감도분석의 방법을 소개하고, 마지막으로 이들두방법에 대한 감도분석의 성질에 대해 논의하였다.

  • PDF

라소를 이용한 간편한 주성분분석 (Simple principal component analysis using Lasso)

  • 박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.533-541
    • /
    • 2013
  • 이 연구에서는 라소를 이용한 간편한 주성분분석을 제안한다. 이 방법은 다음의 두 단계로 구성되어 있다. 먼저 주성분분석에 의해 주성분을 구한다. 다음으로 각 주성분을 반응변수로 하고 원자료를 설명변수로 하는 라소 회귀모형에 의한 회귀계수 추정량을 구한다. 이 회귀계수 추정량에 기반한 새로운 주성분을 사용한다. 이 방법은 라소 회귀분석의 성질에 의해 회귀계수 추정량이 보다 쉽게 0이 될 수 있기 때문에 해석이 쉬운 장점이 있다. 왜냐하면 주성분을 반응변수로 하고 원자료를 설명변수로 하는 회귀모형의 회귀계수가 고유벡터가 되기 때문이다. 라소 회귀모형을 위한 R 패키지를 이용하여 모의생성된 자료와 실제 자료에 이 방법을 적용하여 유용성을 보였다.

근적외선 분광 데이터 예측 모형을 위한 데이터 마이닝 기법의 성능비교 (Performance Comparison of Data Mining Approaches for Prediction Models of Near Infrared Spectroscopy Data)

  • 백승현
    • 대한안전경영과학회지
    • /
    • 제15권4호
    • /
    • pp.311-315
    • /
    • 2013
  • 본 논문에서는 주성분 회귀법과 부분최소자승 회귀법을 비교하여 보여준다. 이 비교의 목적은 선형형태를 보유한 근적외선 분광 데이터의 분석에 사용할 수 있는 적합한 예측 방법을 찾기 위해서이다. 두 가지 데이터 마이닝 방법론인 주성분 회귀법과 부분최소자승 회귀법이 비교되어 질 것이다. 본 논문에서는 부분최소자승 회귀법은 주성분 회귀법과 비교했을 때 약간 나은 예측능력을 가진 결과를 보여준다. 주성분 회귀법에서 50개의 주성분이 모델을 생성하기 위해서 사용지만 부분최소자승 회귀법에서는 12개의 잠재요소가 사용되었다. 평균제곱오차가 예측능력을 측정하는 도구로 사용되었다. 본 논문의 근적외선 분광데이터 분석에 따르면 부분최소자승회귀법이 선형경향을 가진 데이터의 예측에 가장 적합한 모델로 판명되었다.

주성분회귀분석을 이용한 한국프로야구 순위 (Predicting Korea Pro-Baseball Rankings by Principal Component Regression Analysis)

  • 배재영;이진목;이제영
    • Communications for Statistical Applications and Methods
    • /
    • 제19권3호
    • /
    • pp.367-379
    • /
    • 2012
  • 야구경기에서 순위를 예측하는 것은 야구팬들에게 관심의 대상이 된다. 이러한 순위를 예측하기 위해서 2011년 한국프로야구 기록 자료를 바탕으로 산술평균방법, 가중평균방법, 주성분분석방법, 주성분회귀분석 방법을 제시한다. 표준화를 통한 산술평균, 상관계수를 이용한 가중평균과 주성분 분석을 이용해서 순위를 예측하고, 최종모형으로 주성분회귀분석 모형이 선택되었다. 주성분 분석으로 축약된 변수를 이용해서 회귀분석을 실시하여, 투수부분, 타자부분, 투수와 타자부분의 순위예측 모형을 제안한다. 예측된 회귀모형을 통해서 2012년도 순위 예측이 가능하다.

주성분회귀분석에서 주성분선정을 위한 새로운 방법 (Procedure for the Selection of Principal Components in Principal Components Regression)

  • 김부용;신명희
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.967-975
    • /
    • 2010
  • 데이터마이닝 분야에서의 회귀모형에는 연관성이 높은 설명변수들이 포함되어 다중공선성을 유발하는 경우가 많은데, 다중공선성이 야기하는 문제를 해결하기 위하여 주성분회귀분석을 적용할 수 있다. 이 분석에서는 적절한 주성분을 선정하는 과정이 핵심인데, 기존의 선정방법들은 다중공선성을 잘 해결하지 못하거나 모형의 적합성을 저하시킨다는 지적을 받고 있다. 따라서 본 논문에서는 다중공선성 문제와 적합성 저하 현상을 동시에 해결할 수 있는 새로운 선정방법을 제안하였다. 다중공선성에 의해 최소제곱추정량의 분산이 팽창되는 문제를 주성분회귀에 의해 해결할 수 있지만, 주성분의 일부를 선정함에 따라 발생하는 편의도 동시에 통제해야 한다. 따라서 주성분회귀추정량의 평균제곱오차를 최소가 되게 하는 상태지수를 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준 모형을 구축하였다. 선정기준의 상한과 하한을 설정하고, 상태지수가 상한을 초과하면 해당 주성분을 제외시키고, 하한에 미달하면 해당 주성분을 포함시킨다. 그리고 상한과 하한 사이의 상태지수에 대응하는 주성분들에 대해서는 일반화선형검정을 순차적으로 적용하여 주성분을 선정하는 방법이다.

공간자료 주성분분석 (Principal component regression for spatial data)

  • 임예지
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.311-321
    • /
    • 2017
  • 주성분 분석은 통계학 뿐만 아니라 기상학에서 널리 사용되는 방법론이며, 고차원 자료에 대한 차원축소 역할 뿐만아니라 기상자료에서의 의미있는 패턴을 찾아내기 위해 사용되는 방법론이다. 또한 주성분분석에 기반을 둔 주성분 회귀분석 방법론은 기후예측이 가능하므로 미래 시점의 기후값 예측에 사용될 수 있다. 본 논문에서는 Wang과 Huang (2016) 논문에서 제안한 제한된 공간 주성분 분석을 기반으로 한 주성분 회귀분석 방법론을 개발하였다. 이를 시뮬레이션을 통하여 확인하였고, 실제 자료인 동아시아 지역 온도예측에 적용하여 기존의 주성분 회귀분석 예측 값에 비해 예측력이 높아짐을 확인하였다.

특허분석을 활용한 항해 시스템 기술예측

  • 박은주;정중식
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2015년도 춘계학술대회
    • /
    • pp.50-52
    • /
    • 2015
  • 특허는 기술에 대한 광범위한 정보를 포함하고 있다. 기존의 기술예측은 정량적분석으로 시도되었지만 특허분석을 활용하여 정성적분석을 실시하였다. 특허분석을 시행하기 위하여 R 프로그램을 이용하여 주성분분석과 다중선형회귀분석을 실행하였다. 주성분분석과 다중선형회귀분석을 통하여 키워드를 추출하고 추출된 키워드를 통해 기술예측을 실시한다.

  • PDF

주성분 회귀모형을 이용한 과학기술 지식생산함수 추정 (Estimation of S&T Knowledge Production Function Using Principal Component Regression Model)

  • 박수동;성웅현
    • 기술혁신학회지
    • /
    • 제13권2호
    • /
    • pp.231-251
    • /
    • 2010
  • 과학기술 R&D 활동의 대표적 성과인 SCI 논문과 특허의 생산에 영향을 미치는 요인은 연구비, 연구원수, 지식스톡(R&D스톡, 논문스톡, 특허스톡 등), 연구환경, 개방화 정도, 인적자본, GDP 등 다양하다. 일반적인 회귀모형을 이용하여 논문 또는 특허의 생산에 영향을 미치는 요인을 추정하면 생산요인들 간에 다중공선성 문제가 발생하여 추정의 오류가 발생한다. 본 논문에서는 과학기술 지식생산에 영향을 미치는 요인들 간의 다중공선성 문제를 해결하기 위해 주성분 회귀모형을 이용하였다. SCI 논문을 산출로 가정한 과학생산성과와 특허를 산출로 가정한 기술생산성과에 영향을 미치는 요인을 회귀모형과 주성분 회귀모형을 이용하여 3가지 사례를 대상으로 비교 분석하였다. 일반 회귀모형을 이용하여 SCI 논문과 특허의 생산에 영향을 미치는 요인들을 분석한 결과, 요인들간에 다중공선성이 매우 높게 나타났고, 그 결과 회귀계수와 추정과 검정에 오류가 발생되었다. 반면 주성분 회귀모형을 이용하여 분석한 결과 다중공선성문제가 해결되어, 개별 생산요인에 대한 효과를 적절하게 추정할 수 있었다. 본 논문에서 제안한 주성분 회귀모형을 이용한 과학기술 지식생산함수 추정방법은 다중공선성이 강한 소수의 생산요소를 포함한 회귀분석에서 유용하게 적용될 수 있을 것이다.

  • PDF

로지스틱모형에서의 주성분회귀 (Principal Components Regression in Logistic Model)

  • 김부용;강명욱
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.571-580
    • /
    • 2008
  • 로지스틱회귀분석은 고객관계관리나 신용위험관리 등의 분야에서 많이 사용되는 기법인데, 이러한 분야에서의 로지스틱회귀모형에는 연관성이 높은 설명변수들이 다수 포함되어 다중공선성의 문제를 유발하는 경우가 있다. 다중공선성이 존재하는 상황에서 최우추정량은 심각한 결함을 갖는다는 사실은 잘 알려졌다. 이 문제를 해결하기 위하여 로지스틱주성분회귀를 연구하되, 분석상의 주요 과정인 주성분 선정을 위한 방법을 새롭게 제안하였다. 추정량의 분산을 최소가 되게 하는 상태지수 값을 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준을 결정하는 모형을 구축하였다. 제안된 방법은 다중공선성 문제를 적절히 해결하면서도 모형의 적합성을 향상시킨다는 사실이 모의실험을 통하여 확인되었다.