• 제목/요약/키워드: 다중 공선성

검색결과 120건 처리시간 0.03초

주성분회귀분석에서 주성분선정을 위한 새로운 방법 (Procedure for the Selection of Principal Components in Principal Components Regression)

  • 김부용;신명희
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.967-975
    • /
    • 2010
  • 데이터마이닝 분야에서의 회귀모형에는 연관성이 높은 설명변수들이 포함되어 다중공선성을 유발하는 경우가 많은데, 다중공선성이 야기하는 문제를 해결하기 위하여 주성분회귀분석을 적용할 수 있다. 이 분석에서는 적절한 주성분을 선정하는 과정이 핵심인데, 기존의 선정방법들은 다중공선성을 잘 해결하지 못하거나 모형의 적합성을 저하시킨다는 지적을 받고 있다. 따라서 본 논문에서는 다중공선성 문제와 적합성 저하 현상을 동시에 해결할 수 있는 새로운 선정방법을 제안하였다. 다중공선성에 의해 최소제곱추정량의 분산이 팽창되는 문제를 주성분회귀에 의해 해결할 수 있지만, 주성분의 일부를 선정함에 따라 발생하는 편의도 동시에 통제해야 한다. 따라서 주성분회귀추정량의 평균제곱오차를 최소가 되게 하는 상태지수를 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준 모형을 구축하였다. 선정기준의 상한과 하한을 설정하고, 상태지수가 상한을 초과하면 해당 주성분을 제외시키고, 하한에 미달하면 해당 주성분을 포함시킨다. 그리고 상한과 하한 사이의 상태지수에 대응하는 주성분들에 대해서는 일반화선형검정을 순차적으로 적용하여 주성분을 선정하는 방법이다.

주성분 회귀모형을 이용한 과학기술 지식생산함수 추정 (Estimation of S&T Knowledge Production Function Using Principal Component Regression Model)

  • 박수동;성웅현
    • 기술혁신학회지
    • /
    • 제13권2호
    • /
    • pp.231-251
    • /
    • 2010
  • 과학기술 R&D 활동의 대표적 성과인 SCI 논문과 특허의 생산에 영향을 미치는 요인은 연구비, 연구원수, 지식스톡(R&D스톡, 논문스톡, 특허스톡 등), 연구환경, 개방화 정도, 인적자본, GDP 등 다양하다. 일반적인 회귀모형을 이용하여 논문 또는 특허의 생산에 영향을 미치는 요인을 추정하면 생산요인들 간에 다중공선성 문제가 발생하여 추정의 오류가 발생한다. 본 논문에서는 과학기술 지식생산에 영향을 미치는 요인들 간의 다중공선성 문제를 해결하기 위해 주성분 회귀모형을 이용하였다. SCI 논문을 산출로 가정한 과학생산성과와 특허를 산출로 가정한 기술생산성과에 영향을 미치는 요인을 회귀모형과 주성분 회귀모형을 이용하여 3가지 사례를 대상으로 비교 분석하였다. 일반 회귀모형을 이용하여 SCI 논문과 특허의 생산에 영향을 미치는 요인들을 분석한 결과, 요인들간에 다중공선성이 매우 높게 나타났고, 그 결과 회귀계수와 추정과 검정에 오류가 발생되었다. 반면 주성분 회귀모형을 이용하여 분석한 결과 다중공선성문제가 해결되어, 개별 생산요인에 대한 효과를 적절하게 추정할 수 있었다. 본 논문에서 제안한 주성분 회귀모형을 이용한 과학기술 지식생산함수 추정방법은 다중공선성이 강한 소수의 생산요소를 포함한 회귀분석에서 유용하게 적용될 수 있을 것이다.

  • PDF

특허기반의 기술수준평가 모형의 다중 공선성을 제거한 기술수준 평가모형 제안 (A Study on Technology Level Evaluation based on Patent without Multicollinearity)

  • 조일구;오종학
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.461-462
    • /
    • 2014
  • 기존 전문가 델파이 평가를 대체하는 특허기반 기술수준 평가모형들의 독립변수로 활용되는 특허활동도, 특허집중도, 특허시장력, 특허경쟁력 및 특허영향력의 다중공선성이 존재하여 이를 제거함으로써 보다 신뢰성이 높은 기술수준 평가모형을 실증하여 제안하고자 한다.

  • PDF

로짓모형에 있어서 다중공선성의 영향에 관한 연구 (Effects of Multicollinearity in Logit Model)

  • 류시균
    • 대한교통학회지
    • /
    • 제26권1호
    • /
    • pp.113-126
    • /
    • 2008
  • 비확률변수간 선형관계로 정의되는 다중공선성은 설명변수간 선형방정식으로 표현되는 회귀모형의 신뢰도를 저하시키기 때문에 회귀모형의 구축과정에서는 세심한 검토와 대응이 이루어진다. 본 연구에서는 구조화된 수치실험을 통해서 로짓모형에 대한 다중공선성의 영향을 규명하였다. 효용함수를 구성하는 설명변수들간 상관관계의 정도에 따라서 추정된 모형의 적합도 지표와 계수의 신뢰도 지표가 어떻게 변동하는 지를 추적함으로써 다음과 같은 시사점을 확인할 수 있었다. 첫째, 설명변수의 추가를 통해서 모델의 적합도 개선이 가능한 회귀모형과 달리, 로짓모형에서는 효용함수에 설명변수를 추가하는 경우 로짓모형의 적합도가 개선될 수도, 역으로 저하될 수도 있음이 확인되었다. 둘째, 공통의 계수를 갖도록 모델을 구성하면 제네릭 변수간 상관관계가 높아짐에 따라 모델의 적합도가 저하됨을 확인하였다. 셋째, 설명 변수간 상관관계가 높은 경우 선택행동에 대한 설명변수의 기여도가 과대평가될 가능성을 확인하였다. 넷째, 설명변수간 상관관계가 높으면 추정된 계수의 신뢰도가 저하됨을 확인하였다. 결론적으로 본 연구를 통해서 그동안 로짓모형의 구축과정에서는 주목받지 못했던 다중공선성이 실제로는 세심한 배려와 적절한 대응을 통해서 제어되어야 함이 규명되었다.

다중회귀분석을 이용한 강우량 결측치 보정 (Completion of the Missing Rainfall Data by a Multi-regression method)

  • 이명우;이봉희;김형수;심명필
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2006년도 학술발표회 논문집
    • /
    • pp.775-779
    • /
    • 2006
  • 강우자료의 구축은 수문해석에 있어 가장 기본적이며 중요한 단계라 할 수 있다. 하지만 수문 관측 자료의 경우 결측치가 존재하여 그에 대한 보정이 필요한 경우가 종종 발생하게 된다. 따라서 수문자료의 분석을 수행하기에 앞서 우선 자료에 대한 검정을 실시하고, 결측치가 존재할 경우는 이를 보정하여 분석을 수행하여야 한다. 본 연구에서는 다변량통계기법의 하나인 다중회귀분석을 이용하여 강우 결측치를 보정하였다. 본 연구에서는 다중공선성과 자기상관에 대하여 고려한 다중회귀모형을 구성하였다. 모형의 구성시 모든 결측지점에 적용이 가능하지 않아 일반성이 떨어짐을 확인 할 수 있었지만, 모형이 구성될 경우 통계적 적합도와 유의수준을 확인 할 수 있는 장점이 있었으며, 다중회귀모형이 구성되는 경우 좋은 보정 결과를 주는 것을 확인 할 수 있었다.

  • PDF

로지스틱모형에서의 주성분회귀 (Principal Components Regression in Logistic Model)

  • 김부용;강명욱
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.571-580
    • /
    • 2008
  • 로지스틱회귀분석은 고객관계관리나 신용위험관리 등의 분야에서 많이 사용되는 기법인데, 이러한 분야에서의 로지스틱회귀모형에는 연관성이 높은 설명변수들이 다수 포함되어 다중공선성의 문제를 유발하는 경우가 있다. 다중공선성이 존재하는 상황에서 최우추정량은 심각한 결함을 갖는다는 사실은 잘 알려졌다. 이 문제를 해결하기 위하여 로지스틱주성분회귀를 연구하되, 분석상의 주요 과정인 주성분 선정을 위한 방법을 새롭게 제안하였다. 추정량의 분산을 최소가 되게 하는 상태지수 값을 측정하고, 이 값에 영향을 미치는 주요 요인들을 컨조인트분석에 의해 파악하여 주성분 선정기준을 결정하는 모형을 구축하였다. 제안된 방법은 다중공선성 문제를 적절히 해결하면서도 모형의 적합성을 향상시킨다는 사실이 모의실험을 통하여 확인되었다.

은행과 저축은행 관련 재정 지표 분석: 생물 정보학 분석 기법의 응용 (Analyzing Financial Data from Banks and Savings Banks: Application of Bioinformatical Methods)

  • 박노진
    • 응용통계연구
    • /
    • 제27권4호
    • /
    • pp.577-588
    • /
    • 2014
  • 자료의 수집과 저장이 수월해 지면서 대용량의 자료들이 존재하고 특히 개체 보다 변수가 더 많은 자료들이 생산되고 있다. 변수들이 증가하면서 다중공선성 같은 문제들이 발생하여 분석의 어려움에 봉착하게 된다. 이러한 문제를 해결하는 방법들이 많이 연구되었지만 다소간의 정보의 손실을 감내하고 연속형 자료를 범주형 자료로 변환하면 나름 유용한 분석이 가능하다고 본다. 대용량 범주형 자료의 대표적인 사례로 유전자 염기 서열 자료가 있고 이를 분석하기 위한 많은 기술들이 발달되어 있다. 본 논문에서는 국내 은행들이 생산해 낸 다양한 지표들을 분석하기 위해 유전자 염기 서열 분석 기법을 적용하여 분석하였고 나름 유용한 정보를 얻을 수 있음을 보였다. 본 논문에서 사용한 자료는 11개의 은행과 5개의 저축은행과 관련된 78개 재정 지표를 갖는 자료로서 심각한 다중 공선성이 존재하여 자료를 범주화하고 분석한 결과 몇 가지 유용한 결과를 도출하였다.

급경사지 붕괴 예측을 위한 모형 개발 (Development of model for prediction of land sliding at steep slopes)

  • 박기병;주용성;박덕근
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.691-699
    • /
    • 2011
  • 현재까지 우리나라뿐만 아니라 세계적으로 급경사지 붕괴는 대표적인 자연재해로 알려져 있다. 급경사지 붕괴 피해를 방지하기 위해 행해진 많은 선행 연구를 바탕으로 일부 국내기관에서는 급경사지 평가표를 만들어 붕괴 예측에 활용하고 있다. 하지만, 대부분의 기존 연구는 비통계전문가들에 의해 행해졌기 때문에 평가표 구성의 통계적 타당성을 제시하지 못했다. 본 연구는 전국 지역을 대상으로 급경사지 (암반사면, 토사사면) 붕괴에 영향을 미칠 것으로 예상되는 인자들의 자료를 수집하고 그 인자들의 가중치를 판정하기 위하여 로지스틱 회귀분석 방법을 사용하였다. 선행연구들 중에 로지스틱 회귀분석을 이용한 기존의 연구들이 있었지만 다중공선성을 전혀 고려하지 않았기 때문에 결과가 신뢰할 만하지 못하다. 본 연구에서는 다중공선성을 제거된 급경사지 붕괴 예측모형을 제시하였다.

로버스트주성분회귀에서 최적의 주성분선정을 위한 기준 (A Criterion for the Selection of Principal Components in the Robust Principal Component Regression)

  • 김부용
    • Communications for Statistical Applications and Methods
    • /
    • 제18권6호
    • /
    • pp.761-770
    • /
    • 2011
  • 회귀모형에 연관성이 높은 설명변수들이 포함되면 다중공선성의 문제가 야기되며, 동시에 자료에 회귀 이상점들이 포함되면 최소자승추정량에 바탕을 둔 제반 통계적 추론은 심각한 결함을 갖게 된다. 이러한 현상들은 데이터마이닝 분야에서 많이 볼 수 있는데, 본 논문에서는 두 가지 문제를 동시에 해결하기 위한 방안으로서 로버스트주성분회귀를 제안하였다. 특히 최적의 주성분을 선정하기 위한 새로운 기준을 개발하였는데, 설명변수들의 표본공분산 대신에 MVE-추정량을 기반으로 하였으며, 고유치가 아니라 상태지수의 크기에 바탕을 둔 선정기준을 제안하였다. 그리고 주성분모형에서의 추정을 위하여 회귀이상점에 대해 로버스트한 LTS-추정을 도입하였다. 제안된 선정기준이 기존의 기준들보다 다중공선성과 이상점이 유발하는 문제들을 잘 해결할 수 있음을 모의실험을 통하여 확인하였다.

존 데이터 기반 수단분담모형에 관한 연구 (A Study on the Modal Split Model Using Zonal Data)

  • 류시균;노정현;김지은
    • 대한교통학회지
    • /
    • 제30권1호
    • /
    • pp.113-123
    • /
    • 2012
  • 본 연구에서는 수단별 비용변수를 주요 설명변수로 활용하고 있는 현행 수단분담모형의 문제점으로서 설명변수간 높은 상관관계로 인한 다중공선성 문제와 버스노선의 가변성으로 인한 설명변수의 장래치 추정불가능성 문제를 지적하고 이와 같은 문제점을 극복할 수 있는 방안으로서 존을 설명하는 사회경제적 변수, 토지이용변수, 교통체계변수들을 설명변수로 하는 '존 데이터 기반 수단분담모형'의 활용가능성을 검증하였다. 장래교통수요추정모형으로서 수단분담모형의 설명변수가 갖추어야 할 조건으로서 목표연도별 설명변수의 추정가능성을 설정하고 이러한 조건을 만족하는 존 데이터를 설명변수로 한 수단분담모형을 구축하였으며 수단별 비용변수를 주요 설명변수로 하는 수단분담모형과의 비교를 수행하였다. 추정된 계수에 대한 통계적 유의성 검정에서 비용변수간 높은 상관관계로 인한 다중공선성 문제를 확인할 수 있었으며 적합도 평가(우도비의 비교)를 통해서 존 데이터 기반 수단분담모형이 수단별 비용변수를 설명변수로 한 수단분담모형에 비해서 설명력이 더욱 높다는 사실이 확인되었다.