• 제목/요약/키워드: 다중 공선성

검색결과 120건 처리시간 0.035초

Shrinkage Structure of Ridge Partial Least Squares Regression

  • Kim, Jong-Duk
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권2호
    • /
    • pp.327-344
    • /
    • 2007
  • 다중공선성의 데이터에 사용되는 대표적인 편향회귀방법은 능형회귀(RR), 주성분회귀(PCR), 부분최소제곱회귀(PLS) 등이다. 이 회귀방법들은 계수베거 추정량의 놈(norm)이 모두 보통 최소제곱회귀(OLS)의 추정량의 놈보다 작아진다는 의미에서 축소회귀라 부른다. 새로운 회귀방법으로 RR과 PCR을 결합한 능형주성분회귀(RPCR)가 있고 RR과 PLS를 결합한 능형부분최소제곱회귀(RPLS)가 있으며 이들도 또한 축소회귀이다. 이들 추정량은 X'X의 고유벡터들의 선형결합으로 나타낼 수 있고 따라서 각 고유방향에서 OLS에 비해 얼마나 축소되는지를 연구할 수 있다. 본 논문에서는 먼저 이들 추정량을 일반적인 축소인자의 식으로 나타내고 이를 이용하여 MSE의 일반식을 구하였으며 PLS 추정량의 MSE 식도 구하였다. 그리고 RPLS의 축소인자 식을 두 가지 다른 형태로 유도하였다. RPLS의 경우도 이 축소인자 식을 MSE의 일반식에 대입하면 MSE 식이 바로 얻어진다. 그러나 PLS나 RPLS의 축소인자는 y의 복잡한 비선형이 되어 결정적이 아니므로 이들 추정량의 MSE는 근사적인 식이라 할 수 있다. 따라서 PLS나 RPLS를 평가하기 위해 이 MSE를 사용하는 것은 제한적이며, 경험적인 방법으로 이들 회귀의 수행성을 평가하는 것이 필요하다. 다중공선성의 대표적인 데이터인 근적외선 분광 데이터를 이용하여 이 유도된 회귀의 축소인자 값이 인자수에 따라 어떻게 변화하는지와 전체적인 축소 비율도 살펴보았다. 이들의 축소 형태를 잘 이해하면 회귀방법들의 예측력과 안정성을 파악하는데 많은 도움이 되리라 판단된다.

  • PDF

경시적 자료를 이용한 아동 학업성취도 분석 (A longitudinal data analysis for child academic achievement with Korea welfare panel study data)

  • 이나은;허집
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.1-10
    • /
    • 2017
  • 경시적 자료를 이용한 아동 학업성취도에 영향을 주는 요인을 찾기 위한 기존의 분석들은 각 아동의 반복 측정된 자료들이 독립이라고 가정한 모형을 주로 이용하였다. 본 연구에서는 기존 연구들에서 고려한 아동 학업성취도에 영향을 주는 변수들을 선택하여 반복 측정된 경시적 자료의 종속성을 고려한 고정효과와 임의효과를 포함하는 선형혼합모형으로 분석하여 아동 학업성취도에 영향을 주는 변수들은 무엇인지, 각 아동의 특성들이 반영되는 임의절편과 임의기울기가 있는지를 파악하는 것이 연구의 목적이다. 본 연구에 사용된 자료는 한국복지패널 1, 4, 7차 부가조사 중에서 아동용 설문문항에 대한 자료이고, 국어, 영어와 수학의 학업성취도 점수의 합을 아동 학업성취도로 한다. 선형혼합모형을 이용한 분석 시에 다중공선성의 검토와 결측치의 특성을 파악하고 적절한 오차의 상관행렬을 선택한다.

국내 주요 다목적댐의 비퇴사량 산정을 위한 경험공식 (Empirical equation for estimating specific sediment of the multipurpose dams in Korea)

  • 이진욱;백경록;유철상
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.412-427
    • /
    • 2016
  • 댐의 건설은 자연하천에서 퇴적과 침식의 유사 순환과정에 영향을 주고 저수지 퇴사(reservoir sedimentation)를 야기한다. 이러한 현상은 댐의 건설 이후 장기간 축적되면서 이수와 취수에 대한 영향을 가져오기 때문에 댐 관리와 설계를 위해 정확한 추정이 필요하다. 퇴사량을 산정하는 방법에는 실측자료를 방법과 실제 유사량 자료를 이용하는 방법 그리고 경험공식을 이용하는 방법 등이 있으나, 가용한 자료의 부족으로 주로 경험 공식에 의존하고 있다. 이에 본 연구에서는 국내 대규모 다목적댐에 적합한 비퇴사량 산정 경험 공식을 제안하고자 하였다. 이를 위해 먼저 기존의 공식을 조사 및 검토하여 비퇴사량에 영향을 미칠 만한 여러 인자들을 선정하였다. 총 8개 국내 대규모 다목적댐의 비퇴사량 자료와 제원을 이용하여 다중 회귀분석을 실시하여 최종적인 식을 제안하였다. 그 결과, 대규모 다목적댐의 비퇴사량에 영향을 미치는 인자로 연평균 강우량(P, mm),연평균 유입량(I, cms), 유역 평균경사(S, %),저수지 길이(L, km),저수용량/유역면적(C/A, $m^3/km^2$)을 채택하였으며, 제안된 식을 이용하여 산정한 비퇴사량과 실측 비퇴사량의 상관계수와 결정계수는 각각 0.985, 0.970으로 확인되었다. 아울러, 다중 공선성 분석에서도 모두 일반적인 기준치를 범위 안에 존재함을 확인하면서, 선정된 독립변수들이 통계적으로 유의함을 확인하였다. 허나, 가용 자료의 부족과 불확실성으로 인해 여전히 한계점이 존재한다. 충분한 비퇴사량 실측 자료가 구축된다면, 보다 신뢰도 높고 발전된 형태의 경험 공식의 제안이 가능할 것이다.

  • PDF

머신러닝 기법을 이용한 미계측지역에 적용가능한 지역화 Low-flow indices 산정 (Estimation of regional Low-flow Indices Applicable to Unmetered Areas Using Machine Learning Technique)

  • 정세진;강동호;김병식
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.39-39
    • /
    • 2020
  • Low-flow 하천에서의 최저수위를 나타내는 지표이다. 일반적으로 유황곡선의 갈수량(Q355)를 대표적으로 사용한다. Low-flow는 물 공급 관리 및 계획, 관개용수, 생태계등 다양한 분야에 영향을 미친다. 이러한 Low-flow를 산정하기 위해서는 충분한 기간의 유량자료가 필요하다. 하지만 국토의 70%가 산지지형으로 구성되어 있는 우리나라의 경우 국가하천과 1급하천을 제외한 산지유역은 수위관측소가 부재하거나 결측으로 인해 자료가 충분하지 않아 Low-flow분석에 한계가 있다. 이에 과거에는 미계측지역의 갈수량을 예측하기 위해서 다중회귀분석, ARIMA 모형 등 다양한 기법을 사용하였지만, 최근들어 머신러닝 모형의 수요가 증가하고 있다. 이에 본 연구에서는 새로운 패러다임에 맞는 머신러닝 기법인 DNN기법을 사용하고자 한다. DNN기법은 ANN기법의 단점인 학습과정에서 최적 매개변수값을 찾기 어렵고, 학습시간이 느린 단점을 보완한 방법이다. 따라서 본연구에서는 머신러닝 기법인 DNN기법을 통해 미계측지역에 적용 가능한 지역화 Low-flow indices를 산정하고자 한다. 먼저, Low-flow에 영향을 미치는 인자들을 수집하고 인자들간의 상관분석, 다중공선성 분석을 통해 통계적으로 유의한 변수를 선정하여, 머신러닝 모형에 입력자료를 구축하였다. 또한 기존의 갈수량 예측기법인 다중회귀분석 결과와 비교하여 머신러닝 기법의 효용성을 검토하였다.

  • PDF

성인 남성의 최대하 운동시 대사반응 및 1,200 m 달리기 기록을 이용한 최대산소섭취량 추정식 개발 및 타당도 (Predictions of VO2max Using Metabolical Responses in Submaximal Exercise and 1,200 m Running for Male, and the Validity of These Prediction Models)

  • 임재형;전유정;장혁기;김효중;김기홍;이병근
    • 운동과학
    • /
    • 제21권2호
    • /
    • pp.231-242
    • /
    • 2012
  • 본 연구의 목적은 운동부하검사에서 일반적으로 많이 사용하는 Bruce protocol을 이용한 최대하 운동의 대사반응, 주요 시점의 심박수 기록 및 1,200 m 달리기 기록을 이용하여 최대산소섭취량을 추정하는 모형을 개발하고 모형간 추정의 타당도를 분석하는 데 있다. 연구대상은 성인 남성 255명(1,200 m 달리기는 133명)이며 Bruce protocol을 이용하여 최대운동부하검사를 실시하였고, 3분인 1단계와 6분인 2단계 종료 시점의 대사반응을 측정하였다. 측정항목은 VO2(㎖㎖/kg/min), VCO2(㎖/kg/min), VE(L/min) 및 HR(bpm), HR가 150 bpm과 170 bpm에 도달하는 시간, Bruce protocol 6분과 3분 심박수 차이, 1,200 m 달리기 기록 등이었다. 신체자료와 최대하 운동 중 대사반응을 이용하여 최대산소섭취량을 산출하는 모형을 개발하기 위하여 다중회귀분석을 실시하였다. 모든 변수를 동시투입법으로 분석한 전체모형의 R은 0.642이고(p<.01) 추정의 표준오차(SEE)는 4.38 ㎖/kg/min, 변동계수(CV)는 10.8%이었으나(p<.01), 다중공선성이 나타났다. 단계별분석법으로 분석한 3분모형1과 모형2의 R은 0.341과 0.461이고, SEE는 6.05와 5.72 ㎖/kg/min, CV는 14.9와 14.1%로 나타났고(p<.01), 다중공선성이 나타나지 않았다. 6분모형1과 모형2의 R은 0.350과 0.456이었고(p<.01), SEE는 6.03과 5.74 ㎖/kg/min, 변동계수(CV)는 14.9와 14.2%로 나타났으며(p<.01), 다중공선성이 나타나지 않았다. 6분HR-3분HR 모형의 R은 0.150, HR150모형은 0.151, HR170모형은 0.154로 나소 낮게 나타났고, SEE는 6.36~6.37 ㎖/kg/min으로 유사하게 나타났고, CV도 15.7%로 유사하게 나타났다. 1,200 m 달리기 모형의 R은 0.444이고, SEE는 4.82 ㎖/kg/min, CV는 11.9%로 나타났다. 결론적으로 Bruce protocol을 이용하여 실시한 최대산소섭취량 추정 방법 중 실용적인 유용성과 간편성을 고려하면 대사반응을 이용한 6분모형과 3분모형이 적합한 모형으로 나타났고, 심박수 모형과 달리기 모형은 추정의 정확도가 다소 낮게 나타났다.

수렴다중촬영기법을 이용한 새로운 절리방향 해석방법 (A New Algorithm for the Interpretation of Joint Orientation Using Multistage Convergent Photographing Technique)

  • 김재동;김종훈
    • 터널과지하공간
    • /
    • 제13권6호
    • /
    • pp.486-494
    • /
    • 2003
  • 본 암반사면에서 절리의 방향성을 측정할 때, 조사자가 접근 불가능한 경우나 조사선을 설정하기 어려운 경우가 종종 나타난다. 본 연구에서는 이와 같은 한계성과 단점을 보완하기 위하여 해석 대상 암반사면의 영상으로부터 절리면의 방향성을 유도하는 새로운 알고리즘을 개발하였다. 암반사면 영상을 얻는 방법으로는, 영상 조합쌍 사이의 중첩구간인 영상측정 범위를 최대한 확보하고, 평행스테레오 사진측량시스템과 같은 기존방법이 갖고 잇는 촬영방향의 제한을 극복하기 위해, 수렴 다중 촬영 시스템을 적용하였다. 해석 방법의 주된 요소인 공선조건식의 사진기 요소를 결정하기 위하여, 3점의 지상조절점과 새롭게 1점의 지상보조점을 도입하는 방법을 개발하였다. 이는 수많은 지상조절점과 복잡한 해석과정으로 구성된 기존의 사진기 요소 결정방법에 비해 매우 간편한 방법이라고 할 수 있다. 절리면의 방향성은 절리면 위에 놓인 여러 점들의 공간좌표를 영상좌표로부터 계산한 후, 이로부터 구성한 절리면의 법선 벡터에 의해 유도하였다.

산학협력 밀착도, 협력도 구성변수가 만족도에 미치는 영향 분석 (Impact analysis of Industrial-University cooperation adherency degree and cooperation degree configuration variable on satisfaction)

  • 김영부
    • 한국산학기술학회논문지
    • /
    • 제17권9호
    • /
    • pp.359-368
    • /
    • 2016
  • 21세기에 들어 우리나라 대학교육체제는 혁신과 변화의 국면에 놓여 있다. 이러한 상황에서 주목하는 바는 산학협력이다. 대학과 산업간의 상호관계를 통해 공진화하는 산학협력 생태계를 조성해 나가는 것이 서로의 목표가 되어야 한다. 따라서 산학협력의 관계도를 측정하는 것이 중요시되며, 산학협력의 최종결과물인 성과도 어떻게 측정해야 바람직한지가 중요하다. 본 논문은 교육부가 평가실시하고 있는 산학협력관계 측정지표인 밀착도, 협력도, 만족도를 대상으로 산학협력의 성과를 기업의 만족도로 설정하고, 산학협력 만족도에 영향을 미치는 상호관계를 밀착도와 협력도로 측정하였다. 따라서 본 연구에서는 대학과 기업 간의 산학협력관계요인에 따른 산학협력 만족도에 영향력을 분석하기 위하여 회귀방정식을 통한 분석을 시도하였다. 더불어 다중회귀분석을 하기 전에 다중공선성 문제를 사전 점검한 결과, 다중공선성 문제는 낮은 것으로 나타났다. 특히, 만족도 변수는 어느 항목으로 설정할 수 있는 종속변수이지만 여기서는 5개의 개별 변수로 다차원의 종속변수를 구성하고, 이들 각 개별 종속변수인 만족도에 밀착도 변수 구성변인과 협력도 구성변인이 어느 정도 영향관계를 형성하고 있는지를 분석하였다. 그 결과, 지역맞춤형 프로그램 실현정도가 가장 유의미한 변수로 나타났고. 산학협력을 통해 양성된 인력 만족도에 영향을 미치는 가장 큰 요인은 교육/연구/기술지도 등 지역의 여건에 적합한 프로그램 실현정도로 나타났다.

저류함수법의 매개변수 산정식 개발 (Development of Empirical Formulas for Storage Function Method)

  • 최종남;안원식;김태균;정건희
    • 한국방재학회 논문집
    • /
    • 제9권5호
    • /
    • pp.125-130
    • /
    • 2009
  • 한강의 홍수예경보에 자주 사용되고 있는 저류함수법은 강우-유출관계의 비선형성을 고려한 적용성이 뛰어난 모형이지만, 우리나라의 지형특성을 고려한 매개변수 산정식이 존재하지 않아 실무에서 유역별, 사상별 매개변수 추정에 많은 노력과 시간을 투자하고 있는 실정이다. 그러므로 본 연구에서는 다중회귀분석을 이용하여 한강유역의 저류함수법 매개변수를 계산하기 위한 공식을 유도하여 저류함수법의 적용성을 높이고자 하였다. 상관분석을 통하여 다중회귀분석의 독립변수로는 유역의 유역면적, 하천경사, 유로연장이 사용되도록 결정되었으며, 다중공선성을 가지고 있는 독립변수들을 제거하고, 독립변수의 수를 달리하면서 한강유역 내 30개 소유역에 대해 일반화된 매개변수 산정식을 유도하였다. 제안된 회귀식은 모형의 개발에 사용되지 않은 한강유역 내 다른 지점인 문막수위표의 강우에 적용하여 그 적용성을 검증하였다. 제안된 회귀식을 한강공식이라고 명하고, 이는 한강유역 내에 홍수예경보나 유출계산에 저류함수법 적용 시 유용한 자료로 활용하고자 하였다.

도로포장 반응모형에 대한 통계모형 개발 (A Development of Statistical Model for Pavement Response Model)

  • 이문섭;박희문;김부일;허태영
    • 한국산업정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.89-96
    • /
    • 2012
  • 도로포장 반응모형의 구축을 위하여 새로운 방법론으로 부분최소제곱회귀모형의 활용성을 소개하고 실제 FWD 실험자료에 적용시켰다. 실증분석 결과 일반 다중회귀모형에서 발생된 다중공선성 문제를 부분최소제곱회귀모형을 통하여 해결방안을 제시하였으며, 변환된 자료가 아닌 원시자료를 이용하여 모형을 구축할 수 있다는 장점도 가지고 있다.

다중회귀분석을 이용한 미계측 유역의 갈수유량 산정에 관한 연구 (A Study on Estimation of Lowflow Ungauged Basin Using Multiple Regression Analysis)

  • 임가균;정세진;김병식
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.133-133
    • /
    • 2020
  • 갈수량이란 1년 중 355일은 유지되는 유량을 말하며 물 공급 계획 및 관리, 저수지 설계, 관개용수의 수량과 수질 관리, 생태계 보존 등에 있어서 갈수량의 크기와 빈도를 파악하는 것은 매우 중요한 과정이다. 갈수량 산정을 위해서는 오랜 기간의 관측 일유량 자료가 필요하지만 우리나라의 경우 관측 유량 자료의 결측자료가 많아 갈수량 산정에 필요한 장기간의 자료가 부족하다. 따라서 본 연구에서는 전국 40개 중권역 유역을 대상으로 갈수 빈도별 갈수량 산정 회귀식 개발을 수행하였다. 갈수량 산정에 적용할 수 있는 18개의 유역인자와 4개의 수문 인자를 상관분석을 통해 다중공선성을 고려하였으며 상관분석 결과를 토대로 미계측 유역에 적용 가능한 인자를 선정하였다. 갈수 빈도 분석과 단계적 회귀분석을 통하여 미계측 유역에 적용할 수 있는 갈수 빈도별 갈수량 산정 회귀식을 개발하였다. 또한 계측 유역을 미계측 유역으로 가정하여 개발된 갈수량 산정 회귀식을 이용하여 갈수량을 산정하고 분석 결과와 실제 갈수량을 비교하여 개발된 회귀식의 적정성을 검토하였다.

  • PDF