• 제목/요약/키워드: 다중 공선성

검색결과 122건 처리시간 0.036초

주성분분석(PCA)을 이용한 출입인원관리에 대한 보안성 확보 방안 (A Way of Securing the Access By Using PCA)

  • 김민수;이동휘
    • 융합보안논문지
    • /
    • 제12권3호
    • /
    • pp.3-10
    • /
    • 2012
  • 본 연구는 주성분 분석을 통하여 출입인원에 대한 보안성을 확보방안을 제시하기 위함이다. 데이터를 수집하기 위해 K센터(IPS) 보안등급 A~E 출입구역 출입데이터를 바탕으로 BoxPlot와 주성분분석으로 통해 연구결과를 도출하였다. 주성분 분석을 수행하기 전에 공통성의 추출값에 대하여 다중공선성을 측정한 값인 분산팽창인수(VIF)가 2.902 이하이므로 주성분분석을 해석하는데 문제가 없음을 확인하였다. 이를 바탕으로 주성분 분석을 실시하여 제 1 주성분의 고유값 1.453, 제 2주성분의 고유값 1.283, 제 3 주성분의 고유값 1.142을 바탕으로 보안등급별 인원을 나누어 본 결과를 바탕으로 보안등급별 인원을 Green-list, Blue-list, Red-list, Black-list로 구분하였다.

머신러닝기법을 이용한 산사태 발생인자의 영향도 분석 (Machine-Learning Evaluation of Factors Influencing Landslides)

  • 박성용;문성우;최재완;서용석
    • 지질공학
    • /
    • 제31권4호
    • /
    • pp.701-718
    • /
    • 2021
  • 본 연구에서는 산사태가 다수 발생한 충주 산척면 지역을 대상으로 야외지질조사 및 일련의 실내시험을 수행하여 데이터를 취득하고, 이후 인공신경망(Artificial neural network)과 로지스틱 회귀분석(Logistic regression)을 적용하여 각 인자가 산사태 발생에 미치는 영향도를 분석하였다. 야외지질조사 시 산사태 발생 유무에 따라 불교란시료를 채취하였으며, 동적 콘 관입시험기를 이용하여 토심을 측정하였다. 실내시험은 미국 표준시험법인 ASTM 규정에 따라 진행되었으며, 인자간 다중공선성을 해결하기 위해 VIF(Variation inflation factor)를 산정하였다. 다중공선성 분석을 통해 총 9개 인자(전단강도, 암종, 토심, 포화함수비, 비중, 투수계수, USCS, 사면 경사, 고도)가 분석에 적용되었다. 추후 도출되는 각 인자별 영향도를 직접적으로 비교하기 위해서 데이터는 최소값 0, 최대값 1이 되도록 최소-최대 정규화한 후 로지스틱 회귀분석 및 인공신경망 분석에 적용되었다. 로지스틱 회귀분석 결과, 토심, 경사, 포화함수비, 전단강도 순으로 산사태 발생에 영향력이 크게 나타났으며, 인공신경망 분석 결과, 경사, 토심, 포화함수비, 전단강도 순으로 영향력이 크게 나타났다. 각 분석기법으로 산정된 영향도를 산술평균한 결과, 토심, 경사, 포화함수비, 전단강도가 상위 4개 인자로 선정되었으며, 이들의 영향도 합계는 약 70%로 분석되었다.

한국에서 동아시아 난대 목본식물의 잠재분포 가능성 평가 (Assessment of Potential Distribution Possibility of the Warm-Temperate Woody Plants of East Asia in Korea)

  • 이철호;김휘래;조강현;최병기;이보라
    • Ecology and Resilient Infrastructure
    • /
    • 제9권4호
    • /
    • pp.269-281
    • /
    • 2022
  • 기후변화에 따라서 식생과 식물종의 분포 변화를 예측하는 것이 생태계 관리에서 중요하다. 본 연구에서는 동아시아의 난대 목본식물종의 한반도 분포 가능성을 체계적으로 평가할 수 있는 방안을 개발하고자 하였다. 먼저 중국과 일본에서는 분포하지만 한국에는 분포하지 않은 난대 목본식물종의 목록을 수집하고 그들의 전지구적 분포와 생물기후 자료를 수집하였다. 또한 한국의 난대식생대를 한랭지수를 이용하여 구분하고 이 지역의 기후 정보를 수집하였다. 기후 변수들 사이의 상관분석으로 다중공선성을 배제하고 분포에 영향을 미치는 기후변수로서 최한사분기 평균기온, 평균온도일교차 및 연강수량이 선택되었다. 동아시아 난대 목본식물종의 분포지와 한국 난대식생대의 3가지 기후 변수 사이의 유사도를 산출하기 위하여 다변량 환경 유사도 표면 (MESS) 분석을 실시하였다. 최종적으로 단계적 변수선택 회귀로 MESS 유사도 지수에 영향을 미치는 주요 기후변수로서 최한사분기 평균기온과 연강수량을 선별하였다. 선택된 2 변수로 구성된 다변량 일차회귀에서 최한사분기 평균기온이 전체 변이의 88%를 차지하였다. 총 319 동아시아 난대 목본식물종에 대하여 MESS 유사도 지수를 산출하는 구축된 다변량 회귀식을 적용하여 이들이 한국에 잠재분포 할 가능성을 평가할 수 있었다.

구조방정식과 로지스틱 회귀분석을 이용한 임도비탈면 산사태의 주요 영향인자 선정 (Major Factors Influencing Landslide Occurrence along a Forest Road Determined Using Structural Equation Model Analysis and Logistic Regression Analysis)

  • 김형신;문성우;서용석
    • 지질공학
    • /
    • 제32권4호
    • /
    • pp.585-596
    • /
    • 2022
  • 본 연구는 충주시 산척면 상산마을 일대 임도 비탈면을 대상으로 지질 및 지형 인자 중 산사태 발생에 영향력이 큰 인자를 선정하기 위하여 수행되었다. 연구지역은 집중호우 기간에 반경 2 km 이내에서 집중적으로 다수의 산사태가 발생했기 때문에 동일 강우조건 및 식생 조건으로 가정할 수 있다. 따라서 이들의 영향을 배제한 상태로 지형적 요인 및 토층의 물리·역학적 특성과 관련된 인자들만의 영향도를 파악할 수 있는 지역이다. 산사태 발생지점 37개소와 미발생 지점 45개소를 대상으로 현장조사, 실내시험, 지형 공간분석 등을 통해 토층의 물리·역학적 자료 및 비탈면의 지형 자료를 수집하였다. 수집된 자료를 대상으로 이상치 제거, 최소-최대 정규화, 다중공선성 진단의 순으로 전처리를 수행하였고, 9개의 독립 변수를 선정한 후 구조방정식 모형분석과 로지스틱 회귀분석을 실시하였다. 통계학적 분석 결과, 토층두께, 공극률 및 포화단위중량이 연구지역의 산사태 발생에 크게 영향을 미친 것으로 파악되며, 상기 3개 인자의 영향도 합계는 구조방정식 모형분석에서 전체의 71%, 로지스틱 회귀분석에서 전체의 83%를 차지하는 것으로 분석되었다.

방화 발생에 영향을 미치는 요인에 관한 연구 (A Study on the Factors Affecting the Arson)

  • 김영철;박우성;이수경
    • 한국화재소방학회논문지
    • /
    • 제28권2호
    • /
    • pp.69-75
    • /
    • 2014
  • 본 연구에서는 방화발생에 영향을 미치는 요인을 도출하기 위하여 발생건수를 종속변수로 하고 경제 인구 사회적 요인을 독립변수로 하는 다중회귀분석을 실시하였다. 다중회귀분석은 선형함수, 준로그함수, 역준로그함수, 이중로그함수 4가지 함수형태에 대해 적용하였으며, 각 단계별로 변수의 선택과 제외를 고려하는 단계적선택 방식을 적용하였다. 다중공선성 문제와 자기상관 문제를 해결하기 위하여 분산확대지수(VIF)와 Durbin-Watson 계수 이용하였으며, 4가지 함수모형에 대하여 수정된 R 제곱(설명력) 값이 0.935 (93.5%)로 가장 값이 높고 통계적으로 유의한 선형함수모형을 최적의 모형으로 결정하고 모형에 대한 해석을 진행하였다. 선형함수모형 결과 방화발생에 영향을 미치는 요인은 범죄발생건수(0.829), 일반이혼율(0.151), 재정자주도(0.149), 소비자물가상승률(0.099) 순으로 도출되었다.

미계측 유역의 기후변화 영향평가를 위한 수문모형 매개변수의 지역회귀분석 적용 (Applying regional regression analysis of the hydrologic model parameters for assessing climate change impacts in the ungaged watershed)

  • 김영일;서승범;김성진;김영오
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.219-219
    • /
    • 2017
  • 상대적으로 유역의 관측 자료가 충분하지 못하거나 검증되지 않았을 경우 미계측 유역으로 정의되며 수문모형의 매개변수 검정을 할 수 없으므로 다른 방법을 고안해야 한다. 이를 위해 기존 연구에서는 지역적 특성을 고려한 지역회기분석을 통해 미계측 유역의 유량을 산정하였는데, 대부분 유역의 특성과 연 평균 유출량 자료의 관계를 이용한 회귀식으로 실시간 유량의 변화를 고려하기 어려웠다. 본 연구에서는 개념적 강우-유출모형으로 많이 사용되고 있는 개념적 수문모형인 GR4J의 매개변수에 대해 미계측 유역의 특성을 고려한 변수들을 이용하여 회귀식을 구하고 그 적용성을 평가하였다. 이를 통해 미계측 유역의 유량 시계열 자료를 생성할 수 있었다. 또한 IPCC에서 발간한 AR5의 RCP 4.5 시나리오를 적용하여 미래 유출량을 산정하였다. 우선 지역회귀분석을 적용하기 위해 수문모형을 이용한 계측 유역의 유출량을 구하였으며 22개의 전국 댐 상류 지점을 기준으로 SCE 알고리즘을 이용하여 GR4J의 최적 매개변수를 구하고 각 유역별로 물리적, 지형적, 기상학적 특성을 고려하여 11개의 변수를 선택하였다. 각 변수간 다중공선성(Multicollinearity)를 고려하기 위해 VIF(Variation Inflation Factor) test를 적용하여 최종 7개의 변수를 선정하고 단계별 회귀방법(Stepwise regression)을 이용하여 GR4J의 매개변수별 회귀식을 생성하였다.

  • PDF

대기분진에 의한 건강영향 (Health Effects of Ambient Perticulate Pollutants)

  • 홍윤철;조수헌
    • Journal of Preventive Medicine and Public Health
    • /
    • 제34권2호
    • /
    • pp.103-108
    • /
    • 2001
  • 대기분진의 영향을 분석한 역학적 연구들은 분석방법의 오류, 생물학적인 타당성, 혼란변수의 통제 등 여러 가지 제한점들을 갖고 있기 때문에 이를 해석할 때 주의를 요한다. 그러나 대기분진역학연구들이 여러 가지 다른 연구방법과 자료원, 그리고 분석기법 등을 적용하였는데도 불구하고 연구결과간에 일치성이 매우높기 때문에 대기분진의 인체효과에 대한 연구결과가 일정한 방법론적인 또는 분석상의 오류에 의해서 나타났을 가능성은 거의 없다. 역학적 연구들이 생물학적인 타당성에 대한 상세한 근거를 제시하기는 어렵지만 서로 다른 연구들의 결과가 호흡기질환 및 심혈관계질환에 대한 건강영향을 나타내고 있으나 기타 질환에 대해서는 의미있는 결과들이 거의 없다는 것은 대기분진이 호흡기질환 및 심혈관계질환에 미치는 생물학적인 기전의 근거를 강하게 나타낸다고 할 수 있다. 대기분진 역학연구의 또 다른 중요한 관심사는 혼란변수의 통제 문제이다. 혼란변수란 노출과 질병에 서로 연관되어 있는 다른 위험인자가 분석에서 적절하게 통제되지 못하였을 때 이로 인하여 대기분진과 건강영향의 관련성이 잘못 나타나는 것을 말한다. 그러나 역시 서로 다른 연구들에서 여러 가지 혼란변수가 관련성에 영향을 미쳤다면 여러 지역의 다양한 연구에서 일정한 결과를 제시하기는 어려웠을 것이므로 대기분진과 건강영향의 관련성이 혼란변수의 부적절한 처리 때문에 나타난 것이라고 보기는 어렵다. 물론 대기분진 이외의 가스상 오염 물질이 같이 존재하고 또 서로간의 상관성이 매우 높기 때문에 이러한 대기오염 물질의 영향을 완전히 통제한 상태에서 대기분진만의 영향을 관찰한다는 것은 매우 어려운 일이다. 따라서 다중 공선성의 문제나 교차효과의 문제 등이 앞으로 대기분진 역학연구의 과제일 것이다. 결론적으로, 대기분진이 사망률 및 병원 내원율 등에 미치는 영향은 확립되었다고 보아도 될 것이다. 또한 우리나라의 연구들을 통하여 대기분진의 건강영향은 예외 없이 우리에게도 나타나는 문제라는 것을 확인하였다. 그러나 이러한 역학적 관련성에 대한 성과에도 불구하고 발생기전의 평가, 감수성 인구집단의 확인, 예방 및 관리 대책 마련 등 앞으로 해야 할 과제가 많이 남아있다.

  • PDF

커터수명지수 예측을 위한 다중선형회귀분석과 트리 기반 머신러닝 기법 적용 (Application of Multiple Linear Regression Analysis and Tree-Based Machine Learning Techniques for Cutter Life Index(CLI) Prediction)

  • 홍주표;고태영
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.594-609
    • /
    • 2023
  • TBM 공법은 굴착면 안정성 확보 및 주변환경에 비치는 영향을 최소화하기 때문에 도심지나 하·해저터널 등에서 적용 사례가 증가하는 추세이다. 디스크 커터의 수명을 예측하는 대표적인 모델 중 NTNU모델은 커터수명지수(Cutter Life Index, CLI)를 주요 매개 변수로 활용하지만 복잡한 시험절차와 시험장비의 희귀성으로 측정에 어려움이 있다. 본 연구에서는 다중선형회귀분석과 트리 기반의 머신러닝 기법으로 암석물성을 활용하여 CLI를 예측하였다. 문헌 조사를 통해 암석의 일축압축강도, 압열인장강도, 등 가석영함량과 세르샤 마모지수 등을 포함한 데이터베이스를 구축하였고 파생변수를 계산하여 추가하였다. 다중선형회귀분석은 통계적 유의성과 다중공선성을 고려하여 입력 변수를 선정하였고 머신러닝 예측 모델은 변수 중요도를 기반으로 입력 변수를 선정하였다. 학습용과 검증용 데이터를 8:2로 나누어 모델 간 예측 성능을 비교한 결과 XGBoost가 최적의 모델로 선정되었다. 본 연구에서 도출된 다중선형회귀모델과 XGBoost모델을 선행 연구와 예측 성능을 비교하여 타당성을 확인하였다.

파라메트릭 방법(Parametric Method)을 이용한 사업초기 단계의 공사비 예측 방법 (Cost Estimating in Early Stage Using Parametric Method for Apartment Construction Projects)

  • 성기훈;박문서;이현수;지세현
    • 한국건설관리학회:학술대회논문집
    • /
    • 한국건설관리학회 2008년도 정기학술발표대회 논문집
    • /
    • pp.207-211
    • /
    • 2008
  • 국내 건설산업은 급격한 시장변화와 경쟁심화의 과정을 겪으면서 프로젝트 초기 단계의 예산 집행 및 관리의 중요성이 증가하고 있다. 설계 완료 이후의 단계에서 조정 가능한 비용은 20%에 불과하기 때문에, 프로젝트 초기 단계에서 중요한 의사결정이 이루어진다. 하지만 초기 단계에서의 의사결정은 설계정보가 확정되지 않고, 정보가 한정되는 등 불확실성 하에서 이루어진다. 이에 따라, 본 연구는 프로젝트 초기 단계의 정확한 비용 예측을 목적으로 parametric method를 사용하여 공사비 예측 방법을 제안하였다. Parametric method를 이용한 공사비 예측 방법은 프로젝트 초기단계에 사용하기에 적합하며, 특히 신속하게 공사비 예측을 할 수 있다는 장점을 지닌다. 국내 아파트 9개 단지 $11{\sim}15$층 규모의 총 84개동 공공아파트 실적자료를 분석하여 공사비와 영향요인간 상관관계 분석을 실시하였다. 다중공선성 문제를 야기하는 변수를 제거한 후, 다중회귀분석을 통하여 공사비 예측 관계식을 도출하였다.

  • PDF

딥러닝과 머신러닝을 이용한 아파트 실거래가 예측 (Apartment Price Prediction Using Deep Learning and Machine Learning)

  • 김학현;유환규;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.59-76
    • /
    • 2023
  • 코로나 시대 이후 아파트 가격 상승은 비상식적이었다. 이러한 불확실한 부동산 시장에서 가격 예측 연구는 매우 중요하다. 본 논문에서는 다양한 부동산 사이트에서 자료 수집 및 크롤링을 통해 2015년부터 2020년까지 87만개의 방대한 데이터셋을 구축하고 다양한 아파트 정보와 경제지표 등 가능한 많은 변수를 모은 뒤 미래 아파트 매매실거래가격을 예측하는 모델을 만든다. 해당 연구는 먼저 다중 공선성 문제를 변수 제거 및 결합으로 해결하였다. 이후 의미있는 독립변수들을 뽑아내는 전진선택법(Forward Selection), 후진소거법(Backward Elimination), 단계적선택법(Stepwise Selection), L1 Regularization, 주성분분석(PCA) 총 5개의 변수 선택 알고리즘을 사용했다. 또한 심층신경망(DNN), XGBoost, CatBoost, Linear Regression 총 4개의 머신러닝 및 딥러닝 알고리즘을 이용해 하이퍼파라미터 최적화 후 모델을 학습시키고 모형간 예측력을 비교하였다. 추가 실험에서는 DNN의 node와 layer 수를 바꿔가면서 실험을 진행하여 가장 적절한 node와 layer 수를 찾고자 하였다. 결론적으로 가장 성능이 우수한 모델로 2021년의 아파트 매매실거래가격을 예측한 후 실제 2021년 데이터와 비교한 결과 훌륭한 성과를 보였다. 이를 통해 머신러닝과 딥러닝은 다양한 경제 상황 속에서 투자자들이 주택을 구매할 때 올바른 판단을 할 수 있도록 도움을 줄 수 있을 것이라 확신한다.