• 제목/요약/키워드: Multicollinearity

검색결과 175건 처리시간 0.02초

일반화 가법 모형을 이용한 전주 외력 모델링 (A Model-Fitting Approach of External Force on Electric Pole Using Generalized Additive Model)

  • 박철영;신창선;박명혜;이승배;박장우
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권11호
    • /
    • pp.445-452
    • /
    • 2017
  • 전주(Electric Pole)는 전력 송/배전에 사용되는 지지물로 외력 측정을 위해 가속도 센서가 이용된다. 기상현상은 전주의 외력에 다양한 영향을 미친다. 가공전선의 탄성변화가 그중 하나이다. 이러한 이유로 전주에 미치는 기상현상 요인을 모델링 하는 것은 매우 중요하다. 가속도 센서로부터 수신된 데이터는 피치(Pitch)와 롤(Roll) 각도로 변환되어 수신된다. 기상 현상은 변수간 상관관계가 높게 나타나며, 모델링을 위해 유의한 설명변수를 선택하는 것은 과대적합(Over Fitting)의 문제에서 매우 중요한 요소이다. 다중공선성(Multicollinearity)을 고려한 설명력이 높은 모델 구축을 위해 기계학습 방법의 하나인 일반화 가법 모형(Generalized Additive Model)을 사용했다. 모델 구축에 사용된 기상 요인 변수는 온도, 습도, 강수량, 풍속, 풍향, 증기압, 대기압, 노점온도, 일조시간, 일사량, 운량이다. 분산 팽창 요인 검증을 수행한 결과 온도, 강수량, 풍속, 풍향, 대기압, 노점온도, 일조시간, 운량의 변수가 선택됐다. 설명변수중 일조시간, 운량, 대기압의 영향도가 높게 나타났으며, 일반화 가법 모형의 평균 결정계수(R-Squared)는 0.69로 유의한 모델을 구축했다. 구축된 모델은 전주 외력의 영향을 예측하는데 도움이 될 수 있을 것이며, 안전성 확보의 목적에 기여할 수 있을 것이라 생각한다.

채소 주산지에 대한 서리발생예측 연구 (A Study on Frost Occurrence Estimation Model in Main Production Areas of Vegetables)

  • 김용석;허지나;심교문;강기경
    • 한국지구과학회지
    • /
    • 제40권6호
    • /
    • pp.606-612
    • /
    • 2019
  • 채소작물과 과수작물의 생육에 악영향을 미치는 서리발생을 미리 예측하기 위해 모형을 구축하고 채소 주산지에 적용해 보았다. 서리 발생 전날에 관측되는 다양한 기상인자들(최저기온, 18시 기온, 21시 기온, 24시 기온, 평균풍속, 18시 풍속, 21시 풍속, 구름량, 5일간 강수량, 3일간 강수량, 상대습도, 이슬점온도, 초상최저기온, 지면온도)을 수집하고, 그 중에서 서리발생에 유의한 영향이 있다고 판단되는 변수들을 통계적 방법(T-test, Random Forest, Multicollinearity test, Akaike Informaiton Criteria, 그리고 Wilk's lambda values)을 통해 선택하였다. 여러 통계적 방법을 통해 선택된 유의한 기상 인자는 24시 기온, 구름량, 이슬점온도, 21시 풍속 이였으며, 이 기상인자를 기계학습법의 한 종류인 랜덤 포레스트에 적용하여 서리 발생 예측 모형을 구축하였다. 이렇게 구축 된 서리 발생예측 모형의 정확도는 70.6%로 나타났으며, 이 모형을 가을배추와 가을무의 주산지인 홍성과 서산에 적용하였을 때 65.2%와 78.6%로 나타났다.

빅데이터 분석을 활용한 마늘 생산에 미치는 날씨 요인에 관한 영향 조사 모형 개발 (Development of Examination Model of Weather Factors on Garlic Yield Using Big Data Analysis)

  • 김신곤
    • 한국산학기술학회논문지
    • /
    • 제19권5호
    • /
    • pp.480-488
    • /
    • 2018
  • 정보통신 기술의 발전으로 농업분야에서도 다량의 데이터로부터 가치 있는 정보를 생성하고 그 활용을 위해 빅데이터 기술을 적용하는 연구가 활발히 진행되고 있다. 농업에서 재배 가능한 작물과 품종은 기온, 강수량, 일조시간 등의 자연환경의 영향에 따라 결정된다. 본 논문은 마늘의 생육과정과 일별로 측정되는 기상변수를 활용하여 농작물 생산에 영향을 미치는 기상기후 요인을 도출하고 마늘을 대상으로 단위면적당 생산량 예측(단수) 모형을 도출하였다. 기상변수는 마늘의 생육단계를 고려하여 빅데이터 분석 기법을 이용하였다. 탐색적 자료 분석과정에서는 통계청, 농촌진흥청, 농촌경제연구원으로부터 생산량, 도매시장 반입량, 생육 데이터 등 다양한 농산물 생산 데이터를 제공받아 활용하였다. 또한 기상청으로부터 AWS, ASOS, 특보현황 등 다양한 기상관측 데이터를 수집하여 활용하였다. 상관관계 분석 과정은 변수선택, 후보모형 도출, 모형진단, 시나리오 예측 등을 통해 도출한 모형의 모형 적합도와 생산량 예측력을 비교하여 마늘생산단수예측 모형을 설계하였다. 수많은 기상요인 변수는 요인분석을 이용하여 차원을 감소시키고 설명변수로 선정하였다. 이 방법을 이용함으로써 회귀분석에서 발생할 수 있는 다중공선성과 낮은 자유도의 문제를 효과적으로 통제할 수 있었으며 회귀분석의 적합도와 예측력을 높일 수 있었다.

GWL을 적용한 공간 헤도닉 모델링 (Spatial Hedonic Modeling using Geographically Weighted LASSO Model)

  • 진찬우;이건학
    • 대한지리학회지
    • /
    • 제49권6호
    • /
    • pp.917-934
    • /
    • 2014
  • 지리가중회귀 모델(GWR)은 국지적으로 이질적인 부동산 가격을 추정할 수 있는 도구로 폭넓게 활용되어 왔다. 그럼에도 불구하고 GWR은 공간적으로 이질적인 가격결정요인의 선택이나 국지적 추정에서의 관측치 수의 제한 등과 같은 한계를 가지고 있다. 본 연구는 이러한 한계를 극복하기 위한 대안으로 최근 주목받고 있는 지리가중라소 모델(GWL)을 이용하여 국지적으로 다양한 부동산 가격결정요인들을 탐색하고, 부동산 가격 추정에 있어서 GWL 모델의 적용가능성을 살펴보고자 한다. 이를 위해 서울시 아파트 가격을 대상으로 OLS, GWR, GWL의 헤도닉 모델을 구축하였으며, 모델의 설명력, 예측력, 다중공선성 측면에서 이들을 비교 분석하였다. 그 결과, 전역적 모델에 비해 국지적 모델이 전체적인 설명력, 예측력이 우수한 것으로 나타났으며, 특히 국지적 모델 중 GWL 모델은 다중공선성 문제를 자동적으로 해결하면서 공간적으로 이질적인 가격 결정요인 집합들을 도출하였고, 다른 모델들에 비해 상당히 높은 설명력과 예측력을 보여주고 있다. 본 연구에서 적용한 GWL 모델은 고차원의 데이터셋에서 유의미한 독립 변수들을 효율적으로 선정하는데 직접적인 도움을 줌으로써 부동산과 같이 대용량의 복잡한 구조를 가진 공간 빅데이터를 위한 유용한 분석 기법으로 활용될 수 있을 것이다.

  • PDF

폐액 중 프로필 글리콜 모노메틸 에테르 아세테이트(PGMEA) 회수하는 증류공정에서 회귀분석을 이용한 공정 최적화 (Process Optimization Using Regression Analysis of Distillation Processes for the Recovery of Propylene Glycol Monomethyl Ether Acetate (PGMEA) Containing Waste Organic Solvent)

  • 최용석;변헌수
    • Korean Chemical Engineering Research
    • /
    • 제53권2호
    • /
    • pp.181-192
    • /
    • 2015
  • 본 연구는 Liquid Crystal Display (LCD) 세척 후 발생하는 Propylene Glycol Monomethyl Ether Acetate (PGMEA)폐액 재활용을 위한 2기 증류탑을 사용하는 공정의 최적 조건을 산출하였다. 공정조건 최적화 기법으로 다중회귀분석을 이용하여 1차 증류 시 Bottom 온도(BTM 온도), Reflux 량, Feed 량 및 Feed 온도에 따라 PGMEA 함량에 대한 최적 조건과 2차 증류 시 BTM 온도, Reflux 량, Feed 량에 따른 PGMEA 함량에 대한 최적 조건과 공정인자를 산출하였다. 1차 증류탑의 공정인자 중 Reflux 량, Feed 온도 및 Feed 량이 중요한 인자로 산출되었다. 본 연구의 공정조건 범위에서는 BTM 온도범위가 PGMEA함량에 크게 영향을 주지 못하였다. 따라서 최적 공정 조건은 Feed 량 $5,700{\ell}$, Reflux 량 $2,500{\ell}$, BTM 온도 $165^{\circ}C$ 및 Feed 온도 $130^{\circ}C$이며 이때 예측된 PGMEA 함량은 92.12~94.62%로 산출되었다. 2차 증류탑에서는 Reflux 량이 함량에 많은 영향을 미치고 있으며, Feed 량과 BTM 온도도 영향을 미치는 인자로 산출되었다. 다중공선성(Multicollinearity)이 Reflux 량과 BTM 온도 간에 강한 양의 상관관계가 있어, 두 인자 중 다중회귀식에 영향이 지배적인 인자 하나를 선택하였으며, 최적조건은 BTM 온도 $199^{\circ}C$ 기준에서 최적 공정 조건은 Feed 량 $4,275{\ell}$ 및 Reflux 량 $6,200{\ell}$이며, 이때 예측 PGMEA 함량은 99.0~99.5%로 산출되었다.

산학협력 밀착도, 협력도 구성변수가 만족도에 미치는 영향 분석 (Impact analysis of Industrial-University cooperation adherency degree and cooperation degree configuration variable on satisfaction)

  • 김영부
    • 한국산학기술학회논문지
    • /
    • 제17권9호
    • /
    • pp.359-368
    • /
    • 2016
  • 21세기에 들어 우리나라 대학교육체제는 혁신과 변화의 국면에 놓여 있다. 이러한 상황에서 주목하는 바는 산학협력이다. 대학과 산업간의 상호관계를 통해 공진화하는 산학협력 생태계를 조성해 나가는 것이 서로의 목표가 되어야 한다. 따라서 산학협력의 관계도를 측정하는 것이 중요시되며, 산학협력의 최종결과물인 성과도 어떻게 측정해야 바람직한지가 중요하다. 본 논문은 교육부가 평가실시하고 있는 산학협력관계 측정지표인 밀착도, 협력도, 만족도를 대상으로 산학협력의 성과를 기업의 만족도로 설정하고, 산학협력 만족도에 영향을 미치는 상호관계를 밀착도와 협력도로 측정하였다. 따라서 본 연구에서는 대학과 기업 간의 산학협력관계요인에 따른 산학협력 만족도에 영향력을 분석하기 위하여 회귀방정식을 통한 분석을 시도하였다. 더불어 다중회귀분석을 하기 전에 다중공선성 문제를 사전 점검한 결과, 다중공선성 문제는 낮은 것으로 나타났다. 특히, 만족도 변수는 어느 항목으로 설정할 수 있는 종속변수이지만 여기서는 5개의 개별 변수로 다차원의 종속변수를 구성하고, 이들 각 개별 종속변수인 만족도에 밀착도 변수 구성변인과 협력도 구성변인이 어느 정도 영향관계를 형성하고 있는지를 분석하였다. 그 결과, 지역맞춤형 프로그램 실현정도가 가장 유의미한 변수로 나타났고. 산학협력을 통해 양성된 인력 만족도에 영향을 미치는 가장 큰 요인은 교육/연구/기술지도 등 지역의 여건에 적합한 프로그램 실현정도로 나타났다.

딥러닝 기반 분류 모델의 성능 분석을 통한 건설 재해사례 텍스트 데이터의 효율적 관리방향 제안 (A Suggestion of the Direction of Construction Disaster Document Management through Text Data Classification Model based on Deep Learning)

  • 김하영;장예은;강현빈;손정욱;이준성
    • 한국건설관리학회논문집
    • /
    • 제22권5호
    • /
    • pp.73-85
    • /
    • 2021
  • 본 연구는 딥러닝 기반의 텍스트 데이터 분류 모델의 성능 고찰을 통해 한국어 건설 재해사례의 효율적 관리방향을 제안한다. 이를 위해 비정형 텍스트 문서인 건설 재해 보고서를 활용해 건설 사고의 대표적 유형인 추락, 감전, 낙하, 붕괴, 협착의 5개 범주로 분류하는 딥러닝 모델을 구현하였다. 초기 모델 테스트 결과, 추락 재해의 분류 정확도가 상대적으로 높게 도출되며 타 유형을 추락 재해로 분류하는 경우가 많이 발생한다는 특징이 나타났다. 원인 분석 결과, 1) 구체적인 사고 유발 행동, 2) 유사한 문장 구조, 3) 여러 유형에 해당되는 복합사고가 위의 특징에 영향을 미치는 것으로 분석되었으며, 이 중 추가 실험을 통해 검증이 가능한 복합사고에 대한 두 가지 정확도 개선 실험을 진행하였다: 1) 재분류, 2) 제외. 실험 결과, 복합사고 제외 시 분류 성능이 185.7% 향상되었으며, 이를 통해 여러 사고 유형에 대한 내용을 동시에 포함하는 복합사고의 다중공선성(multicollinearity)이 해소되었음을 알 수 있다. 결론적으로 본 연구에서는 향후 사고에 대한 상황을 상세히 서술하는 체계를 마련함과 동시에 복합사고를 독립적으로 관리할 필요성을 시사한다.

한국에서 동아시아 난대 목본식물의 잠재분포 가능성 평가 (Assessment of Potential Distribution Possibility of the Warm-Temperate Woody Plants of East Asia in Korea)

  • 이철호;김휘래;조강현;최병기;이보라
    • Ecology and Resilient Infrastructure
    • /
    • 제9권4호
    • /
    • pp.269-281
    • /
    • 2022
  • 기후변화에 따라서 식생과 식물종의 분포 변화를 예측하는 것이 생태계 관리에서 중요하다. 본 연구에서는 동아시아의 난대 목본식물종의 한반도 분포 가능성을 체계적으로 평가할 수 있는 방안을 개발하고자 하였다. 먼저 중국과 일본에서는 분포하지만 한국에는 분포하지 않은 난대 목본식물종의 목록을 수집하고 그들의 전지구적 분포와 생물기후 자료를 수집하였다. 또한 한국의 난대식생대를 한랭지수를 이용하여 구분하고 이 지역의 기후 정보를 수집하였다. 기후 변수들 사이의 상관분석으로 다중공선성을 배제하고 분포에 영향을 미치는 기후변수로서 최한사분기 평균기온, 평균온도일교차 및 연강수량이 선택되었다. 동아시아 난대 목본식물종의 분포지와 한국 난대식생대의 3가지 기후 변수 사이의 유사도를 산출하기 위하여 다변량 환경 유사도 표면 (MESS) 분석을 실시하였다. 최종적으로 단계적 변수선택 회귀로 MESS 유사도 지수에 영향을 미치는 주요 기후변수로서 최한사분기 평균기온과 연강수량을 선별하였다. 선택된 2 변수로 구성된 다변량 일차회귀에서 최한사분기 평균기온이 전체 변이의 88%를 차지하였다. 총 319 동아시아 난대 목본식물종에 대하여 MESS 유사도 지수를 산출하는 구축된 다변량 회귀식을 적용하여 이들이 한국에 잠재분포 할 가능성을 평가할 수 있었다.

구조방정식과 로지스틱 회귀분석을 이용한 임도비탈면 산사태의 주요 영향인자 선정 (Major Factors Influencing Landslide Occurrence along a Forest Road Determined Using Structural Equation Model Analysis and Logistic Regression Analysis)

  • 김형신;문성우;서용석
    • 지질공학
    • /
    • 제32권4호
    • /
    • pp.585-596
    • /
    • 2022
  • 본 연구는 충주시 산척면 상산마을 일대 임도 비탈면을 대상으로 지질 및 지형 인자 중 산사태 발생에 영향력이 큰 인자를 선정하기 위하여 수행되었다. 연구지역은 집중호우 기간에 반경 2 km 이내에서 집중적으로 다수의 산사태가 발생했기 때문에 동일 강우조건 및 식생 조건으로 가정할 수 있다. 따라서 이들의 영향을 배제한 상태로 지형적 요인 및 토층의 물리·역학적 특성과 관련된 인자들만의 영향도를 파악할 수 있는 지역이다. 산사태 발생지점 37개소와 미발생 지점 45개소를 대상으로 현장조사, 실내시험, 지형 공간분석 등을 통해 토층의 물리·역학적 자료 및 비탈면의 지형 자료를 수집하였다. 수집된 자료를 대상으로 이상치 제거, 최소-최대 정규화, 다중공선성 진단의 순으로 전처리를 수행하였고, 9개의 독립 변수를 선정한 후 구조방정식 모형분석과 로지스틱 회귀분석을 실시하였다. 통계학적 분석 결과, 토층두께, 공극률 및 포화단위중량이 연구지역의 산사태 발생에 크게 영향을 미친 것으로 파악되며, 상기 3개 인자의 영향도 합계는 구조방정식 모형분석에서 전체의 71%, 로지스틱 회귀분석에서 전체의 83%를 차지하는 것으로 분석되었다.

Neural Network Analysis in Forecasting the Malaysian GDP

  • SANUSI, Nur Azura;MOOSIN, Adzie Faraha;KUSAIRI, Suhal
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제7권12호
    • /
    • pp.109-114
    • /
    • 2020
  • The aim of this study is to develop basic artificial neural network models in forecasting the in-sample gross domestic product (GDP) of Malaysia. GDP is one of the main indicators in presenting the macro economic condition of a country as set by the world authority bodies such as the World Bank. Hence, this study uses an artificial neural network-based approach to make predictions concerning the economic growth of Malaysia. This method has been proposed due to its ability to overcome multicollinearity among variables, as well as the ability to cope with non-linear problems in Malaysia's growth data. The selected inputs and outputs are based on the previous literatures as well as the economic growth theory. Therefore, the selected inputs are exports, imports, private consumption, government expenditure, consumer price index (CPI), inflation rate, foreign direct investment (FDI) and money supply, which includes M1 and M2. Whilst, the output is real gross domestic product growth rate. The results of this study showed that the neural network method gives the smallest value of mean error which is 0.81 percent with a total difference of 0.70 percent. This implies that the neural network model is appropriate and is a relevant method in forecasting the economic growth of Malaysia.