• 제목/요약/키워드: 다중선형회귀모델

검색결과 110건 처리시간 0.032초

다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가 (Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient)

  • 이선미;박인환
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

커터수명지수 예측을 위한 다중선형회귀분석과 트리 기반 머신러닝 기법 적용 (Application of Multiple Linear Regression Analysis and Tree-Based Machine Learning Techniques for Cutter Life Index(CLI) Prediction)

  • 홍주표;고태영
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.594-609
    • /
    • 2023
  • TBM 공법은 굴착면 안정성 확보 및 주변환경에 비치는 영향을 최소화하기 때문에 도심지나 하·해저터널 등에서 적용 사례가 증가하는 추세이다. 디스크 커터의 수명을 예측하는 대표적인 모델 중 NTNU모델은 커터수명지수(Cutter Life Index, CLI)를 주요 매개 변수로 활용하지만 복잡한 시험절차와 시험장비의 희귀성으로 측정에 어려움이 있다. 본 연구에서는 다중선형회귀분석과 트리 기반의 머신러닝 기법으로 암석물성을 활용하여 CLI를 예측하였다. 문헌 조사를 통해 암석의 일축압축강도, 압열인장강도, 등 가석영함량과 세르샤 마모지수 등을 포함한 데이터베이스를 구축하였고 파생변수를 계산하여 추가하였다. 다중선형회귀분석은 통계적 유의성과 다중공선성을 고려하여 입력 변수를 선정하였고 머신러닝 예측 모델은 변수 중요도를 기반으로 입력 변수를 선정하였다. 학습용과 검증용 데이터를 8:2로 나누어 모델 간 예측 성능을 비교한 결과 XGBoost가 최적의 모델로 선정되었다. 본 연구에서 도출된 다중선형회귀모델과 XGBoost모델을 선행 연구와 예측 성능을 비교하여 타당성을 확인하였다.

풍속 예측을 위한 선형회귀분석과 비선형회귀분석 기법의 비교 및 인자분석 (Comparison of Linear and Nonlinear Regressions and Elements Analysis for Wind Speed Prediction)

  • 김동연;서기성
    • 한국지능시스템학회논문지
    • /
    • 제25권5호
    • /
    • pp.477-482
    • /
    • 2015
  • 단기풍속 예측을 위한 진화적 선형 및 비선형 회귀분석 기반의 보정 기법을 비교한다. 모델의 체계적 오류를 교정하기 위한 효율적인 MOS(Model Output Statistics)의 개발이 필요하나, 기존의 선형회귀분석 기반의 보정기법은 다양한 기상요소의 복잡한 비선형 특성을 반영하기 힘들다. 이를 개선하기 위해서 유전 프로그래밍을 사용하여 풍속 예측에 대한 비선형 보정 수식을 생성하는 기법을 제안하고 기본 다중선형회귀분석법 및 Ridge, Lasso 회귀분석법과 비교한다. 더불어, 선형회귀분석법과 진화적 비선형회귀분석 기법의 인자 선택의 차이와 유사성을 비교하고 분석한다. 2007년~2013년의 KLAPS(Korea Local Analysis and Prediction System) 재분석자료를 사용하여 제주도와 부산지역의 격자점에 대한 실험을 수행한다.

경제지표를 활용한 다중선형회귀 모델 기반 국제 휘발유 가격 예측 (A study of Predicting International Gasoline Prices based on Multiple Linear Regression with Economic Indicators)

  • 한명은;김지연;이현희;김세인;박민서
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.159-164
    • /
    • 2024
  • 국내 석유 시장은 국제 석유 가격의 변동에 매우 민감하기 때문에 그 변동성에 대한 파악과 대처가 중요하다. 특히, 높은 소비량을 보이는 휘발유의 가격이 어떠한 요인에 인해 변화하는지 명확하게 파악하는 것이 필요하다. 국제 휘발유 가격은 휘발유 수급, 지정학적 사건, 미국 달러화 가치 변동 등 글로벌 요인에 영향을 받는다. 그러나 기존의 연구들은 휘발유의 수급에만 초점에 맞추어 진행하였다는 한계가 존재한다. 본 연구에서는 다양한 머신러닝 기반의 회귀 모델을 활용하여 거시적 경제지표와 국제 휘발유 가격 간의 인과관계를 탐색한다. 첫째, 다양한 세계 경제지표 데이터를 수집한다. 둘째, 데이터 전처리를 진행한다. 셋째, 다중선형회귀, Ridge 회귀, Lasso(Least Absolute Shrinkage and Selection Operator) 회귀 모델을 활용하여 모델링한다. 실험 결과, 테스트 데이터 셋에서 다중선형회귀 모델이 가장 높은 정확도(97.3%)를 보였다. 우리는 국제 휘발유 가격의 예측은 국내 경제 안정성과 에너지 정책 결정에 도움이 될 수 있을 것으로 기대한다.

선형회귀모델의 변수선택을 위한 다중목적 유전 알고리즘과 응용 (Multi-objective Genetic Algorithm for Variable Selection in Linear Regression Model and Application)

  • 김동일;박정술;백준걸;김성식
    • 한국시뮬레이션학회논문지
    • /
    • 제18권4호
    • /
    • pp.137-148
    • /
    • 2009
  • 본 논문의 목적은 신뢰성 있는 선형회귀모델을 구축하기 위하여 후보독립변수 중 유효변수를 선택하는 알고리즘을 구현하는 것이다. 선형회귀모델을 구축하는데 있어서 데이터 상의 모든 후보독립변수를 포함하는 것은 모델의 통계적 유의성을 감소시킬 수 있으며, 차원의 저주(Curse of dimensionality)를 유발할 수 있고, 데이터의 개수보다 변수의 개수가 많을 경우 모델의 구축이 불가능한 문제점 등이 있다. 이와 같은 문제점을 해결하기 위하여 변수선택의 문제를 조합최적화의 문제로 보고 유전 알고리즘(Genetic Algorithm)을 활용하였다. 일반적으로 선형회귀모델의 통계적 유의성을 평가하는 대표적인 통계량으로는 종속변수에 대한 독립변수의 설명력을 나타내는 결정계수($R^2$), 회귀식의 통계적 유의성을 검정하는 F통계량, 회귀계수의 통계적 유의성을 검정하는 t통계량, 잔차의 표준오차 등이 있다. 모델의 통계적 유의성은 하나의 통계량으로 표현될 수 없으므로 다양한 기준을 고려한 다중목적식(Multi-objective function)을 가지는 유전 알고리즘을 설계하였다. 설계한 알고리즘의 성능평가를 위하여 다양한 조건을 가정한 시뮬레이션 데이터에 적용하였다. 그 결과 구축한 알고리즘이 유효변수를 판단함에 있어 기존의 대표적인 변수선택 알고리즘인 LARS(Least Angle Regression)에 비해 우수한 성능을 보임을 확인할 수 있었다. 또한, 주가 데이터를 이용한 포트폴리오 선택에 적용해 본 결과 우수한 응용문제 해결 능력이 있음을 확인할 수 있었다.

인공신경망 기법을 이용한 사면의 내진성능평가 모델 제안 (A Propose on Seismic Performance Evaluation Model of Slope using Artificial Neural Network Technique)

  • 곽신영;함대기
    • 한국전산구조공학회논문집
    • /
    • 제32권2호
    • /
    • pp.93-101
    • /
    • 2019
  • 이 연구의 목적은 인공신경망 기법을 이용하여 사면의 내진 성능을 비교적 정확하면서도 효율적으로 예측하는 모델을 도출하는데 있다. 사면의 내진 성능은 지진입력 및 사면모델의 무작위성 및 불확실성으로 인하여 정량화하기 쉽지 않다. 이러한 배경 아래 사면에 대한 확률론적 지진 취약도 분석이 몇몇 연구자에 의해 수행되었고, 이를 기반으로 다중 선형회귀분석을 통하여 사면 내진성능에 대한 닫힌식이 제안된 바 있다. 그러나 전통적인 통계학적 선형회귀분석은 다양한 조건의 사면과 이에 따른 내진 성능 사이의 비선형적 관계를 정확하게 표현하지 못하는 한계를 보였다. 이에 따라 본 연구에서는 이러한 문제점을 극복하고자 인공신경망 기법을 사면 내진성능 예측 모델을 생성하는데 적용하였다. 도출된 모델의 유효성은 기존의 다중 선형 및 다중 비선형 회귀분석을 통한 모델과 비교하여 검증하였다. 결과적으로 이전 연구의 전통적인 통계학적 회귀 분석을 통한 모델과 비교 결과, 기본적으로 인공신경망 기법을 통하여 도출된 모델이 사면의 내진성능을 예측하는데 있어 우수한 성능을 보여주었다. 이러한 정확도 높은 모델은 향후 확률에 기반한 사면의 지진취약도 지도를 개발하고, 주요 구조물의 인근 사면으로 인한 리스크를 효과적으로 평가하는데 활용될 수 있을 것이라 기대된다.

딸기 수경 재배 환경에서의 다중 선형 회귀 모델 기반의 양액 적정 흡수량 분석 연구 (An Analysis Study for Optimal Uptake of Nutrient Solution Based on Multiple Linear Regression Model in Strawberry Hydroponic Environments)

  • 임종현;이명배;조현욱;신창선;박장우;조용윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.578-580
    • /
    • 2019
  • 우리 나라의 딸기 수경재배 면적은 2002년 5ha로 시작해서, 2007년에는 84ha, 2012년에는 317ha, 2017년에 1,575ha로 매년 30% 이상 급속하게 성장하고 있다. 이런 경향은 수경재배가 토양재배보다 작업이 용이하여 노동시간이 절약되며, 수량을 더 많이 생산할 수 있기 때문이다. 하지만, 공급양액을 배액으로 흘려버리는 비순환식 수경재배 방식이 증가 하면서 환경오염을 유발시킬 뿐만 아니라 수경재배 운영비용의 증가를 가져오고 있다. 본 논문은 작물 생장에 최적화된 양액공급을 위해 상관관계 분석 및 다중 선형 회귀 모델 기반의 딸기 수경재배 환경에서의 최적 양액 흡수량을 분석하고 추정해 보았다. 분석 결과, 수경재배 환경정보(일사량, 온도, 습도, CO2 등)를 대상으로 일사량 및 온도가 습도 및 CO2에 비해 딸기재배를 위한 양액 흡수량에 더 큰 영향을 주는 것으로 분석되었고, 다중 선형 회귀 모델을 통한 회귀식의 R-Square값은 0.358으로 나타났다.

인공신경망 기법을 이용한 태풍 강도 및 진로 예측 (Prediction of Tropical Cyclone Intensity and Track Over the Western North Pacific using the Artificial Neural Network Method)

  • 최기선;강기룡;김도우;김태룡
    • 한국지구과학회지
    • /
    • 제30권3호
    • /
    • pp.294-304
    • /
    • 2009
  • 북서태평양에서 발생한 태풍에 대해 발생 후 5일 동안 12시간 간격으로 태풍의 강도 및 진로를 예측할 수 있는 인공신경망 모델을 개발하였다. 사용되어진 예측인지는 CLIPER(발생 위치 강도 일자), 운동학적 파라미터(연직바람시어, 상층발산, 하층상대와도), 열적 파라미터(상층 상당온위, ENSO, 상층온도, 중층 상대습도)로 구성되어졌다. 예측인자의 특성에 따라 일곱개의 인공신경망 모델들이 개발되었으며, CLIPER와 열적 파라미터가 조합된(CLIPER-THERM) 모델이 가장 좋은 예측성능을 보였다. 이 CLIPER-THERM 모델은 강도 및 진로 모두에서 동절기보다 하절기에 더 나은 예측성능을 나타내었다. 또한 태풍의 발생이 아열대 서태평양의 남동쪽에 위치할수록 강도예측에서는 큰 오차를 보였고, 진로예측에서는 아열대 서태평양의 북서쪽에서 발생할수록 큰 오차를 보였다. 이후 인공신경망 모델의 예측성능을 검증하기 위해 같은 예측인자들을 이용하여 다중선형회귀모델을 개발하였으며, 결과로서 비선형 통계기법인 인공신경망 모델이 다중선형회귀모형보다는 더 나은 예측성능을 보였다.

로짓모형에 있어서 다중공선성의 영향에 관한 연구 (Effects of Multicollinearity in Logit Model)

  • 류시균
    • 대한교통학회지
    • /
    • 제26권1호
    • /
    • pp.113-126
    • /
    • 2008
  • 비확률변수간 선형관계로 정의되는 다중공선성은 설명변수간 선형방정식으로 표현되는 회귀모형의 신뢰도를 저하시키기 때문에 회귀모형의 구축과정에서는 세심한 검토와 대응이 이루어진다. 본 연구에서는 구조화된 수치실험을 통해서 로짓모형에 대한 다중공선성의 영향을 규명하였다. 효용함수를 구성하는 설명변수들간 상관관계의 정도에 따라서 추정된 모형의 적합도 지표와 계수의 신뢰도 지표가 어떻게 변동하는 지를 추적함으로써 다음과 같은 시사점을 확인할 수 있었다. 첫째, 설명변수의 추가를 통해서 모델의 적합도 개선이 가능한 회귀모형과 달리, 로짓모형에서는 효용함수에 설명변수를 추가하는 경우 로짓모형의 적합도가 개선될 수도, 역으로 저하될 수도 있음이 확인되었다. 둘째, 공통의 계수를 갖도록 모델을 구성하면 제네릭 변수간 상관관계가 높아짐에 따라 모델의 적합도가 저하됨을 확인하였다. 셋째, 설명 변수간 상관관계가 높은 경우 선택행동에 대한 설명변수의 기여도가 과대평가될 가능성을 확인하였다. 넷째, 설명변수간 상관관계가 높으면 추정된 계수의 신뢰도가 저하됨을 확인하였다. 결론적으로 본 연구를 통해서 그동안 로짓모형의 구축과정에서는 주목받지 못했던 다중공선성이 실제로는 세심한 배려와 적절한 대응을 통해서 제어되어야 함이 규명되었다.