• Title/Summary/Keyword: 선형회귀식

Search Result 411, Processing Time 0.03 seconds

Performance Evaluation of Multilinear Regression Empirical Formula and Machine Learning Model for Prediction of Two-dimensional Transverse Dispersion Coefficient (다중선형회귀경험식과 머신러닝모델의 2차원 횡 분산계수 예측성능 평가)

  • Lee, Sun Mi;Park, Inhwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.172-172
    • /
    • 2022
  • 분산계수는 하천에서 오염물질의 혼합능을 파악할 수 있는 대표적인 인자이다. 특히 하수처리장 방류수 혼합예측과 같이 횡 방향 혼합에 대한 예측이 중요한 경우, 하천의 지형적, 수리학적 특성을 고려한 2차원 횡 분산계수의 결정이 필요하다. 2차원 횡 분산계수의 결정을 위해 기존 연구에서는 추적자실험결과로부터 경험식을 만들어 횡 분산계수 산정에 사용해왔다. 회귀분석을 통한 경험식 산정을 위해서는 충분한 데이터가 필요하지만, 2차원 추적자 실험 건수가 충분치 않아 신뢰성 높은 경험식 산정이 어려운 상황이다. 따라서 본 연구에서는 SMOTE기법을 이용하여 횡분산계수 실험데이터를 증폭시켜 이로부터 횡 분산계수 경험식을 산정하고자 한다. 또한 다중선형회귀분석을 통해 도출된 경험식의 한계를 보완하기 위해 다양한 머신러닝 기법을 적용하고, 횡 분산계수 산정에 적합한 머신러닝 기법을 제안하고자 한다. 기존 추적자실험 데이터로부터 하폭 대 수심비, 유속 대 마찰유속비, 횡 분산계수 데이터 셋을 수집하였으며, SMOTE 알고리즘의 적용을 통해 회귀분석과 머신러닝 기법 적용에 필요한 데이터그룹을 생성했다. 새롭게 생성된 데이터 셋을 포함하여 다중선형회귀분석을 통해 횡 분산계수 경험식을 결정하였으며, 새로 제안한 경험식과 기존 경험식에 대한 정확도를 비교했다. 또한 다중선형회귀분석을 통해 결정된 경험식은 횡 분산계수 예측범위에 한계를 보였기 때문에 머신러닝기법을 적용하여 다중선형회귀분석에 대한 예측성능을 평가했다. 이를 위해 머신러닝 기법으로서 서포트 벡터 머신 회귀(SVR), K근접이웃 회귀(KNN-R), 랜덤 포레스트 회귀(RFR)를 활용했다. 세 가지 머신러닝 기법을 통해 도출된 횡 분산계수와 경험식으로부터 결정된 횡 분산계수를 비교하여 예측 성능을 비교했다. 이를 통해 제한된 실험데이터 셋으로부터 2차원 횡 분산계수 산정을 위한 데이터 전처리 기법 및 횡 분산계수 산정에 적합한 머신러닝 절차와 최적 학습기법을 도출했다.

  • PDF

A Study on the Estimation Method of Hemoglobin Based on Linear and Multiple Regression Analysis Using Health Examination Big Data (건강검진 빅데이터를 이용한 선형 및 다중회귀분석 기반 헤모글로빈 추정 방법에 관한 연구)

  • Hong, Sang-Hoon;Hong, Kwang-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.553-555
    • /
    • 2021
  • 빈혈의 유병률은 매년 증가하고 있으나 이를 가벼운 질병으로 인식해 치료 시기를 놓치는 환자들이 존재한다. 빈혈의 발생원인으로 혈액 내 헤모글로빈 및 헤모글로빈 내 철 부족이 있으며, 헤모글로빈 측정기술의 경우 채혈 이외에 사람의 신체 및 건강 정보를 적용한 사례는 찾아보기 어렵다. 본 논문에서는 신체(키, 몸무게 및 허리둘레) 및 건강 정보(혈청지오티, 이완기 혈압 및 감마지티피 등)가 포함된 건강검진 빅데이터를 이용하여 단일 특징에 대해 선형회귀분석을 수행하고, 다중 특징에 대해 다중회귀분석을 수행하여 회귀분석 식을 산출, 산출된 회귀분석 식을 통해 헤모글로빈을 추정하여 실제 헤모글로빈값과 오차율을 계산하고 비교한다. 실험 결과, 선형회귀분석 식을 통해 헤모글로빈을 추정하였을 때 평균 8.124%의 오차율이 계산되었으며, 다중회귀분석의 경우 선형회귀분석보다 낮은 6.767%의 오차율이 계산되었다.

Calculation Of Critical Stress On Jointed Concrete Pavement By Using Neural Networks & Linear Regression Models (뉴럴 네트워크 및 선형 회귀식을 이용한 줄눈 콘크리트 포장의 한계 응력 계산)

  • Kang, Tae-Wook;Ryu, Sung-Woo;Kim, Seong-Min;Cho, Yoon-Ho
    • International Journal of Highway Engineering
    • /
    • v.10 no.3
    • /
    • pp.129-138
    • /
    • 2008
  • The finite element method(FEM) was one of tools used to solve problem of previous Concrete Pavement and was applied to Korea Pavement Research Program Study. This study used the ABAQUS and the fortran analysis program to calculate the critical stress on jointed concrete pavement and compared and analyzed the results by using neural networks and linear regression model. In that case, which are not enough analysises by using FEM programs though many input variables, when the results of FEM with NN and linear regression models are compared, there are some differences. The other cases, which are reduced input variables and a lot of analysises each of them, results of Neural Networks(NN) and linear regression models are simulated to them of FEM. But, the result of NN is more exact than them of linear regression at the (0,0), (1,1). On the results of this study, it is suggested that the calculation of stress using NN is more compatible to Korea Pavement Research Program Study.

  • PDF

Determing the Monitoring Point using Entropy Method and Linear Regression (엔트로피 방법과 선형회귀식을 이용한 모니터링 지점선정)

  • Ryu, seung-hyun;Song, yang-ho;Lee, jung-ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.111-112
    • /
    • 2012
  • 하수관거시스템(sewer system)의 효율적인 관리를 위해서는 관거 내의 유출, 수질, 불명수 및 CSOs(Combine Sewer Overflows)등에 대한 지속적인 모니터링이 필요하다. 그런데 하나의 유역 하수관거시스템에서 모든 지점에 대한 모니터링은 예산의 제약으로 인하여 불가능하다. 따라서 모니터링 지점들은 주어진 예산 내에서 최대의 효율적인 자료의 획득이 가능한 지점들로 선정되어야한다. 그럼에도 불구하고 모니터링의 지점의 선정에 대한 명확한 기준 및 선정된 모니터링 지점에서 획득된 자료에 대한 정량화된 평가방법에 대한 연구는 미흡한 실정이다. 따라서 본 연구에서는 엔트로피 방법과 선형회귀식을 이용하여 상류 유출을 통한 하류 유출을 예측할 수 있는 모니터링 지점을 선정하는 방법을 제시하였다. 검증결과 제시된 회귀식은 안정적으로 하류 유출을 예측할 수 있는 것으로 나타났다. 본 연구에서 산정한 회귀식을 사용하여 하류 유출의 사전 예측이 가능할 것으로 판단된다.

  • PDF

Development of Multiple Linear Regression Model to Predict Agricultural Reservoir Storage based on Naive Bayes Classification and Weather Forecast Data (나이브 베이즈 분류와 기상예보자료 기반의 농업용 저수지 저수율 전망을 위한 저수율 예측 다중선형 회귀모형 개발)

  • Kim, Jin Uk;Jung, Chung Gil;Lee, Ji Wan;Kim, Seong Joon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.112-112
    • /
    • 2018
  • 최근 이상기후로 인한 국부적인 혹은 광역적인 가뭄이 빈번하게 발생하고 있는 추세이며 발생횟수 뿐 아니라 가뭄 심도 및 지속기간이 과거보다 크게 증가하여 그에 따른 피해가 커질 것으로 예측되고 있다. 특히, 2014~2015년도의 유례없는 가뭄으로 인해 저수지 용수공급이 제한되면서 많은 농가들이 피해를 입었다. 본 연구의 목적은 전국 농업용 저수지를 대상으로 기상청 3개월 예보자료를 활용 할 수 있는 농업용 저수지 저수율 다중선형 회귀 모형을 개발하여 저수율 전망정보를 생산하는 것이다. 본 연구에서는 전국에 적용 가능한 저수율 다중선형 회귀 모형개발을 위해 5개의 기상요소(강수량, 최고기온, 최저기온, 평균기온, 평균풍속)와 관측 저수지 저수율을 활용했다. 기상자료는 2002년부터 2017년까지의 기상청 63개 지상관측소로부터 기상관측자료를 수집하였다. 본 연구에서는 저수율 전망 단계를 세 단계로 나누었다. 첫 번째 단계로 농어촌공사에서 전국 511개 용수구역을 대상으로 군집분석 및 의사결정나무 분석을 통해 제시한 65개 대표저수지를 대상으로 기상자료 및 관측 저수율 자료를 이용하여 다중선형 회귀분석을 실시하였다. 수집한 기상요소와 저수율을 독립변수로 하여 월별 회귀식을 산정한 결과 결정계수($R^2$)는 0.51~0.95로 나타났다. 두 번째 단계로 대표저수지의 회귀분석 결과를 전국의 저수지로 확대하기 위해 나이브 베이즈 분류법을 적용하여 전국 3098개의 저수지를 65의 군집으로 분류하고 각각의 군집에 해당되는 월별 회귀식을 산정하였다. 마지막으로 전국 저수지로 산정된 회귀식과 농업 가뭄 예측을 위해 기상청의 GS5(Global Seasonal Forecasting System 5) 3개월 예보자료를 수집하여 회귀식에 적용해 2017년 전국 저수지의 3개월 저수율 전망정보를 생산하였다. 본 연구의 전국 저수지 군집결과 기반의 저수율 전망기술은 2017년도 관측 저수율과 비교한 결과 유의한 상관성을 나타냈으며 이 결과는 추후 농업용 저수지의 물 공급 및 농업가뭄 전망 자료로서 이용이 가능할 것으로 판단된다.

  • PDF

Introduction of a Nonlinear Regression Analysis System NLIN2000 (비선형회귀분석을 위한 통계소프트웨어 NLIN2000)

  • 강근석;심규호
    • The Korean Journal of Applied Statistics
    • /
    • v.17 no.1
    • /
    • pp.173-184
    • /
    • 2004
  • A statistical software for nonlinear regression analysis, NLIN2000, is introduced. This software, operated tinder the Window systems, has many user-friendly functions and Provides various statistics. As an upgraded version of the Previous Program operated under the DOS system, NLIN2000 provides easier steps for model specification and fitting process than any other statistical packages. Also it has a database system for model functions which has addition and deletion options. While it can be a useful research tool for statisticians, NLIN2000 can be used practically also by researchers in many other scientific fields, who needs nonlinear regression analysis for their study.

Determining the existence of unit roots based on detrended data (추세 제거된 시계열을 이용한 단위근 식별)

  • Na, Okyoung
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.205-223
    • /
    • 2021
  • In this paper, we study a method to determine the existence of unit roots by using the adaptive lasso. The previously proposed method that applied the adaptive lasso to the original time series has low power when there is an unknown trend. Therefore, we propose a modified version that fits the ADF regression model without deterministic component using the adaptive lasso to the detrended series instead of the original series. Our Monte Carlo simulation experiments show that the modified method improves the power over the original method and works well in large samples.

Proposal of Models to Estimate the Coefficient of Permeability of Soils on the Natural Terrain considering Geological Conditions (지질조건에 따른 자연사면 토층의 투수계수 산정모델 제안)

  • Jun, Duk-Chan;Song, Young-Suk;Han, Shin-In
    • The Journal of Engineering Geology
    • /
    • v.20 no.1
    • /
    • pp.35-45
    • /
    • 2010
  • The soil tests have been performed on the specimens obtained from about 1,150 sites including landslides and non-landslides areas in natural terrains for last 10 years. Based on the results of those tests, the average soil properties are estimated and the simple equations for estimating permeability are proposed according to geologic conditions. The average permeability in Granite and Mudstone sites is higher than other sites and the content of silt and clay in Mudstone and Gneiss sites is higher than other sites. The correlation analysis and the regression analysis were performed to estimate the coefficient of permeability according to geological conditions. As the result of the correlation analysis, the coefficient of permeability is selected as a dependent variable, and the silt and clay contents, the water contents and the dry unit weights are selected as independent variables. As the result of the regression analysis, the silt and clay contents and the void ratio were involved commonly in the linear regression equations according to geological conditions. To verify the proposed the linear regression equations, the measured result of the coefficient of permeability at other sites was compared with the result predicted with the proposed equations. As the result of comparison, there were a little bit different between them for some data. However the difference was relatively small. Therefore, the linear regression equations for estimating the coefficient of permeability according to geological conditions may be applied to Korean soils. However, these equations should be verified and corrected continuously to improve the accuracy.

Shrinkage Structure of Ridge Partial Least Squares Regression

  • Kim, Jong-Duk
    • Journal of the Korean Data and Information Science Society
    • /
    • v.18 no.2
    • /
    • pp.327-344
    • /
    • 2007
  • Ridge partial least squares regression (RPLS) is a regression method which can be obtained by combining ridge regression and partial least squares regression and is intended to provide better predictive ability and less sensitive to overfitting. In this paper, explicit expressions for the shrinkage factor of RPLS are developed. The structure of the shrinkage factor is explored and compared with those of other biased regression methods, such as ridge regression, principal component regression, ridge principal component regression, and partial least squares regression using a near infrared data set.

  • PDF

One-dimensional Positioning using Iterative Linear Regression Based on Received Signal Strength and Mobility Information (반복선형회귀를 이용한 수신 신호 세기와 이동성 정보에 기반한 1차원 위치 추정)

  • Lee, Dong-Jun;Kim, Da-Yeong;Lee, Eun-Hye
    • Journal of Advanced Navigation Technology
    • /
    • v.24 no.2
    • /
    • pp.128-133
    • /
    • 2020
  • In this study, an 1-dimensional positioning method using iterative linear regression for path loss expression is proposed. In the proposed method, received signal strengths (RSS) measured in several locations and distances between the measuring locat ions obtained by dead reckoning are used to derive a linear regression for the path loss from the transmitting beacon. In the proposed method, for the distance between the transmitting beacon and a target measuring location, several tentative values are assumed. For each tentative value, a linear regression is obtained. Among the linear regression expressions, the one closest to the known reference RSS value is selected and used to derive the distance to the target location. Test results show that the proposed method is more accurate than path loss model.