• Title/Summary/Keyword: 관측변수

Search Result 1,421, Processing Time 0.031 seconds

Variable Selection for Multi-Purpose Multivariate Data Analysis (다목적 다변량 자료분석을 위한 변수선택)

  • Huh, Myung-Hoe;Lim, Yong-Bin;Lee, Yong-Goo
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.1
    • /
    • pp.141-149
    • /
    • 2008
  • Recently we frequently analyze multivariate data with quite large number of variables. In such data sets, virtually duplicated variables may exist simultaneously even though they are conceptually distinguishable. Duplicate variables may cause problems such as the distortion of principal axes in principal component analysis and factor analysis and the distortion of the distances between observations, i.e. the input for cluster analysis. Also in supervised learning or regression analysis, duplicated explanatory variables often cause the instability of fitted models. Since real data analyses are aimed often at multiple purposes, it is necessary to reduce the number of variables to a parsimonious level. The aim of this paper is to propose a practical algorithm for selection of a subset of variables from a given set of p input variables, by the criterion of minimum trace of partial variances of unselected variables unexplained by selected variables. The usefulness of proposed method is demonstrated in visualizing the relationship between selected and unselected variables, in building a predictive model with very large number of independent variables, and in reducing the number of variables and purging/merging categories in categorical data.

Determination of Optimal Unit Hydrographs and Infultration Rate Functions from Single Rainfall-Runoff Event (단순 강우-유출 사상으로부터 최적단위도와 침투율의 결정)

  • An, Tae-Jin;Ryu, Hui-Jeong;Jeong, Gwang-Geun;Sim, Myeong-Pil
    • Journal of Korea Water Resources Association
    • /
    • v.33 no.3
    • /
    • pp.365-374
    • /
    • 2000
  • This paper is to present the determination of the optimal Joss rate parameters and urnt bydrographs from the observed single rainfall-runoff event using optimization models coupled with a stochastic technique for the global solution. Two kinds of the linear program models are formulated to derive the optimal unit hydrographs and loss rate parameters for gaged basins; one mimmizes the summation of the absolute residual between predlCted and observed runoff ordinates and the other, the maximum absolute residuaL Multistart algorithm which is one or stochastic techniques for the global optimum is adopted to perturb the parameters of the loss rate equations. Multistart efficiently searches the feasIble region to identify the global optimlUll for loss rate parameters, which yields the optimal loss rate parameters and unit hydrograph for Kostiakov's, Plulip's, and Horton's equation. The unique unit hydrograph ordinates for a gIven rainfall-runoff event iS exclusrvely obtained WIth $\Phi$ index, but unit hydrograph ordinates depend upon the parameters [or each loss rate equations. The parameters of Green-Ampt's are determined through a trial and error method. In this paper the single rainfall-nmoff event observed from a watershed is considered to test the proposed method. The optimal unit hydrograph herein found has smaller deviations than the ones reported previously by other researchers.

  • PDF

Improving minority prediction performance of support vector machine for imbalanced text data via feature selection and SMOTE (단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법)

  • Jongchan Kim;Seong Jun Chang;Won Son
    • The Korean Journal of Applied Statistics
    • /
    • v.37 no.4
    • /
    • pp.395-410
    • /
    • 2024
  • Text data is usually made up of a wide variety of unique words. Even in standard text data, it is common to find tens of thousands of different words. In text data analysis, usually, each unique word is treated as a variable. Thus, text data can be regarded as a dataset with a large number of variables. On the other hand, in text data classification, we often encounter class label imbalance problems. In the cases of substantial imbalances, the performance of conventional classification models can be severely degraded. To improve the classification performance of support vector machines (SVM) for imbalanced data, algorithms such as the Synthetic Minority Over-sampling Technique (SMOTE) can be used. The SMOTE algorithm synthetically generates new observations for the minority class based on the k-Nearest Neighbors (kNN) algorithm. However, in datasets with a large number of variables, such as text data, errors may accumulate. This can potentially impact the performance of the kNN algorithm. In this study, we propose a method for enhancing prediction performance for the minority class of imbalanced text data. Our approach involves employing variable selection to generate new synthetic observations in a reduced space, thereby improving the overall classification performance of SVM.

Determination of State-Space Model for Parameter Estimation of Tank Model (탱크모형의 매개변수추정을 위한 상태공간모형의 결정)

  • 이관수;이영석;정일광
    • Water for future
    • /
    • v.28 no.2
    • /
    • pp.125-136
    • /
    • 1995
  • The propose of this study is improve the uncertainty of parameter choice of tank model by the trials and errors method. The real time prediction of parameter by using the Kalman filter is practiced to get the effective prediction algorithm of low flow runoff. Even though the total discharge of runoff through the orifice of each tank should be similar to the observed discharge, the tank model which can show the various basin characteristic is influenced by the runoff circumstances. As a result of the real-time estimation of the tank model parameter by the state-space type of Kalman filter, the variation of runoff circumstances is static when the convergence of observed value and estimated value keeps the ficed high point. The parameter of tank model which is estimated by Kalman filter shows good result for low flow and reasonable adaptability where flow change abruptly. The Kalman filter method is proved to give better result than Automatic structure estimation method.

  • PDF

The estimation of parameter using muskingum model in nak-dong river basin incorporating lateral inflow (측방유입량을 고려한 낙동강 유역의 머스킹검 매개변수 추정)

  • Jung, Chan-Yong;Jung, Young-Hun;Kim, Hyoung-Seop;Jung, Sung-Won;Jung, Kwan-Sue
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2008.05a
    • /
    • pp.2270-2275
    • /
    • 2008
  • 수문학적 하도추적법의 하나인 Muskingum 모형은 미 육군공병단(U.S. Army Corps of Engineers)에 의해서 미국 Ohio 주의 Muskingum 유역에 홍수조절계획으로 처음 사용되었으며 모형의 구조 및 입력자료의 단순성에 비하여 비교적 우수한 결과를 모의할 수 있는 것으로 알려져 있다. 1938년 McCarthy에 의해서 개발되었고 구간내 총저류량은 prism 저류와 wedge 저류로 구분하여 prism 저류는 유출량에 wedge 저류는 유입량과 유출량의 차에 직접 비례한다는 가정하에 추적식을 개발하였다. 이후 지속적인 연구가 이뤄져 1985년 O'Donnel은 측방유입량(lateral inflow)을 상류단의 유입량에 비례하는 형태로 3-매개변수 muskingum 모형을 제안하여 추적계수의 결정을 선형대수(linear algebra)에서 동차(homogeneous)연립방정식 해를 구하는 Cramer 법칙인 matrix 기법을 적용하였다. 본 연구에서는 홍수사상으로부터 측방유입량이 고려되고 추적계수 결정에 있어서 직접 계산이 가능한 O'Donnel(1985)이 제안한 3-매개변수 muskingum 모형을 적용하였다. 추적계수들의 결정은 직접 matrix 기법을 적용하였고 적용대상은 낙동강 유역의 낙동 지점을 상류단으로 구미 지점을 하류단으로 선정하였다. 홍수사상은 낙동강 유량측정 조사사업 2005년${\sim}$2007년 보고서에 수록된 수문자료를 선정하여 관측치와 계산치를 비교하였고 홍수사상에 적용하여 수문곡선을 추정하였으며, 각각의 매개변수가 추적구간에 어떠한 영향을 미치는지 변수간의 관계를 분석하였다. 또한, 관측치와 계산치의 적합도 검증은 평균제곱근오차(root mean squar error; RMSE)와 모형 효율성 계수(model efficiency; ME)를 산정하여 분석하였으며, 하도 구간내 저류량은 대상구간에 대한 유입량과 유출량의 가중합에 비례한다는 선형모형을 적용하였다.

  • PDF

Reliability Evaluation of Parameter Estimation Methods of Probability Density Function for Estimating Probability Rainfalls (확률강우량 추정을 위한 확률분포함수의 매개변수 추정법에 대한 신뢰성 평가)

  • Han, Jeong-Woo;Kwon, Hyun-Han;Kim, Tae-Woong
    • Journal of the Korean Society of Hazard Mitigation
    • /
    • v.9 no.6
    • /
    • pp.143-151
    • /
    • 2009
  • Extreme hydrologic events cause serious disaster, such as flood and drought. Many researchers have an effort to estimate design rainfalls or discharges. This study evaluated parameter estimation methods to estimate probability rainfalls with low uncertainty which will be used in design rainfalls. This study collected rainfall data from Incheon, Gangnueng, Gwangju, Busan, and Chupungryong gage station, and generated synthetic rainfall data using ARMA model. This study employed the maximum likelihood method and the Bayesian inference method for estimating parameters of the Gumbel and GEV distribution. Using a bootstrap resampling method, this study estimated the confidence intervals of estimated probability rainfalls. Based on the comparison of the confidence intervals, this study recommended a proper parameter estimation method for estimating probability rainfalls which have a low uncertainty.

Variability Analysis of Design Flood Considering Uncertainty of Rainfall-Runoff Model and Climate Change (기후변화 영향과 강우-유출 모형의 불확실성을 고려한 설계홍수량 변동성 분석)

  • Kwon, Hyun-Han;Kim, Jang-Gyeong;Lee, Jong-Seok
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2012.05a
    • /
    • pp.365-365
    • /
    • 2012
  • 이수 및 치수를 위한 수공구조물 설계 및 하천기본계획 수립의 요점은 설계홍수량의 산정에 있으며, 통계적으로 유의성을 가지는 설계홍수량을 산정하기 위해서는 일반적으로 30년 이상 관측된 홍수자료가 요구된다. 우리나라의 경우 대부분의 유역이 미계측 유역이거나 관측년수가 비교적 작은 경우가 많으므로, 상대적으로 자료 연한이 긴 강우자료를 빈도분석한 후 이를 강우-유출 모형에 입력하여 확률홍수량을 추정하는 간접적인 방법이 주로 이용되며 사용된 강우의 빈도가 홍수의 빈도와 동일하다는 가정을 기본으로 한다. 그러나 동일한 강우량이 발생하더라도 강우의 강도, 지속시간, 유역의 선행함수조건 등과 같은 유역 특성에 따라 유출의 특성은 현저히 다르게 나타나며 결국 이러한 특성은 입력자료, 강우-유출 모형, 기후변동성 등과 같은 불확실성 요소로 인식될 수 있다. 따라서 본 연구에서는 이러한 불확실성을 고려할 수 있는 강우-유출 모의기법을 개발하여 이를 통해 홍수빈도곡선을 유도할 수 있는 방법론을 제시하고자 한다. 불확실성 분석을 위해 기존 HEC-1 강우-유출 모형에서 Bayesian MCMC 기법을 적용하여 매개변수들의 사후분포를 추정하여 매개변수들의 최적화 및 불확실성 분석을 수행하였다. 마지막으로 기후변화 영향을 통합한 홍수빈도곡선을 유도하기 위해서 극치강수를 모의하는 것이 필요하며, 본 연구에서는 극치값 재현에 있어서 우수한 성능을 발휘하는 Kernel-Pareto Piecewise분포 기반의 강우모의발생 기법을 적용하여 HEC-1모형과 연동되도록 모형을 개발하였다. 본 연구에서 제안하는 방법론은 기존 홍수빈도곡선 유도 방법에서 불확실성을 분석하기 위해 모든 변수들을 독립사상으로 간주하고 Monte Carlo Simulation을 수행함으로서 매개변수들간의 상호연관성, 상관성, 조건부 확률들을 고려할 수 없었던 점을 Bayesian 모형을 통해 매개변수들간의 조건부 확률을 고려한 매개변수의 사후분포 도출을 가능하게 하여 보다 현실적인 강우-유출 관계 도출이 가능하고 불확실성 구간이 자연적으로 도출됨으로서 향후, 신뢰성 있는 수자원 계획수립에 유용한 자료로 활용이 가능할 것으로 판단된다.

  • PDF

Nonstationary Frequency Analysis for Annual Maximum Data

  • Kim, Su-Yeong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.4-4
    • /
    • 2017
  • 수문자료의 빈도해석은 자료의 독립성(independence)와 정상성(stationarity)를 가정하여 이뤄진다. 그러나 관측 수문자료에서 비정상성 현상이 발생하고 있다는 사실이 관측되면서 수문자료에 대한 비정상성 빈도해석에 대한 필요성도 커지고 있다. 본 연구의 목적은 수문자료의 빈도해석에서 가장 널리 사용되고 있는 Gumbel 및 GEV 분포에 대한 비정상성 빈도해석 모형을 개발하는 것으로, 이를 위해 비정상성 Gumbel과 GEV 모형의 매개변수를 시간에 따라 변하는 형태로 정의하였다. 비정상성 Gumbel 및 GEV 모형의 정확도를 알아보기 위해 비정상성 모형과정상성 모형을 이용하여 Monte Carlo 모의실험을 수행하였다. 모의실험은 다양한 조건의 재현기간, 표본크기, 매개변수 조건을 고려하여 수행되었다. 그 결과 비정상성 모형의 오차는 비교적 표본크기가 클 때 가장 작은 것으로 나타났다. 또한 복잡한 매개변수의 조합을 가지는 비정상성 모형은 모두 동일한 경향성을 가질 때 가장 작은 오차를 보이는 것으로 나타났다. 비정상성 GEV 모형의 경우는 확률수문량 산정에 음(-)의 형상 매개변수가 큰 영향을 끼치는 것으로 나타났다. 또한 본 연구에서는 비정상성 조건에서 다양하게 존재하는 비정상성 모형 중 어떠한 모형이 주어진 자료에 대해 가장 적절한 모형인지 결정하기 위해 모의실험을 수행하였다. 널리 적용되고 있는 AIC, BIC, likelihood ratio test에 대해 정상성 및 비정상성 Gumbel 모형을 이용하여 모의실험을 수행한 결과, AIC가 비정상성 모형 중 적정 모형 선택에 가장 효과적인 것으로 나타났다. 개발된 비정상성 Gumbel 및 GEV 모형의 적용성을 알아보기 위해 우리나라 연최대강우 자료에 적용한 결과, 위치 매개변수에 시간항을 고려하는 Gumbel 모형이 최적모형으로 가장 많이 선택되는 것으로 나타났다. 따라서 현재 우리나라의 연최대강우자료 중 경향성이 나타나는 자료에 대해서는 위치 매개변수가 시간에 따라 변하는 특성이 가장 많이 나타나고 있는 것으로 판단된다.

  • PDF

Peak discharge prediction by multiple regression analysis using hourly precipitation data (시강우량 다중회귀분석에 의한 첨두유량 예측)

  • Park, Chang-Eon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.380-380
    • /
    • 2017
  • 유역에서 발생되는 유출량의 크기를 예측하는 것은 홍수피해를 대비하기 위한 가장 기초적인 활동으로 이루어지며, 이를 위하여 많은 수문모형들이 개발되어 활용되어지고 있다. 이러한 수문모형의 적용을 위해서는 먼저 해당 유역을 재현할 수 있는 매개변수의 보정이 이루어져야 하며 적절한 정도 이상의 검정결과를 확보하여야만 적용이 가능하다. 그러나, 유역 내의 각종 수문특성을 모형의 매개변수로 자세히 나타내는 것은 쉬운 작업이 아니며, 특히 정해진 기간 내에 적용해야 하는 유역이 다수인 경우에는 더욱 힘든 작업이 될 수밖에 없다. 기후변화에 따라 예견되는 강우량 발생 시나리오를 바탕으로 남한 일대의 홍수영향을 지자체별로 평가하기 위한 작업에서는 각 지자체별 많은 소유역에서의 적절한 수문모형 매개변수를 개별적으로 찾아내는 것은 사실상 불가능할 것으로 예견되어, 기후변화 시나리오에서 주어지는 시간별 강우량 자료를 활용하여 첨두유량을 예측할 수 있는 통계적인 방법을 적용하였다. 홍수영향을 평가하기 위하여는 수문곡선 자체보다는 첨두유량의 크기가 더 중요할 것으로 판단되어, 홍수통제소에 제공하는 각 유량관측지점의 유량자료와 시간별 강우량자료로부터 단위 호우사상별 첨두유량과 일정 시간간격 강우량 사이의 다중회귀분석을 통하여 첨두유량 예측 가능성을 확인하였다. 다중회귀분석을 위한 시간간격별 강우량은 각 강우사상에 대하여 첨두유량 발생 직전의 1시간~12시간의 1시간 간격, 1일, 2일, 3일, 5일, 10일 등 17가지의 시간간격 동안의 강우량 자료를 찾아 다중회귀분석에 활용하였으며, 2006년부터 2015년까지 최근 10년 동안의 홍수통제소 자료를 활용하였다. 대상지역은 경기도 남부의 너부대교, 경안교, 복하교, 수직교 수위관측소지점으로 선정하였으며, 일정 크기 이상의 첨두유량 자료를 선별하여 해당 기간에 대한 강우량 자료를 준비하고, 유출량의 크기별로 분류하여 절반의 호우사상은 매개변수 보정에 그리고 나머지 절반의 호우사상은 모형의 검정에 사용하였다. 매개변수 보정결과는 $R^2$ 값이 0.87~0.96을 보이는 등 첨두유량의 예측에 충분히 적용가능한 것으로 판단되었으며, 보정되어진 매개변수로 실시한 검정에서는 0.76~0.85의 $R^2$ 값을 보였다. 본 연구의 결과를 바탕으로, 충분한 유량자료와 시간별 강우량자료만 준비된다면 첨두유량을 예측할 수 있는 회귀방정식으로 이루어진 간단한 모형을 구성할 수 있으며, 이를 활용하여 임의로 주어지는 시간별 강우량 자료를 활용하여 첨두유량의 예측이 가능할 것으로 판단되었다.

  • PDF

Estimation of regional parameters of the DIROM in the Chungchungnam-do (DIROM 모형의 지역 매개변수 산정 - 충청남도 지역을 중심으로 -)

  • Hong, Jun Hyuk;Choi, Young Je;Yi, Jae Eung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.189-189
    • /
    • 2021
  • 최근 기후변화로 인한 가뭄, 홍수 등의 기상재해 발생빈도가 증가함에 따라 저수지의 용수공급 안정성이 감소하고 있다. 우리나라 농업용수는 총 수자원 이용량의 48%를 차지하고 있으며 영농활동의 필수 자원으로 농업용 저수지의 용수공급에 크게 의존하고 있다. 하지만 유효저수용량을 기준으로 다목적댐과 비교하였을 때 농업용 저수지의 규모가 작으므로 가뭄이 발생하게 된다면 용수공급에 큰 어려움을 겪을 수 있다. 또한 농업용 저수지의 절반 이상이 준공년도가 70년 이상으로 농업용 저수지의 노후화가 심각한 상태이며 수문 실측자료가 부족하여 이수 측면의 활용성과 관련된 연구가 부족한 실정이다. 이에 따라 농업용 저수지의 안정적인 용수공급 및 이수 측면의 분석을 위해서는 농업용 저수지 상류의 정확도 높은 장기유출량 산정이 선행되어야 한다. 현재 농업용 저수지의 장기유출량 산정을 위해 사용되고 있는 DIROM 모형은 Sugawara의 TANK 모형을 우리나라 농업용 저수지의 유역 특성에 맞게 수정한 일별 유입량 모의 발생 모형이다. 그러나 DIROM 모형의 매개변수는 1980년대에 개발된 이후 현재까지 특별한 개선없이 사용되고 있다. 따라서 최근 우리나라의 기후 및 토지이용 특성이 변화함에 따라 유출 특성이 변화하였기 때문에 장기유출량 산정을 위한 매개변수 개선이 필요하다. 본 연구에서는 하천의 최상류에 위치한 수위 관측소의 유출량 자료를 활용하여 지역별 DIROM 모형의 매개변수를 추정하고, 추정된 매개변수를 활용하여 회귀식을 개발하고자 하였다. 개발된 회귀식의 검증을 위해 최근 수문자료 관측을 수행하기 시작한 농업용 저수지의 실측 수문자료를 활용하였다. 이를 통해 농업용 저수지의 안정적인 용수공급 및 저수지 관리를 통해 농업용수의 활용성을 개선할 수 있을 것이라 판단된다.

  • PDF