• Title/Summary/Keyword: 변수추정

Search Result 3,375, Processing Time 0.041 seconds

A procedure for simultaneous variable selection, variable transformation and outlier identification in linear regression (선형회귀에서 변수선택, 변수변환과 이상치 탐지의 동시적 수행을 위한 절차)

  • Seo, Han Son;Yoon, Min
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.1
    • /
    • pp.1-10
    • /
    • 2020
  • We propose a unified approach to variable selection, transformation and outliers in the linear model. The procedure includes a sequential method for outlier detection and a least trimmed squares estimator for variable transformation. It uses all possible subsets regressions for model selection. Some real data analyses and the simulation results are provided to show the efficiency of the methods in the context of the correct variable selection and the fitness of the estimated model.

Sample-spacing Approach for the Estimation of Mutual Information (SAMPLE-SPACING 방법에 의한 상호정보의 추정)

  • Huh, Moon-Yul;Cha, Woon-Ock
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.2
    • /
    • pp.301-312
    • /
    • 2008
  • Mutual information is a measure of association of explanatory variable for predicting target variable. It is used for variable ranking and variable subset selection. This study is about the Sample-spacing approach which can be used for the estimation of mutual information from data consisting of continuous explanation variables and categorical target variable without estimating a joint probability density function. The results of Monte-Carlo simulation and experiments with real-world data show that m = 1 is preferable in using Sample-spacing.

Application of Inference Models for Estimating Parameters of a Catchment Modelling System (추론모델을 통한 강우-유출모형 매개변수의 간접추정법 적용)

  • Choi, Kyung-Sook
    • Journal of Korea Water Resources Association
    • /
    • v.36 no.4
    • /
    • pp.587-596
    • /
    • 2003
  • Application of a catchment modelling system requires recorded information to ascertain the reliability and robustness of the predicted flow conditions. Where this recorded information is not available, the necessary information for reliable and robust predictions must be obtained from other available information sources. The alternative approach presented in this paper used inference models for getting this necessary information that is required to calibrate and validate the catchment modelling system for both an ungauged and a gauged catchments. In this study, inference models were developed for determination of control parameters of the Storm Water Management Model (SWMM), mainly based on landuse component of the catchment, which is a major factor to impact on quantity and quality of catchment runoff. Results from the study show that the new approach for determination of the spatially variable control parameters produced more accurate estimates than a traditional approach. Also, the number of control parameters estimated can be reduced significantly as the proposed method only requires determination of control parameters associated with each land use of the catchment while a traditional approach needs to assign a number of control parameters for a number of subcatchment.

Calibration of the WASP4 Model Applied to Lake Paldang (WASP4 모형의 매개변수 추정 - 팔당호(八堂湖)를 중심으로 -)

  • Cho, Hong Yeon;Jun, Kyung Soo;Lee, Kil Seong;Han, Kwang Suk
    • KSCE Journal of Civil and Environmental Engineering Research
    • /
    • v.13 no.4
    • /
    • pp.177-188
    • /
    • 1993
  • Model parameters of the WASP4 applied to Lake Paldang were estimated. The methodology is based on grouping water quality constituents and relevant parameters and successively estimating each group of parameters by a trial-and-error procedure. Chlorophyll a, nitrogen cycles, phosphorus cycles, BOD and DO were simulated at the complexity level 4. A water budget analysis using the monthly records of reservoir inflows and outflows in 1989 and 1990 was made to determine seasonally-averaged flowrates at model boundaries. Estimated flowrates were used, together with the seasonal average of water quality measurements in 1989 and 1990 for the calibration and verification, respectively, of the model. Grouping water quality constituents and associated parameters proved to be efficient in estimating a number of model parameters. From the results of model calibration and verification, it was found that quantitative evaluations of nonpoint and benthic sources of organic matters are essential. Benthic sources near the entrance of the Kyeongancheon were the most significant.

  • PDF

Comparison of Three Parameter Estimation Methods for Mixture Distributions (혼합분포모형의 매개변수 추정방법 비교)

  • Shin, Ju-Young;Kim, Sooyoung;Kim, Taereem;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2017.05a
    • /
    • pp.45-45
    • /
    • 2017
  • 상이한 자연현상으로 발생된 자료들은 때때로 통계적으로 다른 특성을 가지는 경우가 있다. 이런 자료들은 다른 두 개 이상의 모집단에서 자료가 발생한 것으로 가정할 수 가 있다. 기존에 널리 사용되어온 분포형 모형의 경우 단일한 모집단으로부터 자료가 발생한다는 가정하에서 개발된 모형들로 위에서 언급한 자료들을 적절히 모의할 수 없다. 이런 상이한 모집단에서 발생된 자료를 모형화 하기 위해서 혼합분포모형(mixture distribution)이 개발되었다. 홍수나 가뭄 등과 같은 극치 사상의 경우 다양한 자연현상들로부터 발생하기에 혼합분포모형을 적용할 경우 보다 정확한 모의가 가능하다. 혼합분포모형은 두 개 이상의 비혼합분포모형들을 가중합하여 만들어진다. 혼합 분포모형의 형태로 인하여 기존의 분포형 모형의 매개변수 추정 모형으로 널리 사용되던 최우도법 (maximum likelihood method), 모멘트법(method of moment), 확률가중모멘트법 (probability weighted moment method) 등을 이용하여 혼합분포모형의 매개변수를 추정하는 것이 용이 하지 않다. 혼합분포모형의 매개변수 추정 방법으로는 Expectation-Maximization (EM) 알고리즘, Meta-Heuristic Maximum Likelihood (MHML) 방법, Markov Chain Monte Carlo (MCMC) 방법 등이 적용되고 있다. 현재까지 수자원 분야에서 사용되는 극치 자료를 혼합분포모형을 이용하여 모의할 때 매개변수 추정방법에 따른 특성에 대한 연구가 진행되지 않았다. 본 연구에서는 우리나라 연최대강우량 자료를 이용하여 혼합분포모형의 매개변수 추정방법 (EM 알고리즘, MHML 방법, MCMC 방법) 들의 특성들을 비교 분석하였다. 혼합분포모형으로는 Gumbel-Gumbel 혼합분포 모형을 적용하였다. 본 연구의 결과는 향후 혼합분포모형을 이용한 연구에 좋은 기초자료로 사용될 수 있을 것으로 판단된다.

  • PDF

Parameter Estimation of the Storage Function Model: 2. Applicability of the Universal Model (저류함수법의 매개변수 추정: 2. 범용모형의 적용성)

  • Choi, Jong-Nam;Ahn, Won-Shik;Kim, Hung-Soo;Park, Min-Kyu
    • Journal of the Korean Society of Hazard Mitigation
    • /
    • v.10 no.6
    • /
    • pp.131-138
    • /
    • 2010
  • We verified the applicability of the developed universal model for the parameter estimation through the rainfall-runoff analysis at 16 watersheds. The existing parameter estimation equations derived from the restricted conditions sometimes, gave the meaningless results which cannot reflect the watershed characteristics and so have not widely used in the ungaged watershed. The values estimated from the developed universal model showed which are sensitive to variations of watershed characteristics. Wider applicability of SFM in ungaged watersheds is expected with the used of effective rainfall from CN method and the universal model.

The correlation and regression analyses based on variable selection for the university evaluation index (대학 평가지표들에 대한 상관분석과 변수선택에 의한 선형모형추정)

  • Song, Pil-Jun;Kim, Jong-Tae
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.3
    • /
    • pp.457-465
    • /
    • 2012
  • The purpose of this study is to analyze the association between indicators and to find statistical models based on important indicators at 'College Notifier' in Korea Council for University Education. First, Pearson correlation coefficients are used to find statistically significant correlations. By variable selection method, the important indicators are selected and their coefficients are estimated. As variable selection method, backward and stepwise methods are employed.

한국의 적정인구 추세에 관한 연구

  • Kim, Hyeong-Gi
    • Proceedings of the Population Association of Korea Conference
    • /
    • 2006.12a
    • /
    • pp.193-230
    • /
    • 2006
  • 본 논문은 국가별 추계인구와 미래 9개년 인구관련 설명변수들의 추정값을 통하여 적정인구 모형을 구형하고 한국의 적정인구를 추정하는데 목적이 있다. 후생을 고려한 생산함수 확장모형, 세계 176개국의 표본자료 그리고 다중회귀분석을 이용하여 $2000{\sim}2300$년 한국의 적정인구를 추정하고 그 추세곡선을 나타내는 것이다. 모형의 종속변수는 UN에 의한 세계각국의 추계인구이고, 설명변수는 9개 변수 즉 PPP GDP, 인접지역 경제통합율, 교육수준, 영어구사비율, 국토유효면적, 에너지량, 기온, 수자원량, 무역거리이다. 연구결과는 다음과 같다. $2000{\sim}2300$년 한국의 적정인구는 $4,350{\sim}4,950$만명으로 추정되며, 2000년${\sim}$2050년은 $4,700{\sim}5,010$만명, 2050년${\sim}2100$년은 $4,770{\sim}4,400$만명이 된다. 2125년 최저점 4,350만명을 통과한 후 점진적으로 2300년의 4,870만명으로 접근해 갈 것으로 추정된다. 연구결과의 시사점은 네 가지이다. 첫째 한국의 적정인구가 2125년을 기준으로 이전은 감소 이후는 증가 추세일 것이므로 정책결정시 적정한 목표인구를 설정해야 한다는 점이다. 둘째 현 추세로 진행되면 2050년 이후 적정인구가 추계인구보다 $500{\sim}600$만명 더 많아진다는 점이다. 셋째 2125년 이전의 적정인구는 좁게 $4,770{\sim}4,545$만명으로서, 출산율 향상을 통한 적정인구의 유지 노력이 필요하다는 점이다. 넷째 적정인구 추세의 기복은 출산기피로 인한 인구감소 때문으로 출산지원과 입양 및 이민 유입의 정책에 따라 변화될 수 있다는 점이다.

  • PDF

A Study on Estimation of Design Rainfall and Uncertainty Analysis Based on Bayesian GEV Distribution (Bayesian GEV분포를 이용한 확률강우량 추정 및 불확실성 평가)

  • Kwon, Hyun-Han;Kim, Jin-Young
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2012.05a
    • /
    • pp.366-366
    • /
    • 2012
  • 확률강우량은 하천설계, 수자원설계 및 계획을 위한 기초자료로 활용되며 최근 이상기후 및 기후변화로 인한 극치강우의 빈도 및 양적 증가로 인한 확률강우량 산정의 불확실성 분석에 대한 관심이 크게 증가하고 있다. 수문빈도 해석에 있어서 대부분 지역이 50년 이하의 수문자료가 이용되고 있으며 수문설계에서 요구되는 50년 이상의 확률강수량 추정시에는 상당한 불확실성을 내포하고 있다. 이러한 점에서 본 연구에서는 자료연수에 따른 Sampling Error와 분포형의 매개변수의 불확실성을 고려한 해석모형을 구축하고자 한다. 빈도해석에서 매개변수를 추정하기 위해서는 일반적으로 모멘트법, 최우도법, 확률가중모멘트법이 이용되고 있으나 사용되는 분포형에 따라서 통계학적으로 불확실성 구간을 정량화하는 과정이 난해할 뿐만 아니라 극치 수문자료가 Thick-Tailed분포의 특성을 가짐에도 불구하고 신뢰구간 산정시 정규분포로 가정하는 등 기존 해석 방법에는 많은 문제점을 내포하고 있다. 본 연구에서는 이러한 매개변수의 불확실성 평가에 있어서 우수한 해석능력을 발휘하는 Bayesian기법을 도입하여 분포형의 매개변수를 추정하고 매개변수 추정과 관련된 불확실성을 평가하고자 한다. 이와 별개로 자료연한에 따른 Sampling Error를 추정하기 위해서 Bootstrapping 기반의 해석모형을 구축하고자 하며 최종적으로 빈도해석시에 나타나는 불확실성을 종합적으로 검토하였다. 빈도해석을 위한 확률분포형으로 GEV(generalized extreme value)분포를 이용하였으며 Gibbs 샘플러를 활용한 Bayesian Markov Chain Monte Carlo 모의를 기본 해석모형으로 활용하였다.

  • PDF

k-Nearest Neighbor-Based Approach for the Estimation of Mutual Information (상호정보 추정을 위한 k-최근접이웃 기반방법)

  • Cha, Woon-Ock;Huh, Moon-Yul
    • Communications for Statistical Applications and Methods
    • /
    • v.15 no.6
    • /
    • pp.977-991
    • /
    • 2008
  • This study is about the k-nearest neighbor-based approach for the estimation of mutual information when the type of target variable is categorical and continuous. The results of Monte-Carlo simulation and experiments with real-world data show that k=1 is preferable. In practical application with real world data, our study shows that jittering and bootstrapping is needed.