• Title/Summary/Keyword: 결측자료 추정

Search Result 84, Processing Time 0.029 seconds

Filling in Hydrological Missing Data Using Imputation Methods (Imputation Method를 활용한 수문 결측자료의 보정)

  • Kang, Tae-Ho;Hong, Il-Pyo;Km, Young-Oh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2009.05a
    • /
    • pp.1254-1259
    • /
    • 2009
  • 과거 관측된 수문자료는 분석을 통해 다양한 수문모형의 평가 및 예측과 수자원 정책결정에서 활용된다. 하지만 관측장비의 오작동 및 관측범위의 한계에 의해 수집된 자료에는 결측이 존재한다. 단순히 결측이 존재하는 벡터를 제외하거나, 결측이 존재하는 자료 구간에 선형성이 존재한다는 가정 하에 평균을 활용하기도 했으나, 이로 인하여 자료의 통계특성에 왜곡이 야기될 수 있다. 본 연구는 결측의 보정으로 자료가 보유하는 정보의 손실 및 왜곡을 최소화 할 수 있는 방안을 연구하고자 한다. 자료의 결측은 크게 완벽한 무작위 결측(missing completely at random, MCAR), 무작위 결측(missing at random, MAR), 무작위성이 없는 결측(nonrandom missingness)으로 분류되며, 수문자료는 결측을 포함한 기간이 그 외 기간의 자료와 통계적으로 동일하지는 않지만 결측자료의 추정이 가능한 MAR에 속하는 것이 일반적이므로 이를 가정으로 결측을 보정하였다. Local Lest Squares Imputation(LLSimput)을 결측의 추정을 위해 사용하였으며, 기존에 쉽게 사용되던 선형보간법과 비교하였다. 적용성 평가를 위해 소양강댐 일 유입량 자료에 1 - 5 %의 결측자료를 임의로 생성하였다. 동일한 양의 결측자료에 대해 100개의 셋을 사용하여 보정의 불확실성 범위를 적용된 방법에 대해 비교..평가하였으며, 결측 증가에 따른 보정효과의 변화를 검토하였다. Normalized Root Mean Squared Error(NRMSE)를 사용하여 적용된 두 방법을 평가한 결과, (1) 결측자료의 비가 낮을수록 간단한 선형보간법을 사용한 보정이 효과적이었다. (2) 하지만 결측의 비가 증가할수록 선형보간법의 보정효과는 점차 큰 불확실성과 낮은 보정효과를 보인 반면, (3) LLSimpute는 결측의 증가에 관계없이 일정한 보정효과 및 불확실성 범위를 나타내는 것으로 드러났다.

  • PDF

Applicability of Missing Rainfall Data Estimation using Artificial Neural Networks (신경망 모형을 이용한 결측 강우 자료 추정방법의 적용성 연구)

  • Cho, Herin;Park, Hee-Seong;Kim, Hyoungseop
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.512-512
    • /
    • 2015
  • 시 공간적 관측에서 다양한 원인에 의해 강우 자료에 결측이나 오측이 발생할 수 있다. 강우를 측정하고 자료를 수집 관리하는 측면에서 결측 되거나 오측된 자료를 추정 보완할 필요가 있다. 현재까지 결측 강우 자료를 추정하기 위한 방법으로 결측 지점 인근의 관측소를 이용한 단순 가중 평균치 방법에서부터 복잡한 통계적 기반의 보간 방법에 이르기까지 많은 연구들이 진행되고있다. 본 연구에서는 결측 된 강우 자료를 추정하기 위해 인공 신경망을 이용하여 모형을 구축하고 주변 관측소의 강우자료를 이용해 신경망 학습을 실시하여 적용해 보았으며, 최근 관측의 단위가 짧아지고 있는 점을 고려하여 10분, 30분, 1시간 등 다양한 시간간격의 강우자료를 구축하고 선형회귀모형과 RDS 방법, 신경망 모형을 이용한 방법 등을 적용한 결과를 비교하여 신경망 모형의 적용성을 살펴보았다. 단순한 구조면에서는 기존의 RDS 방법에 대한 적용성이 높은 것으로 판단되었으나, 성능의 개선을 위한 별다른 방법이 없는 반면 신경망 모형은 입력 자료를 다양하게 변환하여 구성하는 경우 성능을 개선하여 적용성이 더 높아 질 수 있는 것으로 판단되었다. 향후 신경망 모형을 이용해 잘못 측정된 강우를 적절히 선별하고 결측된 보완함으로써 관측된 강우 자료의 활용성을 높일 수 있을 것이다.

  • PDF

Missing Data Estimation for Link Travel Time (차량 결측속도정보 추정에 관한 연구)

  • Yoon, Won-Sik;Jung, Hee-Cheol
    • Journal of Korean Society of Transportation
    • /
    • v.26 no.2
    • /
    • pp.101-107
    • /
    • 2008
  • Traffic speed data may be missed due to detector malfunction or network problems. In this paper we have proposed effective methods to estimate the data which could not be collected through loop detectors. Our proposed algorithm has three steps. First step is to find the most similar neighbor data record by coefficient of correlation. Second step is to make some data records which is calculated by the 5 kinds of estimation methods. Third step is to compare the data records with history data record of observation link and thus the best method is selected. The proposed method is useful for estimating travel time.

Long-gap Filling Method for the Coastal Monitoring Data (해양모니터링 자료의 장기결측 보충 기법)

  • Cho, Hong-Yeon;Lee, Gi-Seop;Lee, Uk-Jae
    • Journal of Korean Society of Coastal and Ocean Engineers
    • /
    • v.33 no.6
    • /
    • pp.333-344
    • /
    • 2021
  • Technique for the long-gap filling that occur frequently in ocean monitoring data is developed. The method estimates the unknown values of the long-gap by the summation of the estimated trend and selected residual components of the given missing intervals. The method was used to impute the data of the long-term missing interval of about 1 month, such as temperature and water temperature of the Ulleungdo ocean buoy data. The imputed data showed differences depending on the monitoring parameters, but it was found that the variation pattern was appropriately reproduced. Although this method causes bias and variance errors due to trend and residual components estimation, it was found that the bias error of statistical measure estimation due to long-term missing is greatly reduced. The mean, and the 90% confidence intervals of the gap-filling model's RMS errors are 0.93 and 0.35~1.95, respectively.

SOLAS를 이용한 결측자료의 다중대치법

  • Kim, Hyeon-Jeong;Mun, Seung-Ho;Sin, Jae-Gyeong
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2003.05a
    • /
    • pp.145-158
    • /
    • 2003
  • 불완전 데이터 즉, 결측값을 가지는 데이터를 분석할 경우 결측데이터에 대해서 어떠한 처리를 해야할 필요가 있다. 결측데이터에 대한 처리로서 주로 이용되어온 방법으로는 결측값을 포함한 관측값(case)을 제외하는 방법이었다. 이후 여러 방법들이 제안되어 EM알고리즘이나 회귀알고리즘에 의한 추정을 바탕으로 결측값에 대한 추정을 해서 그 추정값으로 결측값을 대치하는 방법을 사용할 수 있게되었다. 본 논문에서는 복수 개의 데이터세트를 생성해서 대치하는 다중대입 소프트인 SOLAS를 소개한다.

  • PDF

Estimation of Missing Rainfall Data Considering Spatio-Temporal Variation Using Radar Data (레이더 자료를 이용한 시공간적 변동성을 고려한 강우의 결측치 추정)

  • Song, Chang-U;Song, Chang-Joon;Kim, Byeong-Sik;Kim, Soo-Jun;Kim, Hung-Soo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2010.05a
    • /
    • pp.1196-1200
    • /
    • 2010
  • 본 논문에서는 지점 강우의 결측치를 추정하기 위해 전통적인 통계학적 내삽기법을 이용한 역거리가중치법(IDWM), 역지수가중치법(IEWM), 상관계수가중치법(CCWM)과 패턴 인식의 일종인 인공신경망(ANN)기법 그리고 시공간적 강우분포의 측정이 가능한 레이더 자료를 이용해 결측치를 추정하여 각각의 방법을 비교하였다. 임진강 유역의 15개 지상관측소를 대상으로 교차검정(Cross validation) 분석을 실시해 본 결과, CCWM 방법과 ANN기법에 의한 RMSE가 0.46~1.79의 범위를 보였고, 보정레이더를 이용하여 결측치를 추정한 경우RMSE가 0.05~2.26의 범위를 보여 기존의 전통적 결측치 추정방법보다 실측치에 가까운 결과를 보였다. 이는 레이더자료가 지점 강우자료와는 달리 강우의 시공간적 변동성을 고려한 공간분포의 정보를 지니고 있기 때문인 것으로 판단된다.

  • PDF

Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms (시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교)

  • Park, Boram;Jung, Inkyung
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.5
    • /
    • pp.697-712
    • /
    • 2013
  • When analyzing repeated binary data, the generalized estimating equations(GEE) approach produces consistent estimates for regression parameters even if an incorrect working correlation matrix is used. However, time-varying covariates experience larger changes in coefficients than time-invariant covariates across various working correlation structures for finite samples. In addition, the GEE approach may give biased estimates under missing at random(MAR). Weighted estimating equations and multiple imputation methods have been proposed to reduce biases in parameter estimates under MAR. This article studies if the two methods produce robust estimates across various working correlation structures for longitudinal binary data with time-varying covariates under different missing mechanisms. Through simulation, we observe that time-varying covariates have greater differences in parameter estimates across different working correlation structures than time-invariant covariates. The multiple imputation method produces more robust estimates under any working correlation structure and smaller biases compared to the other two methods.

Comparative Evaluation of the Pollutant Load Estimation Method in the Water Quality Data Missing Intervals (수질자료 결측구간의 오염부하 추정기법 비교평가)

  • Cho, Beom-Jun;Cho, Hong-Yeon;Kahng, Sung-Hyun
    • Journal of Korean Society of Coastal and Ocean Engineers
    • /
    • v.19 no.1
    • /
    • pp.45-56
    • /
    • 2007
  • Direct estimation of the pollutant load(PL) should be carried out by the data filling in the missing intervals using an appropriate method because it is impossible in which the flow discharge(water quantity) or water quality(WQ) time-series data set have the missing intervals. In this study, the several methods estimating the water quality in the missing periods are suggested and the WQ and pollutants load change patterns are compared and evaluated based on the reproducible degree of the available data change patterns. The most appropriate method is finally suggested and the contribution factor deciding the influence degree and the PL characteristics of the river estuary is also suggested. Based on the PL estimation results using the several methods, the interpolation method considering the fluctuation of the available WQ data is shown to be most efficient. The PL patterns of the Han river estuary is classified as the discharge-dominated type. The data filling process is inevitable and the WQ estimation using the efficient and effective method should be carried out in order to estimate reasonable PL.

Analysis of Missing Data Using an Empirical Bayesian Method (경험적 베이지안 방법을 이용한 결측자료 연구)

  • Yoon, Yong Hwa;Choi, Boseung
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.6
    • /
    • pp.1003-1016
    • /
    • 2014
  • Proper missing data imputation is an important procedure to obtain superior results for data analysis based on survey data. This paper deals with both a model based imputation method and model estimation method. We utilized a Bayesian method to solve a boundary solution problem in which we applied a maximum likelihood estimation method. We also deal with a missing mechanism model selection problem using forecasting results and a comparison between model accuracies. We utilized MWPE(modified within precinct error) (Bautista et al., 2007) to measure prediction correctness. We applied proposed ML and Bayesian methods to the Korean presidential election exit poll data of 2012. Based on the analysis, the results under the missing at random mechanism showed superior prediction results than under the missing not at random mechanism.

The Comparison of Imputation Methods in Space Time Series Data with Missing Values (공간시계열모형의 결측치 추정방법 비교)

  • Lee, Sung-Duck;Kim, Duck-Ki
    • Communications for Statistical Applications and Methods
    • /
    • v.17 no.2
    • /
    • pp.263-273
    • /
    • 2010
  • Missing values in time series can be treated as unknown parameters and estimated by maximum likelihood or as random variables and predicted by the conditional expectation of the unknown values given the data. The purpose of this study is to impute missing values which are regarded as the maximum likelihood estimator and random variable in incomplete data and to compare with two methods using ARMA and STAR model. For illustration, the Mumps data reported from the national capital region monthly over the years 2001~2009 are used, and estimate precision of missing values and forecast precision of future data are compared with two methods.