• 제목/요약/키워드: 결측자료 추정

검색결과 84건 처리시간 0.035초

Imputation Method를 활용한 수문 결측자료의 보정 (Filling in Hydrological Missing Data Using Imputation Methods)

  • 강태호;홍일표;김영오
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2009년도 학술발표회 초록집
    • /
    • pp.1254-1259
    • /
    • 2009
  • 과거 관측된 수문자료는 분석을 통해 다양한 수문모형의 평가 및 예측과 수자원 정책결정에서 활용된다. 하지만 관측장비의 오작동 및 관측범위의 한계에 의해 수집된 자료에는 결측이 존재한다. 단순히 결측이 존재하는 벡터를 제외하거나, 결측이 존재하는 자료 구간에 선형성이 존재한다는 가정 하에 평균을 활용하기도 했으나, 이로 인하여 자료의 통계특성에 왜곡이 야기될 수 있다. 본 연구는 결측의 보정으로 자료가 보유하는 정보의 손실 및 왜곡을 최소화 할 수 있는 방안을 연구하고자 한다. 자료의 결측은 크게 완벽한 무작위 결측(missing completely at random, MCAR), 무작위 결측(missing at random, MAR), 무작위성이 없는 결측(nonrandom missingness)으로 분류되며, 수문자료는 결측을 포함한 기간이 그 외 기간의 자료와 통계적으로 동일하지는 않지만 결측자료의 추정이 가능한 MAR에 속하는 것이 일반적이므로 이를 가정으로 결측을 보정하였다. Local Lest Squares Imputation(LLSimput)을 결측의 추정을 위해 사용하였으며, 기존에 쉽게 사용되던 선형보간법과 비교하였다. 적용성 평가를 위해 소양강댐 일 유입량 자료에 1 - 5 %의 결측자료를 임의로 생성하였다. 동일한 양의 결측자료에 대해 100개의 셋을 사용하여 보정의 불확실성 범위를 적용된 방법에 대해 비교..평가하였으며, 결측 증가에 따른 보정효과의 변화를 검토하였다. Normalized Root Mean Squared Error(NRMSE)를 사용하여 적용된 두 방법을 평가한 결과, (1) 결측자료의 비가 낮을수록 간단한 선형보간법을 사용한 보정이 효과적이었다. (2) 하지만 결측의 비가 증가할수록 선형보간법의 보정효과는 점차 큰 불확실성과 낮은 보정효과를 보인 반면, (3) LLSimpute는 결측의 증가에 관계없이 일정한 보정효과 및 불확실성 범위를 나타내는 것으로 드러났다.

  • PDF

신경망 모형을 이용한 결측 강우 자료 추정방법의 적용성 연구 (Applicability of Missing Rainfall Data Estimation using Artificial Neural Networks)

  • 조혜린;박희성;김형섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.512-512
    • /
    • 2015
  • 시 공간적 관측에서 다양한 원인에 의해 강우 자료에 결측이나 오측이 발생할 수 있다. 강우를 측정하고 자료를 수집 관리하는 측면에서 결측 되거나 오측된 자료를 추정 보완할 필요가 있다. 현재까지 결측 강우 자료를 추정하기 위한 방법으로 결측 지점 인근의 관측소를 이용한 단순 가중 평균치 방법에서부터 복잡한 통계적 기반의 보간 방법에 이르기까지 많은 연구들이 진행되고있다. 본 연구에서는 결측 된 강우 자료를 추정하기 위해 인공 신경망을 이용하여 모형을 구축하고 주변 관측소의 강우자료를 이용해 신경망 학습을 실시하여 적용해 보았으며, 최근 관측의 단위가 짧아지고 있는 점을 고려하여 10분, 30분, 1시간 등 다양한 시간간격의 강우자료를 구축하고 선형회귀모형과 RDS 방법, 신경망 모형을 이용한 방법 등을 적용한 결과를 비교하여 신경망 모형의 적용성을 살펴보았다. 단순한 구조면에서는 기존의 RDS 방법에 대한 적용성이 높은 것으로 판단되었으나, 성능의 개선을 위한 별다른 방법이 없는 반면 신경망 모형은 입력 자료를 다양하게 변환하여 구성하는 경우 성능을 개선하여 적용성이 더 높아 질 수 있는 것으로 판단되었다. 향후 신경망 모형을 이용해 잘못 측정된 강우를 적절히 선별하고 결측된 보완함으로써 관측된 강우 자료의 활용성을 높일 수 있을 것이다.

  • PDF

차량 결측속도정보 추정에 관한 연구 (Missing Data Estimation for Link Travel Time)

  • 윤원식;정희철
    • 대한교통학회지
    • /
    • 제26권2호
    • /
    • pp.101-107
    • /
    • 2008
  • 실시간의 차량 검지 자료 수집시 검지기 고장이나 네트워크의 지연 등의 문제로 인하여 교통정보가 결측되는 현상이 발생한다. 이는 결과적으로 사용자에게 제공되는 구간별 속도정보의 결측으로 이어진다. 본 논문에서는 이와같이 결측된 속도정보를 보정하여 신뢰성 있는 속도정보 제공을 목적으로 한다. 본 연구는 유사도로의 속도정보를 기반으로 한 여러 신호처리 알고리즘을 사용하였는데, 과거의 속도 정보를 이용하여 가장 좋은 결과를 도출하는 알고리즘을 선정한 후 결측자료를 추정하는 방법으로 결측자료를 도출한다. 서울 시내 간선도로 및 고속도로의 자료를 사용하여 제안된 추정기법의 성능을 보였다.

해양모니터링 자료의 장기결측 보충 기법 (Long-gap Filling Method for the Coastal Monitoring Data)

  • 조홍연;이기섭;이욱재
    • 한국해안·해양공학회논문집
    • /
    • 제33권6호
    • /
    • pp.333-344
    • /
    • 2021
  • 해양모니터링 자료에서 빈번하게 발생하는 장기결측구간의 자료 보충기법을 제안한다. 제안하는 방법은 결측구간의 장기변동 추세 성분과 단기변동 잔차성분을 추정하여 조합하는 방식으로 결측구간의 미지 정보를 추정한다. 이 방법을 이용하여 울릉도 해상부이 자료의 수온 항목, 약 1개월 정도의 장기결측 구간의 자료를 보충하였으며, 부이에서 관측하는 자료 항목에 대해서도 결측 보충을 수행하였다. 보충된 자료는 항목에 따라 차이를 보이지만 변동양상이 적절하게 재현되는 것으로 파악되었다. 이 방법은 추세추정과 잔차 반영에 따른 편향오차와 분산오차가 발생하지만, 장기결측으로 인한 통계적인 측도 추정의 편향오차는 크게 절감하는 것으로 파악되었다. 결측보충 모형의 추정 RMS 오차의 평균과 90% 신뢰구간은 각각 0.93, 0.35~1.95 범위이다.

SOLAS를 이용한 결측자료의 다중대치법

  • 김현정;문승호;신재경
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2003년도 춘계학술대회
    • /
    • pp.145-158
    • /
    • 2003
  • 불완전 데이터 즉, 결측값을 가지는 데이터를 분석할 경우 결측데이터에 대해서 어떠한 처리를 해야할 필요가 있다. 결측데이터에 대한 처리로서 주로 이용되어온 방법으로는 결측값을 포함한 관측값(case)을 제외하는 방법이었다. 이후 여러 방법들이 제안되어 EM알고리즘이나 회귀알고리즘에 의한 추정을 바탕으로 결측값에 대한 추정을 해서 그 추정값으로 결측값을 대치하는 방법을 사용할 수 있게되었다. 본 논문에서는 복수 개의 데이터세트를 생성해서 대치하는 다중대입 소프트인 SOLAS를 소개한다.

  • PDF

레이더 자료를 이용한 시공간적 변동성을 고려한 강우의 결측치 추정 (Estimation of Missing Rainfall Data Considering Spatio-Temporal Variation Using Radar Data)

  • 송창우;송창준;김병식;;김형수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2010년도 학술발표회
    • /
    • pp.1196-1200
    • /
    • 2010
  • 본 논문에서는 지점 강우의 결측치를 추정하기 위해 전통적인 통계학적 내삽기법을 이용한 역거리가중치법(IDWM), 역지수가중치법(IEWM), 상관계수가중치법(CCWM)과 패턴 인식의 일종인 인공신경망(ANN)기법 그리고 시공간적 강우분포의 측정이 가능한 레이더 자료를 이용해 결측치를 추정하여 각각의 방법을 비교하였다. 임진강 유역의 15개 지상관측소를 대상으로 교차검정(Cross validation) 분석을 실시해 본 결과, CCWM 방법과 ANN기법에 의한 RMSE가 0.46~1.79의 범위를 보였고, 보정레이더를 이용하여 결측치를 추정한 경우RMSE가 0.05~2.26의 범위를 보여 기존의 전통적 결측치 추정방법보다 실측치에 가까운 결과를 보였다. 이는 레이더자료가 지점 강우자료와는 달리 강우의 시공간적 변동성을 고려한 공간분포의 정보를 지니고 있기 때문인 것으로 판단된다.

  • PDF

시간-종속적 공변량이 포함된 이분형 반복측정자료의 GEE를 이용한 분석에서 결측 체계에 따른 회귀계수 추정방법 비교 (Comparison of GEE Estimation Methods for Repeated Binary Data with Time-Varying Covariates on Different Missing Mechanisms)

  • 박보람;정인경
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.697-712
    • /
    • 2013
  • 다시점 자료 연구에서 일반화추정방정식은 가상관행렬을 잘못 가정하더라도 모수의 일치추정량을 도출하므로 많이 이용된다. 하지만, 결측 체계가 완전임의결측이 아닌 경우에는 편의추정량을 제공하고, 시간-종속적 공변량이 포함된 경우에는 가상관행렬에 따라 회귀계수 추정값이 다르게 도출될 수 있는 문제점이 있다. 결측 체계가 임의결측인 경우에 발생하는 문제를 해결하기 위해 가중 방법과 다중대체 방법을 사용하는 것이 제안되었다. 본 논문에서는 시간-종속적 공변량이 포함된 이분형 반복측정자료를 GEE를 이용하여 분석할 때 다양한 결측 체계에서 일반화추정방정식 방법, 가중 방법, 다중대체 방법의 회귀계수 추정에 대한 로버스트성과 정확성을 모의실험을 통하여 비교해 보았다. 세 가지 방법 모두에서 시간-종속적 공변량의 회귀계수가 시간-독립적 공변량의 회귀계수에 비해 가상관행렬에 따라 추정값의 차이가 크게 나타났다. 다른 두 방법에 비해 다중대체 방법이 가상관행렬의 형태에 대해 더 로버스트하고 편의도 작은 추정치를 도출하였다.

수질자료 결측구간의 오염부하 추정기법 비교평가 (Comparative Evaluation of the Pollutant Load Estimation Method in the Water Quality Data Missing Intervals)

  • 조범준;조홍연;강성현
    • 한국해안해양공학회지
    • /
    • 제19권1호
    • /
    • pp.45-56
    • /
    • 2007
  • 수량 및 수질자료, 특히 수질자료가 없는 구간에서의 직접계산에 의한 오염부하 산정은 불가능하기 때문에 적절한 방법을 이용하여 결측구간의 자료를 보완(data filling)하여 계산하는 추정과정을 필요로 한다. 본 연구에서는 수질자료가 없는 구간, 즉 수질 결측구간에서 오염부하량을 산정하기 위한 다양한 농도 추정방법을 제시하고, 제시된 방법을 이용하여 추정된 농도변화 양상 분석 및 오염부하 변동양상을 비교 분석하여 보다 효과적이고, 효율적인 추정방법을 최종 제안하였다. 또한, 오염부하에 영향을 미치는 수량 및 수질인자의 상대적인 중요성과 연안 하천의 오염부하 특성을 구분할 수 있는 영향인자를 제시하였다. 수질자료 결측구간의 다양한 농도 추정방법을 이용하여 한강하구의 오염부하를 산정한 결과, 결측구간을 제외하고 추정한 오염부하는 매우 낮은 비현실적인 결과를 제시하였으며, 가용자료의 변동성을 고려한 선형내삽법이 가장 적합한 방법으로 파악되었다. 또한, 한강하구의 오염부하양상은 수량주도형으로 판단되었으며, 결측구간의 농도추정은 불가피한 과정으로 적절한 추정방법을 이용하는 것이 보다 바람직한 것으로 파악되었다.

경험적 베이지안 방법을 이용한 결측자료 연구 (Analysis of Missing Data Using an Empirical Bayesian Method)

  • 윤용화;최보승
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.1003-1016
    • /
    • 2014
  • 조사를 통하여 수집된 자료에 기반하여 분석을 수행하는데 있어서 결측값에 대한 적절한 대체 방법은 보다 정확한 결과를 얻기 위한 매우 중요한 절차이다. 본 연구에서는 모형에 기반하여 결측자료에 대한 대체방법과 모형 추정방법을 다루었다. 특히 최대우도추정 방법의 적용에서 발생할 수 있는 변방값 문제(bounday soluntion problem)를 해결하기 위하여 베이지안 방법을 적용하였다. 분석된 결과를 바탕으로 하여 예측을 수행한 후 결측체계에 따른 정확성 비교를 수행하여 결측체계에 따른 결측모형의 선택 문제를 다루었다. 예측의 정확도를 측정하기 위하여 Bautista 등 (2007)이 제안한 MWPE(modified within precinct error) 이용하여 비교를 수행 하였다. 본 연구에서 제시된 방법들은 2012년에 시행된 제 18대 대통령 선거 당일 시행된 출구조사의 자료를 적용하여 분석을 수행하였다. 분석 결과 임의결측체계의 가정에 따른 결과가 비임의체계 가정에 따른 결과보다 예측의 정확도가 더 높았다.

공간시계열모형의 결측치 추정방법 비교 (The Comparison of Imputation Methods in Space Time Series Data with Missing Values)

  • 이성덕;김덕기
    • Communications for Statistical Applications and Methods
    • /
    • 제17권2호
    • /
    • pp.263-273
    • /
    • 2010
  • 시계열의 결측값은 미지의 모수 또는 확률변수로 취급할 수 있으며 이에 따른 최대가능도방법과 확률변수방법에 의해 결측치를 추정할수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 기존에는 ARMA모형만을 고려하였는데 이를 확장하여 공간시계열모형인 STAR모형에 적용하여 두 가지 추정방법을 이용해 결측값의 추정 정밀도를 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001~2009년 동안의 월별 Mumps 자료를 이용하여 두 가지 추정방법의 추정 정밀도와 예측정확도를 비교하였다.