• 제목/요약/키워드: 결측치

검색결과 98건 처리시간 0.033초

순차 적응 최근접 이웃을 활용한 결측값 대치법 (On the Use of Sequential Adaptive Nearest Neighbors for Missing Value Imputation)

  • 박소현;방성완;전명식
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1249-1257
    • /
    • 2011
  • 비모수적 결측치 대치법인 k-최근접 이웃(k-Nearest Neighbors; KNN) 대치법을 개선한 적응 최근접 이웃(Adaptive Nearest Neighbor; ANN) 대치법과 순차 k-최근접 이웃(Sequential k-Nearest Neighbor; SKNN) 대치법의 장점들을 결합한 순차 적응 최근접 이웃(Sequential Adaptive Nearest Neighbor; SANN) 대치법을 제안하고자 한다. 이 방법은 ANN 대치법의 장점인 자료의 국소적 특징을 반영할 뿐 아니라, SKNN 대치법과 같이 결측값 대치가 이루어진 개체를 다음 결측값을 대치할 때 사용함으로써 효율성에 개선이 있을 것으로 기대한다.

시계열자료에서 결측치 추정방법의 비교 (The Comparison of Imputation Methods in Time Series Data with Missing Values)

  • 이성덕;최재혁;김덕기
    • Communications for Statistical Applications and Methods
    • /
    • 제16권4호
    • /
    • pp.723-730
    • /
    • 2009
  • 시계열의 결측값은 미지의 모수로 취급될 수 있으며 최대우도방법 또는 확률변수방법에 의해 추정할 수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할 수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 ARMA 모형을 적용하여 두 가지 추정방법인 최대우도추정방법과 확률변수방법을 이용해 결측값을 대체하는 방법을 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001${\sim}$2006년 동안의 월별 Mumps 자료를 이용하여 앞의 두 가지 추정방법을 예측오차제곱합(SSF)을 구하여 비교한다.

색조영상에서 랜덤결측화소값 대체를 위한 EM 알고리즘 기반 기법 (An EM Algorithm-Based Approach for Imputation of Pixel Values in Color Image)

  • 김승구
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.305-315
    • /
    • 2010
  • 본 논문에서는 색조영상의 R-, G-, B-성분에서 랜덤결측된 화소값들의 대체를 위한 프리퀀티스틱(frequentictic) 기법을 제공한다. 이 기법은 관측영상을 가우시안 마코프 랜덤필드 상의 실현치로서 가정하고, 주어진 화소 내의 근방 화소들이 에지 강도에 따른 서로 다른 분산을 가지는 정규분포를 따른다고 설계함으로써 에지에서 결측화소 대체값이 이질적 색상에 영향 받지 않도록 한다. 이러한 모형하에서 우도가 최대화하도록 결측화소값들을 근사 EM 알고리즘에 기반 한 방법으로 모수들을 추정하고 결측화소를 대체한다. 제안된 방법의 결과들은 보간법에 기초한 대체법과 비교하여 그 유효성을 보인다.

마코프 랜덤 필드 하에서 정규혼합모형에 의한 다중 결측값 대체기법: 색조영상 결측 화소값 대체에 응용 (Imputation of Multiple Missing Values by Normal Mixture Model under Markov Random Field: Application to Imputation of Pixel Values of Color Image)

  • 김승구
    • Communications for Statistical Applications and Methods
    • /
    • 제16권6호
    • /
    • pp.925-936
    • /
    • 2009
  • 자료의 독립성 가청 하에서 EM 알고리즘에 의한 경측치 대체 (imputation of missing values) 기법은 잘 알려져 있다. 그러나 공간자료를 다루는 응용문제에서는 독립성 가정이 확장된 마코프 랜덤 필드 (Markov random field; MRF) 하에서 다루어져야 할 것이다. 이에 본 논문에서는 마코프 랜덤 필드 모형 궁에서 다변량 자료 중에 다중의 결측치의 대체를 위한 EM 알고리즘을 제공한다. 이 기법은 몇 가지 현실척 가정하에서 결국 혼합모형에 의한 대체 기법 임을 보인다. 그리고 제공된 기법으로 3-변량으로 구성된 색조영상(color image)의 결측화소값 대체문제에 적용하여 그 유용성과 문제점을 밝히며, 문제정의 개선방안에 대해 논의한다.

부검체 두발과 장기의 중금속 오염농도 관련성 (A Note on Relationship between Strengths of Heavy Metals Contamination in Scalp Hair and Organs from Autopsy Subjects)

  • 이원기;송명언;송재기;이성국;박성화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제10권1호
    • /
    • pp.215-222
    • /
    • 1999
  • 많은 역학조사에서 두발을 이용하여 체내 중금속 오염 정도를 알아보는 방법이 유용한 것으로 보고 있다. 본 논문에서는 61구의 부검체를 이용하여 다변량기법으로 두발과 장기의 수은 및 카드늄 축적정도를 측정하여 상호간 관련성을 밝히고자 하였다. 그 결과 수은의 경우 두발에서의 축적정도와 2차 축적장기와는 통계적으로 유의한 상관성이 있는 것으로 나타났다.

  • PDF

UTIS 구간통행속도 결측치 보정모델 (Imputation Model for Link Travel Speed Measurement Using UTIS)

  • 기용걸;안계형;김은정;배광수
    • 한국ITS학회 논문지
    • /
    • 제10권6호
    • /
    • pp.63-73
    • /
    • 2011
  • 구간통행속도는 도로의 교통상황을 나타내는 중요한 지표이며, UTIS(Urban Traffic Information System)는 도로의 구간 통행속도를 측정하여 제공하는 대표적인 구간속도 측정시스템이다. 시험운영 결과, 프로브 차량의 미통과, 시스템 H/W 및 S/W 오작동 등의 이유로 UTIS 산출 구간통행속도가 도로의 일부 링크에서 결측되는 현상이 나타나고 있다. 본 논문에서는 이러한 결측구간에 신뢰성 높은 교통정보를 제공하기 위한 구간통행속도 추정 알고리즘을 제안하였다. 제안된 알고리즘을 적용하여 현장실험을 실시한 결과 새로운 알고리즘이 추정한 속도들의 정학도가 93.6%로 분석되었다. 이는 새로운 알고리즘이 결측구간의 속도를 비교적 정확하게 추정하여 구간통행속도 산출 정확도를 높여줌을 나타낸다.

농업기상 결측치 보정을 위한 통계적 시공간모형 (A Missing Value Replacement Method for Agricultural Meteorological Data Using Bayesian Spatio-Temporal Model)

  • 박다인;윤상후
    • 한국환경과학회지
    • /
    • 제27권7호
    • /
    • pp.499-507
    • /
    • 2018
  • Agricultural meteorological information is an important resource that affects farmers' income, food security, and agricultural conditions. Thus, such data are used in various fields that are responsible for planning, enforcing, and evaluating agricultural policies. The meteorological information obtained from automatic weather observation systems operated by rural development agencies contains missing values owing to temporary mechanical or communication deficiencies. It is known that missing values lead to reduction in the reliability and validity of the model. In this study, the hierarchical Bayesian spatio-temporal model suggests replacements for missing values because the meteorological information includes spatio-temporal correlation. The prior distribution is very important in the Bayesian approach. However, we found a problem where the spatial decay parameter was not converged through the trace plot. A suitable spatial decay parameter, estimated on the bias of root-mean-square error (RMSE), which was determined to be the difference between the predicted and observed values. The latitude, longitude, and altitude were considered as covariates. The estimated spatial decay parameters were 0.041 and 0.039, for the spatio-temporal model with latitude and longitude and for latitude, longitude, and altitude, respectively. The posterior distributions were stable after the spatial decay parameter was fixed. root mean square error (RMSE), mean absolute error (MAE), mean absolute percentage error (MAPE), and bias were calculated for model validation. Finally, the missing values were generated using the independent Gaussian process model.

공간시계열모형의 결측치 추정방법 비교 (The Comparison of Imputation Methods in Space Time Series Data with Missing Values)

  • 이성덕;김덕기
    • Communications for Statistical Applications and Methods
    • /
    • 제17권2호
    • /
    • pp.263-273
    • /
    • 2010
  • 시계열의 결측값은 미지의 모수 또는 확률변수로 취급할 수 있으며 이에 따른 최대가능도방법과 확률변수방법에 의해 결측치를 추정할수 있으며 또한 주어진 자료 하에서 미지의 값에 대한 조건부기대치로 예측할수 있다. 이 연구의 주된 목적은 불완전한 자료에 대해 기존에는 ARMA모형만을 고려하였는데 이를 확장하여 공간시계열모형인 STAR모형에 적용하여 두 가지 추정방법을 이용해 결측값의 추정 정밀도를 비교하는데 있다. 사례분석을 위해 한국질병관리본부에서 전산보고 하고 있는 전염병 자료 중에서 2001~2009년 동안의 월별 Mumps 자료를 이용하여 두 가지 추정방법의 추정 정밀도와 예측정확도를 비교하였다.

태양광 발전량 데이터의 시계열 모델 적용을 위한 결측치 보간 방법 연구 (A Research for Imputation Method of Photovoltaic Power Missing Data to Apply Time Series Models)

  • 정하영;홍석훈;전재성;임수창;김종찬;박철영
    • 한국멀티미디어학회논문지
    • /
    • 제24권9호
    • /
    • pp.1251-1260
    • /
    • 2021
  • This paper discusses missing data processing using simple moving average (SMA) and kalman filter. Also SMA and kalman predictive value are made a comparative study. Time series analysis is a generally method to deals with time series data in photovoltaic field. Photovoltaic system records data irregularly whenever the power value changes. Irregularly recorded data must be transferred into a consistent format to get accurate results. Missing data results from the process having same intervals. For the reason, it was imputed using SMA and kalman filter. The kalman filter has better performance to observed data than SMA. SMA graph is stepped line graph and kalman filter graph is a smoothing line graph. MAPE of SMA prediction is 0.00737%, MAPE of kalman prediction is 0.00078%. But time complexity of SMA is O(N) and time complexity of kalman filter is O(D2) about D-dimensional object. Accordingly we suggest that you pick the best way considering computational power.

한반도의 과거 기후 데이터 구축을 위한 누락된 기록 추정 (Estimation of Missing Records in Daily Climate Data over the Korean Peninsula)

  • 노규호;안국현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.135-135
    • /
    • 2020
  • 우리나라의 기후 자료는 일반적으로 기상청에서 발표하는 종관기상관측(ASOS)과 방재기상관측(AWS), 그리고 북한이 세계기상기구(WMO, World Meteorogical Organization)의 기상통신망(GTS)을 통해 보낸 북한기상관측(NKO)을 사용 할 수 있다. 그러나 이 중 40년 이상의 완전한 관측 자료를 얻을 수 있는 건 ASOS가 유일하지만 공간적인 표현에 한계를 갖고 있다. AWS는 관측소가 많다는 장점이 있지만 관측 기간이 길지 않고 이용 가능한 기간에도 관측이 연속적이지 못한 경우가 많다. NKO는 비록 27개의 관측소가 있지만 많은 데이터가 누락되어 일별 기후자료의 사용에 한계를 갖고 있다. 이러한 미관측 기간이나 관측 자료의 누락은 연속적인 시계열 자료분석을 기반으로 하는 수자원 모델링에 있어서 문제를 야기한다. 본 연구는 1973년부터 2019년까지 47년의 신뢰도 높은 한반도 일일 기후 자료를 구축하기 위해 다양한 방법론을 비교하였다. 추정에 사용한 방법은 총 7개로 EM algorithm for probabilistic principal components (PPCA-EM), Inverse distance weight method (IDWM), Nearest neighbor method (NNM), Multivariate normal copulas (Copula), Elastic net model (Elastic), Ordinary kriging (OK), Regularized principal components with EM algorithm (RPCA-EM)를 살펴보았다. 다양한 형태의 결측치를 가정하여 그 결과값을 비교하였고 이는 Root mean squared error(RMSE), Kling-Gupta efficiency(KGE), Nash-Sutcliffe efficiency(NSE)를 통해 평가하였다. 최종 선택된 방법론을 통하여 한반도 전역을 그리드 기반의 강수 및 최저온도/최고온도의 일별자료로 생성하였다.

  • PDF