• 제목/요약/키워드: missing data imputation

검색결과 144건 처리시간 0.025초

누락교통량자료 보정방법에서 강우의 영향 고려 (Considering of the Rainfall Effect in Missing Traffic Volume Data Imputation Method)

  • 김민현;오주삼
    • 한국ITS학회 논문지
    • /
    • 제14권2호
    • /
    • pp.1-13
    • /
    • 2015
  • 교통량자료는 매우 다양한 분야에서 사용되는 기초자료이다. 교통량자료는 도로교통량조사를 통하여 수집되며, 도로교통량조사 중 기계식 장비를 사용하여 365일 24시간 지속적으로 수집되는 자료를 상시교통량자료라고 한다. 상시교통량자료는 장비의 오작동 및 여러 원인으로 교통량자료누락이 발생하는 경우가 있다. 누락된 교통량자료는 여러 누락보정방법을 적용하여 보정을 수행하고 있다. 하지만, 기존의 누락보정방법론들은 기상에 대한 영향을 전혀 고려하지 않은 실정이다. 따라서 본 연구에서는 기상 중 강우의 영향을 고려한 누락교통량자료 보정방법에 대한 연구를 수행하였다. 이를 위해 우선 일반국도에서 수집한 교통량자료와 기상청의 기상자료의 매칭을 수행하였으며, 이후 일반국도의 특성별로 군집분석 수행 및 분석대상지점 선정을 진행하였다. 세 가지 보정 기법들(평균대체법/자기회귀모형/EM 기법)을 사용하여 전체 자료에서 누락보정을 수행하는 것과 강우일의 자료만을 가지고 누락보정을 수행하여 보정값의 정확도를 평가하였다. 분석 결과 모든 보정방법 및 분석지점에서 과거 강우일의 교통량자료만을 가지고 보정한 경우가 더 정확한 보정값을 산출하는 것으로 분석되었다.

Improvement of Collaborative Filtering Algorithm Using Imputation Methods

  • Jeong, Hyeong-Chul;Kwak, Min-Jung;Noh, Hyun-Ju
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권3호
    • /
    • pp.441-450
    • /
    • 2003
  • Collaborative filtering is one of the most widely used methodologies for recommendation system. Collaborative filtering is based on a data matrix of each customer's preferences and frequently, there exits missing data problem. We introduced two imputation approach (multiple imputation via Markov Chain Monte Carlo method and multiple imputation via bootstrap method) to improve the prediction performance of collaborative filtering and evaluated the performance using EachMovie data.

  • PDF

Comparison of missing data methods in clustered survival data using Bayesian adaptive B-Spline estimation

  • Yoo, Hanna;Lee, Jae Won
    • Communications for Statistical Applications and Methods
    • /
    • 제25권2호
    • /
    • pp.159-172
    • /
    • 2018
  • In many epidemiological studies, missing values in the outcome arise due to censoring. Such censoring is what makes survival analysis special and differentiated from other analytical methods. There are many methods that deal with censored data in survival analysis. However, few studies have dealt with missing covariates in survival data. Furthermore, studies dealing with missing covariates are rare when data are clustered. In this paper, we conducted a simulation study to compare results of several missing data methods when data had clustered multi-structured type with missing covariates. In this study, we modeled unknown baseline hazard and frailty with Bayesian B-Spline to obtain more smooth and accurate estimates. We also used prior information to achieve more accurate results. We assumed the missing mechanism as MAR. We compared the performance of five different missing data techniques and compared these results through simulation studies. We also presented results from a Multi-Center study of Korean IBD patients with Crohn's disease(Lee et al., Journal of the Korean Society of Coloproctology, 28, 188-194, 2012).

REGRESSION FRACTIONAL HOT DECK IMPUTATION

  • Kim, Jae-Kwang
    • Journal of the Korean Statistical Society
    • /
    • 제36권3호
    • /
    • pp.423-434
    • /
    • 2007
  • Imputation using a regression model is a method to preserve the correlation among variables and to provide imputed point estimators. We discuss the implementation of regression imputation using fractional imputation. By a suitable choice of fractional weights, the fractional regression imputation can take the form of hot deck fractional imputation, thus no artificial values are constructed after the imputation. A variance estimator, which extends the method of Kim and Fuller (2004), is also proposed. Results from a limited simulation study are presented.

A Study on Imputation using Adjusted Cohen Method

  • Chung, Sung-Suk;Chun, Young-Min;Lee, Sun-Kyung
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권3호
    • /
    • pp.871-888
    • /
    • 2006
  • Many studies have been done to develop procedures to deal with missing values. Most common method is to reassign the other values to the missing data. The purpose of our study is to suggest adjusted Cohen methods and to compare the efficiency of them with other methods through a simulation study. The adjusted Cohen methods use an auxiliary variable to arrange ranking of the variable with missing values. It leads to a reduced mean square error(MSE) compared with the Cohen method.

  • PDF

BLS 무응답 보정법을 이용한 대체법과 이월대체법에 관한 연구 (A Comparison of BLS Non-Response Adjustment and Cross-Wave Regression Imputation Methods)

  • 이상은;신기일
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.909-921
    • /
    • 2010
  • 패널 자료에서 무응답이 발생한 경우에는 횡시점회귀대체법(cross-wave regression imputation) 등과 같은 대체법을 이용하여 무응답 문제를 해결한다. 최근 표본 틀(sampling frame) 자료를 이용하여 무응답 가중치 보정을 하는 BLS 무응답 보정법은 패널 자료에도 적용 가능한 방법으로 알려져있다. 본 논문에서는 패널자료에서 BLS 무응답 보정법을 이용한 대체법을 연구하였으며 자료가 경향이 있는 비정상시계열(nonstationary process with drift)을 따른 다는 조건하에서 BLS 무응답 보정법과 횡시점회귀대체법의 하나인 이월대체법(carry-over imputation)과의 이론적 관계를 살펴보았다. 모의실험을 통하여 이론적인 결과를 확인하였으며, 2007년 매월노동통계 자료를 이용하여 두 방법의 우수성을 비교하였다.

Comparison of EM with Jackknife Standard Errors and Multiple Imputation Standard Errors

  • Kang, Shin-Soo
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권4호
    • /
    • pp.1079-1086
    • /
    • 2005
  • Most discussions of single imputation methods and the EM algorithm concern point estimation of population quantities with missing values. A second concern is how to get standard errors of the point estimates obtained from the filled-in data by single imputation methods and EM algorithm. Now we focus on how to estimate standard errors with incorporating the additional uncertainty due to nonresponse. There are some approaches to account for the additional uncertainty. The general two possible approaches are considered. One is the jackknife method of resampling methods. The other is multiple imputation(MI). These two approaches are reviewed and compared through simulation studies.

  • PDF

A Modified Grey-Based k-NN Approach for Treatment of Missing Value

  • Chun, Young-M.;Lee, Joon-W.;Chung, Sung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권2호
    • /
    • pp.421-436
    • /
    • 2006
  • Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the deng's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(Wen's GRG & weighted mean) method is the best of any other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.

  • PDF

UTIS 구간통행속도 결측치 보정모델 (Imputation Model for Link Travel Speed Measurement Using UTIS)

  • 기용걸;안계형;김은정;배광수
    • 한국ITS학회 논문지
    • /
    • 제10권6호
    • /
    • pp.63-73
    • /
    • 2011
  • 구간통행속도는 도로의 교통상황을 나타내는 중요한 지표이며, UTIS(Urban Traffic Information System)는 도로의 구간 통행속도를 측정하여 제공하는 대표적인 구간속도 측정시스템이다. 시험운영 결과, 프로브 차량의 미통과, 시스템 H/W 및 S/W 오작동 등의 이유로 UTIS 산출 구간통행속도가 도로의 일부 링크에서 결측되는 현상이 나타나고 있다. 본 논문에서는 이러한 결측구간에 신뢰성 높은 교통정보를 제공하기 위한 구간통행속도 추정 알고리즘을 제안하였다. 제안된 알고리즘을 적용하여 현장실험을 실시한 결과 새로운 알고리즘이 추정한 속도들의 정학도가 93.6%로 분석되었다. 이는 새로운 알고리즘이 결측구간의 속도를 비교적 정확하게 추정하여 구간통행속도 산출 정확도를 높여줌을 나타낸다.

TCS데이터를 이용한 이상치제거 및 결측보정 알고리즘 개발 (Outlier Filtering and Missing Data Imputation Algorithm using TCS Data)

  • 도명식;이향미;남궁성
    • 대한교통학회지
    • /
    • 제26권4호
    • /
    • pp.241-250
    • /
    • 2008
  • 지능형 교통체계구축과 교통 혼잡이 증가하면서 이용자는 과거보다 양질의 통행시간정보를 요구하고 있다. 기존 연구에서는 단속류, 연속류 모두 AVI검지기 자료를 이용한 이상치제거 및 통행시간 산출에 대한 연구가 많이 이루어져왔다. 현재 한국도로공사에서는 TCS(Toll Collection System)를 기반으로 정보제공을 준비 중에 있으며, TCS 데이터는 운전자가 실제교통상황을 경험한 동적특성을 가진 통행시간이 수집된 자료로 통행시간 추정자료로 잠재력이 크다. 그러나 '시간처짐현상'이 발생하고 속도위반, 휴게소, 고장 등으로 인해 평균통행시간보다 작거나 큰 이상치와 결측데이터가 존재하여 기존 방법을 적용하는데 효과적이지 못한 것으로 나타났다. 따라서 본 연구에서는 TCS 데이터에 맞는 이상치제거 및 결측보정 알고리즘을 개발하였다. 기존알고리즘과 비교한 결과 개발 알고리즘이 더 효과적인 것으로 나타났다.