• 제목/요약/키워드: Imputation method

검색결과 132건 처리시간 0.023초

BLS 무응답 보정법을 이용한 대체법과 이월대체법에 관한 연구 (A Comparison of BLS Non-Response Adjustment and Cross-Wave Regression Imputation Methods)

  • 이상은;신기일
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.909-921
    • /
    • 2010
  • 패널 자료에서 무응답이 발생한 경우에는 횡시점회귀대체법(cross-wave regression imputation) 등과 같은 대체법을 이용하여 무응답 문제를 해결한다. 최근 표본 틀(sampling frame) 자료를 이용하여 무응답 가중치 보정을 하는 BLS 무응답 보정법은 패널 자료에도 적용 가능한 방법으로 알려져있다. 본 논문에서는 패널자료에서 BLS 무응답 보정법을 이용한 대체법을 연구하였으며 자료가 경향이 있는 비정상시계열(nonstationary process with drift)을 따른 다는 조건하에서 BLS 무응답 보정법과 횡시점회귀대체법의 하나인 이월대체법(carry-over imputation)과의 이론적 관계를 살펴보았다. 모의실험을 통하여 이론적인 결과를 확인하였으며, 2007년 매월노동통계 자료를 이용하여 두 방법의 우수성을 비교하였다.

농촌생활지표조사에서 무응답 대체 : 사례 (An Imputation for Nonresponses in the Survey on the Rural Living Indicators)

  • 조영숙;천영민;황대용
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.95-107
    • /
    • 2008
  • 농촌생활지표조사는 2000년부터 농촌자원개발연구소에서 매년 실시하는 조사로서 통계청 승인통계이다. 본 연구에서는 2005년 농촌생활지표조사에 사용된 원자료를 이용하였다. 원자료에 대한 에디팅 과정을 거친 후 무응답이 포함된 개체를 제거하여 얻어진 1,582 가구를 대 상으로 하였으며 총 146문항 중에서 최종 선택되어진 15문항을 증심으로 무응답 대체를 실시하였다. 실험에 사용된 대체법과 각 대체법의 효율성은 자료의 종류에 따라 다르게 적용되었다. 먼저 연속형 자료에 대해서는 평균대체, 회귀대체, 수정된 그레이 기반 k-NN 대체(DU, DW, WU, WW) 방법을 사용하여 무응답을 대체하고 RMSB를 이용하여 실험결과를 비교하였으며, 범주형 자료에 대해서는 최빈값 이용, 확률 대체, 조건부 최빈간 이용, 조건부 학률 대체, 단순 임의 핫덱 대체 방법을 사용하여 무응답을 대체하고 정확도(Accuracy)를 이용하여 실험 결과를 비교하였다. 실험 결과에 의하면 연속형 자료에 대해서는 회귀대체 또는 그레이 기반 k-NN 대체가 적절하고, 범주형 자료에 대해서는 핫덱 대체가 가장 적절한 것으로 나타났다.

Imputation Method Using Local Linear Regression Based on Bidirectional k-nearest-components

  • Yonggeol, Lee
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.62-67
    • /
    • 2023
  • This paper proposes an imputation method using a bidirectional k-nearest components search based local linear regression method. The bidirectional k-nearest-components search method selects components in the dynamic range from the missing points. Unlike the existing methods, which use a fixed-size window, the proposed method can flexibly select adjacent components in an imputation problem. The weight values assigned to the components around the missing points are calculated using local linear regression. The local linear regression method is free from the rank problem in a matrix of dependent variables. In addition, it can calculate the weight values that reflect the data flow in a specific environment, such as a blackout. The original missing values were estimated from a linear combination of the components and their weights. Finally, the estimated value imputes the missing values. In the experimental results, the proposed method outperformed the existing methods when the error between the original data and imputation data was measured using MAE and RMSE.

arraylmpute: Software for Exploratory Analysis and Imputation of Missing Values for Microarray Data

  • Lee, Eun-Kyung;Yoon, Dan-Kyu;Park, Tae-Sung
    • Genomics & Informatics
    • /
    • 제5권3호
    • /
    • pp.129-132
    • /
    • 2007
  • arraylmpute is a software for exploratory analysis of missing data and imputation of missing values in microarray data. It also provides a comparative analysis of the imputed values obtained from various imputation methods. Thus, it allows the users to choose an appropriate imputation method for microarray data. It is built on R and provides a user-friendly graphical interface. Therefore, the users can easily use arraylmpute to explore, estimate missing data, and compare imputation methods for further analysis.

가중치 보정을 이용한 다중대체법 (Multiple Imputation Reducing Outlier Effect using Weight Adjustment Methods)

  • 김진영;신기일
    • 응용통계연구
    • /
    • 제26권4호
    • /
    • pp.635-647
    • /
    • 2013
  • 다중 대체법은 표본조사에서 결측값이 발생하였을 때 가장 흔히 사용하는 방법이다. 이 방법은 여러 요인에 의해 그 성능이 좌우되며 특히 이상점의 영향을 많이 받는다. 본 연구에서는 가중치 보정법을 이용하여 이상점의 영향력을 줄여 다중 대체법의 성능을 향상시키는 방법을 연구하였다. 가중치 보정법을 이용하여 얻어진 최종 가중치를 다중대체에 사용하였으며 SAS의 PROC MI가 다중 대체를 위해 사용되었다. 모의실험과 매월노동통계 자료를 이용한 실제 자료 분석을 통하여 제안된 방법의 우수성을 확인하였다.

Treatment of Missing Data by Decomposition and Voting with Ordinal Data

  • Chun, Young-M.;Son, Hong-K.;Chung, Sung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권3호
    • /
    • pp.585-598
    • /
    • 2007
  • It is so difficult to get complete data when we conduct a questionaire in actuality. And we get inefficient results if we analyze statistical tests with ignoring missing values. Therefore, we use imputation methods which evaluate quality of data. This study proposes a imputation method by decomposition and voting with ordinal data. First, data are sorted by each variable. After that, imputation methods are used by each decomposition level. And the last step is selection of values with voting. The proposed method is evaluated by accuracy and RMSE. In conclusion, missing values are related to each variable, median imputation method using decomposition and voting is powerful.

  • PDF

Improvement of Collaborative Filtering Algorithm Using Imputation Methods

  • Jeong, Hyeong-Chul;Kwak, Min-Jung;Noh, Hyun-Ju
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권3호
    • /
    • pp.441-450
    • /
    • 2003
  • Collaborative filtering is one of the most widely used methodologies for recommendation system. Collaborative filtering is based on a data matrix of each customer's preferences and frequently, there exits missing data problem. We introduced two imputation approach (multiple imputation via Markov Chain Monte Carlo method and multiple imputation via bootstrap method) to improve the prediction performance of collaborative filtering and evaluated the performance using EachMovie data.

  • PDF

Imputation Using Factor Score Regression

  • Lee, Sang-Eun;Hwang, Hee-Jin;Shin, Key-Il
    • Communications for Statistical Applications and Methods
    • /
    • 제16권2호
    • /
    • pp.317-323
    • /
    • 2009
  • Recently not even government polices but small town decisions are based on the survey data/information, so the most of government agencies/organizations demand various sample surveys in each fields for more detail information. However in conducting the sample survey, nonresponse problem rises very often and it becomes a major issue on judging the accuracy of survey. For that matters, one solution ran be using the administration data. However unfortunately most of administration data are restricted to the common users. The other solution can be the imputation. Therefore several method, of imputation are studied in various fields. In this study, in stead of the simple regression imputation method which is commonly used, factor score regression method is applied specially to the incomplete data which have the unit and item misting values in survey data. Here for simulation study, Consumer Expenditure Surveys in Korea are used.

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

패널조사 웨이브 무응답의 대체방법 비교 (Comparisons of Imputation Methods for Wave Nonresponse in Panel Surveys)

  • 김규성;박인호
    • 한국조사연구학회지:조사연구
    • /
    • 제11권1호
    • /
    • pp.1-18
    • /
    • 2010
  • 본 논문에서는 패널조사에서 발생하는 웨이브 무응답을 대체하는 방법을 고찰하였다. 패널조사에서는 이전 조사 데이터를 무응답 대체에 활용할 수 있기 때문에 이러한 성질을 이용하면 횡단면 무응답 대체보다 더 효과적인 웨이브 무응답 대체법을 찾을 수 있다. 먼저 웨이브 무응답 대체를 사용하는 해외의 주요 패널조사를 살펴보고, 웨이브 무응답 대체방법 중 종단면 회귀대체법, 이월대체법, 최근방 회귀대체법, 그리고 행렬대체법을 고찰하였다. 그리고 웨이브 무응답 대체법의 성능을 비교하기 위하여 한국복지패널 데이터를 대상으로 모의실험을 실시하였다. 성능을 비교하기 위하여 평균대체, 회귀대체, 비대체, 최근방 대체, 핫덱 대체를 고려하였고 성능평가 지표로는 예측 정확성 지표와 추정 정확성 지표를 이용하였다. 모의실험 결과 비대체, 행렬대체는 두 지표 모두 우수했고, 회귀대체, 종단면 회귀대체, 이월대체는 예측 정확성은 우수한 반면 추정 정확성은 다소 떨어졌으며, 반대로 최근방 회귀대체, 최근방 대체, 핫덱 대체는 예측 정확성은 떨어지나 추정 정확성은 높은 것으로 나타났다. 마지막으로 평균 대체는 두 지표 모두 좋지 않았다.

  • PDF