• 제목/요약/키워드: Imputation method

검색결과 132건 처리시간 0.022초

Identification of Differentially Expressed Genes Using Tests Based on Multiple Imputations

  • Kim, Sang Cheol;Yu, Donghyeon
    • Quantitative Bio-Science
    • /
    • 제36권1호
    • /
    • pp.23-31
    • /
    • 2017
  • Datasets from DNA microarray experiments, which are in the form of large matrices of expression levels of genes, often have missing values. However, the existing statistical methods including the principle components analysis (PCA) and Hotelling's t-test are not directly applicable for the datasets having missing values due to the fact that they assume the observed dataset is complete in general. Many methods have been proposed in previous literature to impute the missing in the observed data. Troyanskaya et al. [1] study the k-nearest neighbor (kNN) imputation, Kim et al. [2] propose the local least squares (LLS) method and Rubin [3] propose the multiple imputation (MI) for missing values. To identify differentially expressed genes, we propose a new testing procedure when the missing exists in the observed data. The proposed procedure uses the Stouffer's z-scores and combines the test results of individual imputed samples, which are dependent to each other. We numerically show that the proposed test procedure based on MI performs better than the existing test procedures based on single imputation (SI) by comparing their ROC curves. We apply the proposed method to analyzing a public microarray data.

패널자료에서의 항목무응답 대체 방법 비교 (Comparison of imputation methods for item nonresponses in a panel study)

  • 이혜정;송주원
    • 응용통계연구
    • /
    • 제30권3호
    • /
    • pp.377-390
    • /
    • 2017
  • 설문조사를 실시할 때 응답자가 설문조사의 일부 문항에 대하여 응답하지 않는 경우 항목무응답이 발생한다. 무응답이 발생한 자료를 제외하고 완전하게 응답된 자료 만에 근거한 분석은 분석 결과에 편의가 발생할 수 있으므로, 이를 채워 넣어 완전한 형태의 자료로 분석하기 위해서 무응답 대체가 흔히 사용되고 있으며 여러 가지 무응답 대체 기법들을 비교하는 연구들도 많이 존재한다. 패널조사 연구는 연구 대상 패널에 대하여 정해진 시간에 따라 반복적으로 동일한 설문 문항에 대하여 응답을 조사하여 시간에 따른 변화를 살펴보는 조사 방법을 나타낸다. 패널조사 자료의 항목 무응답을 대체할 때 이전 시점의 응답 자료가 존재한다면 이를 포함하여 대체를 실시하는 것이 바람직한 것으로 여겨져 왔으나 이에 관한 직접적인 연구는 찾기 힘들다. 따라서 본 연구에서는 패널자료에서 이전 시점의 정보를 고려하지 않고 대체를 실시하는 방법과 이전 시점의 정보를 활용하여 대체하는 방법들 중에서 어느 대체 방법이 보다 적절한 대체를 제공하는지 살펴보았다. 특히 이전 시점의 응답 정보를 이용하는 방법인 비대체, 선형혼합모형을 이용한 대체와 선형혼합모형에 근거한 베이지안 대체 방법을 고려하였고, 이를 이전 시점의 정보를 고려하지 않는 대체 방법들 중 흔히 사용되는 평균대체, 핫덱대체 방법과 비교하였다. 모의실험 결과 선형혼합모형에 근거한 베이지 안 대체 방법이 다른 대체 방법에 비해 무응답 비율이 높아지더라도 편의도 작으며 평균에 관한 95% 신뢰구간의 포함률도 높게 나타나서 가장 좋은 대체 방법으로 확인되었다.

베이지안 분계점 모형에 의한 순서 범주형 변수의 대체 (Imputation for Binary or Ordered Categorical Traits Based on the Bayesian Threshold Model)

  • 이승천
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.597-606
    • /
    • 2005
  • 대개의 표본조사에서 무응답은 필연적으로 발생되고 있고, 직접 표본조사에 참가하지 않은 데이터의 사용자는 무응답의 원인을 알 수 없는 것이 일반적이므로 데이터 분석에 어려움을 갖는다. 또 대부분의 통계분석 방법은 무응답을 전제하지 않고 있어 무응답이 있는 항목은 데이터 분석의 걸림돌이 된다고 하겠다. 최근 무응답에 대해 대체법이 하나의 표준적인 처리 방법이 되고 있어 현재까지 대체법에 대한 많은 연구가 있었으나 대부분의 대체법은 정규성 등을 가정한 연속형 변수의 대체법에 대한 것이었다. 그러나 표본조사에서 많은 중요한 항목들이 순서 범주에 의해 측정되는 경우가 많으므로 범주형변수의 대체법에 대한 연구가 필요하며, 본 연구에서는 보조변수가 있는 경우 Bayesian 모형에 의한 순서범주형 항목의 대체법에 대해 알아본다.

A Modified Grey-Based k-NN Approach for Treatment of Missing Value

  • Chun, Young-M.;Lee, Joon-W.;Chung, Sung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권2호
    • /
    • pp.421-436
    • /
    • 2006
  • Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the deng's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(Wen's GRG & weighted mean) method is the best of any other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.

  • PDF

A Study on the Treatment of Missing Value using Grey Relational Grade and k-NN Approach

  • 천영민;정성석
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2006년도 PROCEEDINGS OF JOINT CONFERENCEOF KDISS AND KDAS
    • /
    • pp.55-62
    • /
    • 2006
  • Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the dong's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute a missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(wen's GRG & weighted mean) method is the best of my other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.

  • PDF

A Naive Multiple Imputation Method for Ignorable Nonresponse

  • Lee, Seung-Chun
    • Communications for Statistical Applications and Methods
    • /
    • 제11권2호
    • /
    • pp.399-411
    • /
    • 2004
  • A common method of handling nonresponse in sample survey is to delete the cases, which may result in a substantial loss of cases. Thus in certain situation, it is of interest to create a complete set of sample values. In this case, a popular approach is to impute the missing values in the sample by the mean or the median of responders. The difficulty with this method which just replaces each missing value with a single imputed value is that inferences based on the completed dataset underestimate the precision of the inferential procedure. Various suggestions have been made to overcome the difficulty but they might not be appropriate for public-use files where the user has only limited information for about the reasons for nonresponse. In this note, a multiple imputation method is considered to create complete dataset which might be used for all possible inferential procedures without misleading or underestimating the precision.

이질적인 중도절단분포 하에서 생존분포의 동일성 검정법 비교연구 (A Comparison of Survival Distributions with Unequal Censoring Distributions)

  • 송수정;이재원
    • 응용통계연구
    • /
    • 제27권1호
    • /
    • pp.1-11
    • /
    • 2014
  • 세 개 이상의 집단에 대한 생존분포의 비교를 위해 가중 로그순위 검정법(Weighted Logrank test)과 그의 특별한 경우인 로그순위 검정법(Logrank test)이 널리 쓰인다. 그러나 이 방법은 근사적인 분포를 이용한 방법이므로 표본 크기가 작은 경우에는 유효하지 못할 수 있으며, 각 집단의 중도절단 분포가 동일하다는 가정 또한 충족되어야 하기 때문에 이 가정이 충족되지 못할 경우에도 검정법의 유효성을 장담할 수 없다. 표본 크기가 작은 경우에 대한 대안으로, 분포에 대한 가정이 없이 관찰된 자료만으로 검정통계량의 분포를 추정하고 그 분포를 이용해 검정하는 순열 검정법(Permutation test)이 제안되었으나, 순열 검정법 또한 각 집단의 중도절단 분포가 동일하다는 가정이 충족되어야 한다. 따라서 순열 검정법을 향상시킨 순열-대치 검정법(Permutation-Imputation test)이 대안이 될 수 있는데, 이는 대치 단계(Imputation step)에서 귀무가설 하에서의 생존확률이 집단에 의존하지 않도록 자료를 조정한 후 순열 검정 단계(Permutation step)를 통해 검정하는 방법이다. 본 논문에서는 근사적 방법, 순열 검정법, 순열-대치 검정법을 로그순위 검정법과 가중 로그순위 검정법의 한 형태인 Prentice-Wilcoxon 검정법에 적용해 각 검정법의 유효성과 검정력을 비교하였다.

누락교통량자료 보정방법에서 강우의 영향 고려 (Considering of the Rainfall Effect in Missing Traffic Volume Data Imputation Method)

  • 김민현;오주삼
    • 한국ITS학회 논문지
    • /
    • 제14권2호
    • /
    • pp.1-13
    • /
    • 2015
  • 교통량자료는 매우 다양한 분야에서 사용되는 기초자료이다. 교통량자료는 도로교통량조사를 통하여 수집되며, 도로교통량조사 중 기계식 장비를 사용하여 365일 24시간 지속적으로 수집되는 자료를 상시교통량자료라고 한다. 상시교통량자료는 장비의 오작동 및 여러 원인으로 교통량자료누락이 발생하는 경우가 있다. 누락된 교통량자료는 여러 누락보정방법을 적용하여 보정을 수행하고 있다. 하지만, 기존의 누락보정방법론들은 기상에 대한 영향을 전혀 고려하지 않은 실정이다. 따라서 본 연구에서는 기상 중 강우의 영향을 고려한 누락교통량자료 보정방법에 대한 연구를 수행하였다. 이를 위해 우선 일반국도에서 수집한 교통량자료와 기상청의 기상자료의 매칭을 수행하였으며, 이후 일반국도의 특성별로 군집분석 수행 및 분석대상지점 선정을 진행하였다. 세 가지 보정 기법들(평균대체법/자기회귀모형/EM 기법)을 사용하여 전체 자료에서 누락보정을 수행하는 것과 강우일의 자료만을 가지고 누락보정을 수행하여 보정값의 정확도를 평가하였다. 분석 결과 모든 보정방법 및 분석지점에서 과거 강우일의 교통량자료만을 가지고 보정한 경우가 더 정확한 보정값을 산출하는 것으로 분석되었다.

A Comparative Study of Microarray Data with Survival Times Based on Several Missing Mechanism

  • Kim Jee-Yun;Hwang Jin-Soo;Kim Seong-Sun
    • Communications for Statistical Applications and Methods
    • /
    • 제13권1호
    • /
    • pp.101-111
    • /
    • 2006
  • One of the most widely used method of handling missingness in microarray data is the kNN(k Nearest Neighborhood) method. Recently Li and Gui (2004) suggested, so called PCR(Partial Cox Regression) method which deals with censored survival times and microarray data efficiently via kNN imputation method. In this article, we try to show that the way to treat missingness eventually affects the further statistical analysis.

임상시험에서 이분형 결측치 처리방법의 비교연구 (Comparison of binary data imputation methods in clinical trials)

  • 안구성;김동재
    • 응용통계연구
    • /
    • 제29권3호
    • /
    • pp.539-547
    • /
    • 2016
  • 임상시험에서 흔히 발생하는 결측치 중 이분형 결측치에 대한 논의를 하였다. 본 논문에서는 결측치가 발생하는 기재를 논의하고 기존의 여러 이분형 결측치 대체 방법과 수정된 결측치 대체방법을 소개하였다. 이후 각 결측치 대체 방법을 실제 자료에 적용하여 모의 실험을 진행하였다. 실제 자료의 성격 및 결측률의 변화에 따른 결측치 대체 방법들의 성능비교를 통해 진행하였다. 마지막으로 각 결측치 대체 방법에 대한 모의 실험 결과를 요약하고 토의하였다.