• 제목/요약/키워드: family-wise error rate

검색결과 8건 처리시간 0.02초

유전자 발현 데이터에 대한 다중검정법 비교 및 분석 (Comparison and analysis of multiple testing methods for microarray gene expression data)

  • 서수민;김태훈;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.971-986
    • /
    • 2014
  • 동시에 여러 개의 가설검정 수행시 귀무가설이 참일 경우 귀무가설을 기각할 확률이 커지는 문제가 발생한다. 이러한 다중검정 문제 해결을 위해 여러 연구에서는 가설검정시 필요한 집단별 오류율(FWER; family-wise error rate), 위발견율 (FDR; false discovery rate) 또는 위비발견율 (FNR; false nondiscovery rate) 과 통계량을 고려하여 검정력을 높이고자 하였다. 본 연구에서는 T 통계량, 수정된 T 통계량, 그리고 LPE (local pooled error) 통계량 기반 P값을 이용한 Bonferroni (1960) 방법, Holm (1979) 방법, Benjamini와 Hochberg (1995) 방법과 Benjamini와 Yekutieli (2001) 방법 그리고 Z 통계량 기반 Sun과 Cai (2007) 방법을 고찰하고 모의실험을 통해 다중검정 능력을 비교하였다. 또한 실제 데이터로 애기장대 유전자 발현 데이터에 대해 여러 가지 다중검정법을 통해 유의한 유전자들을 선별하였다.

유효하고 안전한 용량 결정에 위치를 이용한 비모수적 방법 (Nonparmetric Method for Identifying Effective and Safe Doses using Placement)

  • 김선혜;김동재
    • 응용통계연구
    • /
    • 제27권7호
    • /
    • pp.1197-1205
    • /
    • 2014
  • 일반적으로 약제 용량 결정 연구는 대조군과 여러 용량 수준을 비교하여 유효성과 안전성을 동시에 만족하는 약물의 치료 범위(therapeutic window)를 찾아내는 데에 관심이 있다. 이 논문에서는 안전성과 유효성을 동시에 만족하는 용량 결정을 위하여 선형 위치(linear placement)에 점수함수(score function)를 이용한 비모수적 검정법을 제안하였다. 또한 Monte Carlo 모의실험을 통하여 기존의 모수적 방법들과 검정력(power)과 FWE(family-wise error rate)를 비교하였다.

다중 그룹 상황에서의 최소 효과 용량을 정하는 비모수적 검정법 (Nonparametric Procedures for Finding the Minimum Effective Dose in Each of Several Group)

  • 배수현;김동재
    • Communications for Statistical Applications and Methods
    • /
    • 제19권1호
    • /
    • pp.33-45
    • /
    • 2012
  • 신약 개발 연구 또는 임상시험에서 개발된 약이 0용량 대조군과 비교해 효과 차이가 있는 가장 작은 용량을 최소 효과 용량(MED)이라 한다. 본 논문에서는 다중 그룹 상황에서 동시적(simultaneous)으로 각 각 그룹의 최소 효과 용량을 확인하기 위하여 위치(placement)에 기초한 비모수적 방법을 제시하였다. 또한 Monte Carlo 모의실험을 통하여 기존에 제시된 검정법과 본 논문에서 제안한 검정법의 검정력(power)과 FWE(Family-wise Error Rate)를비교하였다.

반복이 있는 랜덤화 블록 모형에서 정렬방법과 결합위치를 이용한 비모수 다중비교법 (Nonparametric multiple comparison method using aligned method and joint placement in randomized block design with replications)

  • 황주원;김동재
    • 응용통계연구
    • /
    • 제31권5호
    • /
    • pp.599-610
    • /
    • 2018
  • 반복이 있는 랜덤화 블록 모형(randomized block design with replications)에서 비모수 다중비교 방법으로는 Mack과 Skillings (Technometrics, 23, 171-177, 1981) 방법이 있다. 이 방법은 각 블록의 처리에서 반복된 관측값 대신 관측값들의 평균을 이용해 순위를 매기기 때문에 정보의 손실이 발생할 가능성이 있다. 이를 보완하기 위해 본 논문에서는 Hodges와 Lehmann (The Annals of Mathematical Statistics, 33, 482-497, 1962)이 제안한 정렬방법과 Chung과 Kim (Communications for Statistical Applications and Methods, 14, 551-560, 2007)이 제안한 결합위치 검정법을 확장하여 반복이 있는 랜덤화 블록 모형에서 새로운 비모수 다중비교 방법을 제시하였다. 또한 몬테카를로 모의실험(Monte Carlo simulation)을 통해 모수적 방법과 기존의 비모수적 방법과의 family wise error rate (FWE)와 검정력을 비교하였다.

일원배치모형에서 결합위치를 이용한 비모수 다중비교법 (Nonparametric multiple comparison method in one-way layout based on joint placement)

  • 석다희;김동재
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.1027-1036
    • /
    • 2017
  • 일원배치모형에서 세 개 이상의 처리 간에 차이 유무를 검정하여 귀무가설이 기각됐다면, 어떤 것이 통계적으로 유의한 결과인지 확인하기 위해서는 다중비교 방법이 필요하다. 대표적인 모수적 검정법으로는 Tukey (1953), 비모수적 검정법으로는 Kruskal-Wallis (1952)의 검정에 기초한 방법이 있다. 이 방법은 전체 자료에 대한 혼합표본에 순위를 부여한 후 세 개 이상의 각 처리별 평균 순위를 이용한 검정방법이다. 본 논문에서는 Chung과 Kim (2007)이 제안한 결합위치 검정법을 확장하여 일원배치모형에서 새로운 비모수적 다중비교 방법을 제안하였다. 또한 모의실험(Monte Carlo simulation)을 통해 기존의 검정방법들과 제안한 방법의 family wise error rate (FWE)와 검정력을 비교하였다.

Multiple Testing in Genomic Sequences Using Hamming Distance

  • Kang, Moonsu
    • Communications for Statistical Applications and Methods
    • /
    • 제19권6호
    • /
    • pp.899-904
    • /
    • 2012
  • High-dimensional categorical data models with small sample sizes have not been used extensively in genomic sequences that involve count (or discrete) or purely qualitative responses. A basic task is to identify differentially expressed genes (or positions) among a number of genes. It requires an appropriate test statistics and a corresponding multiple testing procedure so that a multivariate analysis of variance should not be feasible. A family wise error rate(FWER) is not appropriate to test thousands of genes simultaneously in a multiple testing procedure. False discovery rate(FDR) is better than FWER in multiple testing problems. The data from the 2002-2003 SARS epidemic shows that a conventional FDR procedure and a proposed test statistic based on a pseudo-marginal approach with Hamming distance performs better.

Comparison of methods for the proportion of true null hypotheses in microarray studies

  • Kang, Joonsung
    • Communications for Statistical Applications and Methods
    • /
    • 제27권1호
    • /
    • pp.141-148
    • /
    • 2020
  • We consider estimating the proportion of true null hypotheses in multiple testing problems. A traditional multiple testing rate, family-wise error rate is too conservative and old to control type I error in multiple testing setups; however, false discovery rate (FDR) has received significant attention in many research areas such as GWAS data, FMRI data, and signal processing. Identify differentially expressed genes in microarray studies involves estimating the proportion of true null hypotheses in FDR procedures. However, we need to account for unknown dependence structures among genes in microarray data in order to estimate the proportion of true null hypothesis since the genuine dependence structure of microarray data is unknown. We compare various procedures in simulation data and real microarray data. We consider a hidden Markov model for simulated data with dependency. Cai procedure (2007) and a sliding linear model procedure (2011) have a relatively smaller bias and standard errors, being more proper for estimating the proportion of true null hypotheses in simulated data under various setups. Real data analysis shows that 5 estimation procedures among 9 procedures have almost similar values of the estimated proportion of true null hypotheses in microarray data.

Multiple Group Testing Procedures for Analysis of High-Dimensional Genomic Data

  • Ko, Hyoseok;Kim, Kipoong;Sun, Hokeun
    • Genomics & Informatics
    • /
    • 제14권4호
    • /
    • pp.187-195
    • /
    • 2016
  • In genetic association studies with high-dimensional genomic data, multiple group testing procedures are often required in order to identify disease/trait-related genes or genetic regions, where multiple genetic sites or variants are located within the same gene or genetic region. However, statistical testing procedures based on an individual test suffer from multiple testing issues such as the control of family-wise error rate and dependent tests. Moreover, detecting only a few of genes associated with a phenotype outcome among tens of thousands of genes is of main interest in genetic association studies. In this reason regularization procedures, where a phenotype outcome regresses on all genomic markers and then regression coefficients are estimated based on a penalized likelihood, have been considered as a good alternative approach to analysis of high-dimensional genomic data. But, selection performance of regularization procedures has been rarely compared with that of statistical group testing procedures. In this article, we performed extensive simulation studies where commonly used group testing procedures such as principal component analysis, Hotelling's $T^2$ test, and permutation test are compared with group lasso (least absolute selection and shrinkage operator) in terms of true positive selection. Also, we applied all methods considered in simulation studies to identify genes associated with ovarian cancer from over 20,000 genetic sites generated from Illumina Infinium HumanMethylation27K Beadchip. We found a big discrepancy of selected genes between multiple group testing procedures and group lasso.