DOI QR코드

DOI QR Code

Reproducibility of Hypothesis Testing and Confidence Interval

가설검정과 신뢰구간의 재현성

  • Received : 2014.06.09
  • Accepted : 2014.07.17
  • Published : 2014.08.31

Abstract

P-value is the probability of observing a current sample and possibly other samples departing equally or more extremely from the null hypothesis toward postulated alternative hypothesis. When p-value is less than a certain level called ${\alpha}$(= 0:05), researchers claim that the alternative hypothesis is supported empirically. Unfortunately, some findings discovered in that way are not reproducible, partly because the p-value itself is a statistic vulnerable to random variation. Boos and Stefanski (2011) suggests calculating the upper limit of p-value in hypothesis testing, using a bootstrap predictive distribution. To determine the sample size of a replication study, this study proposes thought experiments by simulating boosted bootstrap samples of different sizes from given observations. The method is illustrated for the cases of two-group comparison and multiple linear regression. This study also addresses the reproducibility of the points in the given 95% confidence interval. Numerical examples show that the center point is covered by 95% confidence intervals generated from bootstrap resamples. However, end points are covered with a 50% chance. Hence this study draws the graph of the reproducibility rate for each parameter in the confidence interval.

p-값은 관측 표본과 관측 결과보다 심하게 대안가설의 방향으로 영가설을 이탈하는 표본들이 영가설 하에서 갖는 확률이다. p-값이 일정 ${\alpha}$(= 0:05)보다 작게 나타나면 연구자는 대안가설이 지지된 것으로 본다. 그런 경우라고 하더라도 그의 가설이 향후 연구에서 번복될 수 있는데 그 이유는 p-값이 표본에 따라 변동하는 통계량이기 때문이다. Boos와 Stefanski (2011)는 붓스트랩 방법으로 p-값의 예측분포를 구할 수 있음을 보였다. 그들은 그 분포의 상위 10-20% 분위수가 ${\alpha}$보다 작은가를 확인할 필요가 있음을 강조한다. 만약 그렇지 않은 경우에는 "지지"된 가설의 재현성이 문제될 수 있기 때문이다. 가설검정에서 일정 수준의 재현율을 확보하기 위해서는 표본의 증대가 요구된다. 이 연구는 k배 확대 붓스트랩 표본추출(boosted bootstrap sampling)로써 필요한 표본크기를 계산할 수 있음을 두 표본의 비교와 다중선형회귀의 수치 예에서 보인다. k 값을 정하기 위해서는 몇 차례 시행착오를 해야 하지만 계산적 부담은 크지 않다. 95% 신뢰구간은 독립적인 표본들로부터 같은 방식으로 산출되는 구간이 미지의 모수를 포함할 확률이 95%가 되도록 설정된다. 이 연구는 한 관측표본으로부터 얻어진 95% 신뢰구간 내 개별 점이 미래 연구의 신뢰구간에도 포함될 것인지 그 재현성을 붓스트랩 재표본들에서 평가한다. 이 연구는 개별 점에서 산출한 신뢰구간 재현율을 그래프로 보인다.

Keywords

References

  1. Boos, D. D. and Stefanski, L. A. (2011). P-value precision and reproducibility, The American Statistician, 65, 213-221. https://doi.org/10.1198/tas.2011.10129
  2. Efron, B. (1987). Better bootstrap confidence intervals, Journal of the American Statistical Association, 82, 171-185. https://doi.org/10.1080/01621459.1987.10478410
  3. Goodman, S. N. (1992). A comment on replication, p-values and evidence, Statistics in Medicine, 11. 875-879. https://doi.org/10.1002/sim.4780110705
  4. Hoenig, J. M. and Heisey, D. M. (2001). The abuse of power: The pervasive fallacy of power calculations for data analysis, The American Statistician, 55, 19-24. https://doi.org/10.1198/000313001300339897
  5. Shao, J. and Chow, S.-C. (2002). Reproducibility probability in clinical trials, Statistics in Medicine, 21, 1727-1742. https://doi.org/10.1002/sim.1177