Empirical Bayesian Misclassification Analysis on Categorical Data

범주형 자료에서 경험적 베이지안 오분류 분석

  • Published : 2001.03.01

Abstract

Categorical data has sometimes misclassification errors. If this data will be analyzed, then estimated cell probabilities could be biased and the standard Pearson X2 tests may have inflated true type I error rates. On the other hand, if we regard wellclassified data with misclassified one, then we might spend lots of cost and time on adjustment of misclassification. It is a necessary and important step to ask whether categorical data is misclassified before analyzing data. In this paper, when data is misclassified at one of two variables for two-dimensional contingency table and marginal sums of a well-classified variable are fixed. We explore to partition marginal sums into each cells via the concepts of Bound and Collapse of Sebastiani and Ramoni (1997). The double sampling scheme (Tenenbein 1970) is used to obtain informations of misclassification. We propose test statistics in order to solve misclassification problems and examine behaviors of the statistics by simulation studies.

범주형 자료에서 오분류는 자료를 수집하는 과정에서 발생될 수 있다. 오분류되어 있는 자료를 정확한 자료로 간주하여 분석한다면 추정결과에 편의가 발생하고 검정력이 약화되는 결과를 초래하게 되며, 정확하게 분류된 자료를 오분류하고 판단한다면 오분류의 수정을 위해 불필요한 비용과 시간을 낭비해야 할 것이다. 따라서 정확하게 분류된 표본인지 오분류된 표본인지를 판정하는 것은 자료를 분석하기 전에 이루어져야할 매우 중요한 과정이다. 본 논문은 I$\times$J 분할표로 주어지는 범주형 자료에서 두 변수 중 하나의 변수에서만 오분류가 발생되는 경우에 오분류 여부를 검정하기 위해서 오분류 가능성이 없는 변수에 대한 주변합은 고정시키고, 오분류 여부를 가능성이 있는 변수의 주변합을 Sebastiani와 Ramoni(1997)가 제안한 Bound와 외부정보로 표현되는 Collapse의 개념, 그리고 베이지안 방법을 확장하여 자료에 적합한 모형과 사전정보를 고려한 사전모수를 다양하게 설정하면서 재분류하는 연구를 하였다. 오분류에 대한 정보를 얻기 위해서 Tenenbein(1970)에 의해 연구된 이중추출법을 이용하여 오분류 검정을 위한 새로운 통계량을 제안하였으며, 제안된 오분류 검정통계량에 관한 분포를 다양한 모의실험을 통하여 연구하였다.

Keywords

References

  1. Biometrics v.33 The effects of misclassification on the estimation of relative risk Barron, B. A.
  2. Biometrics v.10 Misclassification Bross, I.
  3. Journal of the American Statistical Association v.77 Maximum likelihood estimation and model selection in contingency tables with missing data Fuchs, C.
  4. The estimation of probability: An essay on modern bayesian methods Good, I. J.
  5. Journal of the American Statistical Association v.72 On the use of double sampling schemes in analyzing categorical data with misclassification errors Hochberg, Y.
  6. Research report series Compensating for missing survey data Kalton, G.
  7. Statistical analysis with missing data Little, R. J. A.;Rubin, D. B.
  8. Journal of the American Statistical Association v.89 no.45 Models for categorical data with nonignorable nonresponse Park, T. S.;Brown, M. B.
  9. KMI-TR no.58 Bayesian inference with missing data using bound and collapse Sebastiani, P.;Ramoni, M.
  10. Duke technical report Reconstruction of contingency tables with missing data Tebaldi, C.;West, M.
  11. Journal of the American Statistical Association v.65 A double sampling scheme for estimation from binomial data with misclassification Tenenbein, A.
  12. Biometrics v.27 A double sampling scheme for estimation from binomial data with misclassification: sample size determination Tenenbein, A.