DOI QR코드

DOI QR Code

A Study on Sample Allocation for Stratified Sampling

층화표본에서의 표본 배분에 대한 연구

  • Lee, Ingue (Department of Statistics, Korea University) ;
  • Park, Mingue (Department of Statistics, Korea University)
  • Received : 2015.07.09
  • Accepted : 2015.10.19
  • Published : 2015.12.31

Abstract

Stratified random sampling is a powerful sampling strategy to reduce variance of the estimators by incorporating useful auxiliary information to stratify the population. Sample allocation is the one of the important decisions in selecting a stratified random sample. There are two common methods, the proportional allocation and Neyman allocation if we could assume data collection cost for different observation units equal. Theoretically, Neyman allocation considering the size and standard deviation of each stratum, is known to be more effective than proportional allocation which incorporates only stratum size information. However, if the information on the standard deviation is inaccurate, the performance of Neyman allocation is in doubt. It has been pointed out that Neyman allocation is not suitable for multi-purpose sample survey that requires the estimation of several characteristics. In addition to sampling error, non-response error is another factor to evaluate sampling strategy that affects the statistical precision of the estimator. We propose new sample allocation methods using the available information about stratum response rates at the designing stage to improve stratified random sampling. The proposed methods are efficient when response rates differ considerably among strata. In particular, the method using population sizes and response rates improves the Neyman allocation in multi-purpose sample survey.

층화표본추출(stratified sampling)은 모집단을 구성하는 층에 대한 정보를 표본설계에 반영함으로써 추정량의 분산을 낮추기 위한 표본추출 방법으로, 표본배분 방안의 선택이 층화표본의 효과를 결정하는데 매우 중요한 요소이다. 전통적인 표본배분 방법으로는 비례배분법(proportional allocation)과 네이만배분법(Neyman alloction)이 주로 사용되는데, 이는 층별 추정량의 분산에 영향을 미치는 요인들을 표본 배분에 반영함으로써 전체 추정량의 분산을 최적화하기 위한 것이다. 이론적으로는 층크기(size of strata)만을 반영하는 비례배분법보다 층별 표준편차(standard deviation)를 함께 고려하는 네이만배분법이 추정량의 분산을 낮추는데 더 효과적임이 알려져 있다. 그러나 층별 표준편차에 대한 사전 정보가 모집단을 잘 반영하지 못하면 네이만배분법의 효과를 기대할 수 없으며, 특히 복수의 관심변수를 조사하는 다목적조사(multi-purpose survey)에서는 각 관심변수들의 층별 표준편차가 서로 다른 양상을 나타내기 때문에 네이만배분법이 적합하지 않다는 주장이 제기되기도 한다. 한편 표본조사에서는 조사단계에서 발생하는 무응답으로 인한 추정량의 편향을 제거하기 위해 응답률 보정 방법이 사용되는데, 이 또한 추정량의 분산에 영향을 미치는 주요한 요인 중에 하나이다. 그러나 전통적인 표본배분 방법은 응답률(response rate)을 감안하지 않기 때문에 층별 응답율에 차이가 크게 나타날 경우 층화표본에 의한 효과가 저하될 수 있다. 이에 본 연구는 층화표본추출에서 층간 응답률의 차이가 추정량의 분산에 미치는 영향을 살펴보고, 층별 응답률 정보를 표본설계에 반영하는 새로운 표본배분 방법을 제안하였다. 모의실험을 통해 확인한 결과 네이만배분법은 당초 표본배분 시에 적용한 층별 표준편차의 구조가 각 층의 응답률 보정과정에서 증가하는 분산을 반영하지 못하기 때문에 층간 응답률의 편차가 커질수록 효율이 저하되는 것으로 나타났다. 반면 층 크기와 층별 응답률을 함께 반영한 배분방법은 비례배분법에 비해 효율이 개선되며, 층간 응답률의 편차가 클수록 그 효과는 커진다. 특히 층별 응답률의 변동계수(coefficient of variance)가 층별 표준편차의 변동계수를 상회하는 경우는 네이만배분법 보다도 효율적인 추정량을 제공함을 확인하였다. 아울러 응답률을 반영한 배분방법은 기존 배분방법에 비해 각 층별 추정량을 보다 안정적으로 추정할 수 있기 때문에 층별 추정을 목적으로 하는 층화표본조사에서는 여타 추정방법보다 더 효과적이다. 층별 응답률에 대한 정보는 관심변수가 다르더라도 추출틀이 유사한 기존 조사의 결과를 활용할 수 있다는 점에서 표준편차에 비해 비교적 정보 수집이 용이한 장점이 있고, 다목적조사에서도 관심변수의 척도(scale)나 개수와 관계없이 적용 가능하기 때문에 활용도가 높을 것으로 생각된다.

Keywords

References

  1. Bankier, M. D. (1988). Determining sample sizes for subnational areas, The American Statistician, 42, 174-177.
  2. Choudhry, G. H., Rao, J. N. K. and Hidiroglou, M. A. (2012). On sample allocation for efficient domain estimation, Survey Methodology, 38, 23-29.
  3. Cornfield, J. (1944). On samples from finite populations, Journal of the American Statistical Association, 39, 236-239. https://doi.org/10.1080/01621459.1944.10500680
  4. Evans, W. D. (1951). On stratification and optimum allocations, Journal of the American Statistical Association, 46, 95-104. https://doi.org/10.1080/01621459.1951.10500772
  5. Horvitz, D. G. and Thompson, D. J. (1952). A generalization of sampling without replacement from a finite universe, Journal of the American Statistical Association, 47, 663-685. https://doi.org/10.1080/01621459.1952.10483446
  6. Kokan, A. R. (1963). Optimum allocation in multivariate surveys, Journal of the Royal Statistical Society, Series A (General), 126, 557-565. https://doi.org/10.2307/2982579
  7. Lohr, S. L. (2009). Sampling: Design and Analysis, John Wiley & Cengage Learning.
  8. Neyman, J. (1934). On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection, Journal of Royal Statistical Society, 97, 558-625. https://doi.org/10.2307/2342192
  9. Sarndal, C. E., Swensson, B. and Wretman, J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New York.
  10. Sukhatme, B. V. and Tang, V. K. T. (1975). Allocation in stratified sampling subsequent to preliminary test of significance, Journal of the American Statistical Association, 70, 175-179. https://doi.org/10.1080/01621459.1975.10480282
  11. Sukhatme, P. V. (1935). Contribution to the theory of representative method, Supplement to the Journal of the Royal Statistical society, 2, 253-268. https://doi.org/10.2307/2983640