DOI QR코드

DOI QR Code

Comparison of Bias Correction Methods for the Rare Event Logistic Regression

희귀 사건 로지스틱 회귀분석을 위한 편의 수정 방법 비교 연구

  • Kim, Hyungwoo (Department of Statistics, Inha University) ;
  • Ko, Taeseok (Department of Statistics, Inha University) ;
  • Park, No-Wook (Department of Geoinformatic Engineering, Inha University) ;
  • Lee, Woojoo (Department of Statistics, Inha University)
  • Received : 2013.12.26
  • Accepted : 2014.03.31
  • Published : 2014.04.30

Abstract

We analyzed binary landslide data from the Boeun area with logistic regression. Since the number of landslide occurrences is only 9 out of 5000 observations, this can be regarded as a rare event data. The main issue of logistic regression with the rare event data is a serious bias problem in regression coefficient estimates. Two bias correction methods were proposed before and we quantitatively compared them via simulation. Firth (1993)'s approach outperformed and provided the most stable results for analyzing the rare-event binary data.

본 연구에서는 로지스틱 회귀 모형을 이용하여 보은 지방의 산사태 자료를 분석하였다. 5000 지역의 관측치 가운데 단 9개만이 산사태 발생 지역이므로 이 자료는 희귀 사건 자료로 간주될 수 있다. 로지스틱 회귀 분석 모형이 희귀사건 자료에 적용될 때 주요 이슈는 회귀 계수 추정치에 심각한 편의 문제가 생길 수 있다는 것이다. 기존에 두 가지의 편의 수정 방법이 제안되었는데, 본 논문에서는 시뮬레이션을 통해 정량적으로 비교 연구를 진행하였다. Firth(1993)의 방식이 다른 방법에 비해 우수한 성능을 보였으며, 이항 희귀 사건을 분석하는 데 있어서 매우 안정된 결과를 보여주었다.

Keywords

References

  1. Firth, D. (1993). Bias reduction of maximum likelihood estimates, Biometrika, 80, 27-38. https://doi.org/10.1093/biomet/80.1.27
  2. Heinze, G. and Schemper, M. (2002). A solution to the problem of separation in logistic regression, Statistics in Medicine, 21, 2409-2419. https://doi.org/10.1002/sim.1047
  3. King, G. and Zeng, L. (2001). Logistic regression in rare event data, Political Analysis, 9, 137-163. https://doi.org/10.1093/oxfordjournals.pan.a004868
  4. Lee, S., Choi, J. and Min, K. (2004). Probabilistic landslide hazard mapping using GIS and remote sensing data at Boeun, Korea. International Journal of Remote Sensing, 25, 2037-2052. https://doi.org/10.1080/01431160310001618734
  5. McCullagh, P. and Nelder, J. (1989). Generalized Linear Models, 2nd ed, Chapman and Hall, London.
  6. Park, N. W., Chi, K. H., Chung, C. F. and Kwon, B. D. (2003). GIS-based data-driven geological data integration using fuzzy logic: theory and application, Economic and Environmental Geology, 36, 243-255.