DOI QR코드

DOI QR Code

The big data method for flash flood warning

돌발홍수 예보를 위한 빅데이터 분석방법

  • Park, Dain (Dept. of Statistics, Daegu University) ;
  • Yoon, Sanghoo (Dept. of Computer Science and Statistics, Daegu University)
  • Received : 2017.09.28
  • Accepted : 2017.11.20
  • Published : 2017.11.28

Abstract

Flash floods is defined as the flooding of intense rainfall over a relatively small area that flows through river and valley rapidly in short time with no advance warning. So that it can cause damage property and casuality. This study is to establish the flash-flood warning system using 38 accident data, reported from the National Disaster Information Center and Land Surface Model(TOPLATS) between 2009 and 2012. Three variables were used in the Land Surface Model: precipitation, soil moisture, and surface runoff. The three variables of 6 hours preceding flash flood were reduced to 3 factors through factor analysis. Decision tree, random forest, Naive Bayes, Support Vector Machine, and logistic regression model are considered as big data methods. The prediction performance was evaluated by comparison of Accuracy, Kappa, TP Rate, FP Rate and F-Measure. The best method was suggested based on reproducibility evaluation at the each points of flash flood occurrence and predicted count versus actual count using 4 years data.

돌발홍수는 강우유출수가 하천으로 모여드는 유역이 좁은 지역에 집중호우로 인해 유입되는 물의 양이 급증하여 나타난다. 돌발홍수는 유속이 빠르고 홍수를 대비할 수 있는 시간이 부족하므로 인명과 재산상의 피해를 발생시킨다. 본 연구에서는 돌발홍수를 예보를 위한 빅데이터 분석방법을 수행하였다. 연구 자료는 2009년에서 2012년까지 국민안전처 국가재난정보센터에 보고된 38건의 홍수 피해 자료와 지표수문모형(TOPLATS)에 의해 생성된 수문기상정보인 강우량, 토양수분 상태, 지표유출량이다. 돌발홍수 발생 선행 6시간의 강우량, 토양수분 상태, 지표유출량 데이터를 요인분석을 통해 토양수분 상태, 장기요인에 의한 강우량과 지표유출량, 단기요인에 의한 강우량과 지표유출량으로 축소하였다. 빅데이터 분석 방법으로는 유형분석인 의사결정나무, 랜덤포레스트, 나이브베이즈, 서포트벡터머신, 로지스틱 회귀모형을 사용하였다. 돌발홍수 사고발생 자료가 38건으로 한정되어 있기 때문에 예측성능 정확도 판단이 중요하다. 예측성능 정확도 평가방법으로 kappa계수, TP Rate, FP Rate, F-Measure를 이용하였다. 이 외에 돌발홍수 발생 선행 시점별 재현성 평가와 과거 4년간 돌발홍수 경보 횟수를 통해 최적 유형분석 방법을 제시하였다. 연구결과 로지스틱회귀모형과 랜덤포레스트가 돌발홍수 예보를 위한 예측 성능이 가장 좋았다. 사고발생 자료가 2009년부터 2012년까지 38건으로 한정되어 있어 분석을 위한 훈련자료와 검증자료 구축에 한계가 있었다. 장기간의 자료가 수집된다면 더욱 정확한 빅데이터 분석을 수행할 수 있다.

Keywords

References

  1. H. Chang & W. T. Kwon, "Spatial variations of summer precipitation trends in South Korea, 1973-2005." Environmental Research Letter, Vol. 2, No.4, pp.1-9, 2007.
  2. S. Lee, W. T. Kwon, "A variation of summer rainfall in Korea.", Journal of Korean Geographical Society, Vol.39, No.6, pp.819-832, 2004.
  3. Korea Meteorological administration, "Special report about abnormal climate".(http://www.climate.go.kr/index.html), 2010.
  4. D. H. Bae & J. H. Kim, "Development of Korea Flash Flood Guidance System : (I) Theory and System Design.", KSCE Journal of Civil Engineering, Vol.27, No.3B, pp.237-243, 2007.
  5. J. H. Lee, H. D. Jun, M. J. Park & J. H. Jung, "Flash flood risk assessment using PROMETHEE and Entropy method." Journal of Korean Society of Hazard Mitigation, Vol. 11, No. 3, pp.151-156, 2011. https://doi.org/10.9798/KOSHAM.2011.11.3.151
  6. S. Yoon, S. Choi, B. J. Lee & Y. Choi, "Study on Statistical Methods for the Development of Flash Flood Index.", Journal of Korean Society of Hazard Mitigation, Vol.15, No.6, pp.189-197, 2015. https://doi.org/10.9798/KOSHAM.2015.15.6.189
  7. B. J. Lee, S. Choi, S. Yoon & Y. Choi, "Evaluation of TOPLATS Land Surface Model Application for Forecasting Flash Flood in mountainous areas.", Journal of Korea Water Resources Association, Vol.49, No.1, pp.19-28, 2016. https://doi.org/10.3741/JKWRA.2016.49.1.19
  8. Korea Meteorological administration, "Meteorological Technology & policy".(http://www.climate.go.kr/index.html), 2009.
  9. J. Choi, S. T. Han, H. Kang & E. Kim, "Data Mining Decision Tree Analysis Using Answer Tree." SPSS academy, pp.17-23, 1998.
  10. M-H. Lee & M-G. Kim, "Meteorological information analysis algorithm based on weight for outdoor activity decision-making", Journal of Digital Convergence, Vol.14, No.3, pp.209-217, 2016. https://doi.org/10.14400/JDC.2016.14.3.209
  11. T. Therneau, B. Atkinson & B. Ripley. Package "rpart: Recursive Partitioning and Regression Trees. R package version 4.1-10", 2015.
  12. C. Park, "A simple diagnostic statistic for determining the size of random forest.", Journal of the Korean Data & information Science Society, Vol. 27, No.4, pp.855-863, 2016. https://doi.org/10.7465/jkdi.2016.27.4.855
  13. A. Liaw & M. Wiener, "Classification and regression by randomForest." Vol.2, No.3, pp.18-22, 2002.
  14. H-S. Seo & S-Y. Lee, "A Model to Infer Users' Behavior Patterns for Personalized Recommendation Service based Context-Awareness", Journal of Digital Convergence, Vol.10, No.2, pp.293-297, 2012. https://doi.org/10.14400/JDPM.2012.10.2.293
  15. H. Lee, S-H. Chung, & E-J. Choi, "A Case Study on Machine Learning Applications and Performance Improvement in Learning Algorithm.", Journal of Digital Convergence, Vol.14, No.2, pp.245-258, 2016. https://doi.org/10.14400/JDC.2016.14.2.245
  16. D. Meyer, E. Dimitriadou, K. Hornik, A. Weingessel, F. Leisch, C. Chang & C. Lin, "Misc Functions of the Department of Statistics. Probability Theory Group (Formerly: E1071)", TU Wien, 2015.
  17. B. Chae, W. Kim, C. Cho, K. Kim, C. :ee, & Y. Choi, "Development of a Logistic Regression Model for Probabilistic Prediction of Debris Flow", The Journal of Engineering Geology, Vol.14, No.2,, pp.211-222, 2004.