Development of a Gangwon Province Forest Fire Prediction Model using Machine Learning and Sampling

머신러닝과 샘플링을 이용한 강원도 지역 산불발생예측모형 개발

  • Received : 2018.12.01
  • Accepted : 2018.12.31
  • Published : 2018.12.31

Abstract

The study is based on machine learning techniques to increase the accuracy of the forest fire predictive model. It used 14 years of data from 2003 to 2016 in Gang-won-do where forest fire were the most frequent. To reduce weather data errors, Gang-won-do was divided into nine areas and weather data from each region was used. However, dividing the forest fire forecast model into nine zones would make a large difference between the date of occurrence and the date of not occurring. Imbalance issues can degrade model performance. To address this, several sampling methods were applied. To increase the accuracy of the model, five indices in the Canadian Frost Fire Weather Index (FWI) were used as derived variable. The modeling method used statistical methods for logistic regression and machine learning methods for random forest and xgboost. The selection criteria for each zone's final model were set in consideration of accuracy, sensitivity and specificity, and the prediction of the nine zones resulted in 80 of the 104 fires that occurred, and 7426 of the 9758 non-fires. Overall accuracy was 76.1%.

본 연구는 산불 발생 예측 모형의 정확도를 높이기 위해 머신러닝 기법을 적용한 연구이다. 산불 피해면적이 가장 큰 강원도를 중심으로 2003년부터 2016년까지 총 14년의 산불 자료를 이용하였다. 기상자료의 오차를 줄이기 위해 강원도를 9개의 구역으로 나누어 각 구역 관측소의 기상자료를 이용하였다. 9개의 구역으로 나누어 각 구역의 산불 예측 모형을 만들게 되면 산불이 발생한 날(majority)과 산불이 발생하지 않은 날(minority)의 비율 차이가 큰 불균형 문제가 발생한다. 불균형 문제에서는 모델의 성능이 떨어지는 현상이 발생할 수 있다. 이를 해결하기 위해 여러 샘플링 방법을 적용하였다. 또한 모델의 정확도를 높이기 위해 캐나다 산불 기상 지수(FWI)의 5가지 지수를 파생변수로 사용하였다. 모델링 방법은 통계적 방법인 로지스틱 회귀분석 방법과 머신러닝 방법인 random forest와 xgboost 방법을 사용하였다. 각 구역의 최종모델의 선택기준을 정확도, 민감도, 특이도를 고려하여 정했으며, 9개 구역의 예측 결과는 산불이 발생한 104건 중 80건의 발생 예측에 성공하였으며 산불이 발생하지 않은 9758건 중 7426건의 발생하지 않음을 예측했다. 전체의 정확도는 76.1%였다.

Keywords

References

  1. 박흥석, 이시영, 채희문, 이우균 (2009) 현캐나다 산불 기상지수를 이용한 산불 발생 확률모형 개발, 한국방재학회논문집, 제9권, 제3, pp. 95-100.
  2. 이병두, 유계선, 김선용, 김경하 (2012) 로지스틱 회귀모형을 이용한 산불발생확률모형 개발, 한국임학회지, Vol. 101, No. 1, pp. 1-6.
  3. Amiro, B.D., Logan, K.A., Wotton, B.M., Flaniga n, M.D., Todd, J.B., Stocks, B.J. and Martell, D.L. (2004) Fire Weather index system components for large fires in the Canadian boreal forest. Intern ational Journal of Wildland Fire, Vol 13, pp. 391-400. https://doi.org/10.1071/WF03066
  4. Breiman, L. (2001) Random Forests. Machine Learning, Vol. 45, No. 1, pp. 5-32. https://doi.org/10.1023/A:1010933404324
  5. Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P.(2002). SMOTE: synth-etic minority over-sampling technique.
  6. Freund, Y. and Schapire, R. (1996), Experim-ents with a new boosting algorithm, Machine Learning : Proceedings of the Thirteenth International Conference, San Francisco, USA, 148-156.
  7. Gareth J, Daniela W, Trevor H, Robert T (2015), "An Introduction to Statistical Learning withAppli cations in R", Springer, NewYork.
  8. XGBoost (2016) https://xgboost.readthedocs-.io/en/latest/