DOI QR코드

DOI QR Code

Wildfire Severity Mapping Using Sentinel Satellite Data Based on Machine Learning Approaches

Sentinel 위성영상과 기계학습을 이용한 국내산불 피해강도 탐지

  • Sim, Seongmun (Combined MS/PhD Student, Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Kim, Woohyeok (Undergraduate student, Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Lee, Jaese (Combined MS/PhD Student, Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Kang, Yoojin (Combined MS/PhD Student, Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Im, Jungho (Professor, Department of Urban and Environmental Engineering, Ulsan National Institute of Science and Technology) ;
  • Kwon, Chunguen (Researcher, Division of Forest Disaster Management, National Institute of Forest Science) ;
  • Kim, Sungyong (Researcher, Division of Forest Disaster Management, National Institute of Forest Science)
  • 심성문 (울산과학기술원 도시환경공학과 석박통합과정생) ;
  • 김우혁 (울산과학기술원 도시환경공학과 학사과정생) ;
  • 이재세 (울산과학기술원 도시환경공학과 석박통합과정생) ;
  • 강유진 (울산과학기술원 도시환경공학과 석박통합과정생) ;
  • 임정호 (울산과학기술원 도시환경공학과 정교수) ;
  • 권춘근 (국립산림과학원 산림방재연구과 연구사) ;
  • 김성용 (국립산림과학원 산림방재연구과 연구사)
  • Received : 2020.10.14
  • Accepted : 2020.10.19
  • Published : 2020.10.31

Abstract

In South Korea with forest as a major land cover class (over 60% of the country), many wildfires occur every year. Wildfires weaken the shear strength of the soil, forming a layer of soil that is vulnerable to landslides. It is important to identify the severity of a wildfire as well as the burned area to sustainably manage the forest. Although satellite remote sensing has been widely used to map wildfire severity, it is often difficult to determine the severity using only the temporal change of satellite-derived indices such as Normalized Difference Vegetation Index (NDVI) and Normalized Burn Ratio (NBR). In this study, we proposed an approach for determining wildfire severity based on machine learning through the synergistic use of Sentinel-1A Synthetic Aperture Radar-C data and Sentinel-2A Multi Spectral Instrument data. Three wildfire cases-Samcheok in May 2017, Gangreung·Donghae in April 2019, and Gosung·Sokcho in April 2019-were used for developing wildfire severity mapping models with three machine learning algorithms (i.e., Random Forest, Logistic Regression, and Support Vector Machine). The results showed that the random forest model yielded the best performance, resulting in an overall accuracy of 82.3%. The cross-site validation to examine the spatiotemporal transferability of the machine learning models showed that the models were highly sensitive to temporal differences between the training and validation sites, especially in the early growing season. This implies that a more robust model with high spatiotemporal transferability can be developed when more wildfire cases with different seasons and areas are added in the future.

국토 대부분이 산림으로 구성되어 있는 대한민국은 매 년 많은 산불이 발생한다. 산불은 토양의 전단강도를 약화시켜 산사태에 취약한 토양층을 만들기도 하고, 수목의 복구가능여부에 따라 다른 계획 설립이 필요하기 때문에 산불피해면적 뿐만 아니라 피해강도에 대한 파악도 중요하다. 위성 원격탐사를 통한 산불피해강도 추정 연구가 많이 수행되어 왔으나, NDVI(Normalized Difference Vegetation Index)와 NBR(Normalized Burn Ratio) 등과 같은 단일 인자의 시계열 변화만을 이용하여 피해강도를 파악하기에는 한계가 있다. 본 연구에서는 Sentinel-1A SAR-C (Synthetic Aperture Radar-C)와 Sentinel-2A MSI(Multi Spectral Instrument)센서의 자료를 이용하여 기계학습방법을 통한 산불 피해강도 탐지 모델들을 제시하였다. 2017년 5월 삼척, 2019년 4월 강릉·동해, 2019년 4월 고성·속초 총 세개의 산불사례를 이용하여 RF(Random forest), LR(Logistic regression), SVM(Support Vector Machine)기계학습 모델을 구축하였다. 연구결과, random forest 모델이 82.3%의 총정확도로 가장 높은 성능을 보여주었다. 모델의 범용성 및 학습자료 민감도 확인을 위해 사례교차검증도 추가 시행하였는데, 그 결과 사례들의 시기적 차이에 의한 식생활력 및 재생도의 차이에 민감도가 높음을 확인하였다. 이는 추후 다양한 시공간적 사례를 추가할 시 개선이 될 것으로 보인다.

Keywords

요약

국토 대부분이 산림으로 구성되어 있는 대한민국은 매 년 많은 산불이 발생한다. 산불은 토양의 전단강도를 약화시켜 산사태에 취약한 토양층을 만들기도 하고, 수목의 복구가능여부에 따라 다른 계획 설립이 필요하기 때문에 산불피해면적 뿐만 아니라 피해강도에 대한 파악도 중요하다. 위성 원격탐사를 통한 산불피해강도 추정 연구가 많이 수행되어 왔으나, NDVI(Normalized Difference Vegetation Index)와  NBR(Normalized Burn Ratio) 등과 같은 단일 인자의 시계열 변화만을 이용하여 피해강도를 파악하기에는 한계가 있다. 본 연구에서는 Sentinel-1A SAR-C (Synthetic Aperture Radar-C)와 Sentinel-2A MSI(Multi Spectral Instrument)센서의 자료를 이용하여 기계학습방법을 통한 산불 피해강도 탐지 모델들을 제시하였다. 2017년 5월 삼척, 2019년 4월 강릉·동해, 2019년 4월 고성·속초 총 세개의 산불사례를 이용하여 RF(Random forest), LR(Logistic regression), SVM(Support Vector Machine)기계학습 모델을 구축하였다. 연구결과, random forest 모델이 82.3%의 총정확도로 가장 높은 성능을 보여주었다. 모델의 범용성 및 학습자료 민감도 확인을 위해 사례교차검증도 추가 시행하였는데, 그 결과 사례들의 시기적 차이에 의한 식생활력 및 재생도의 차이에 민감도가 높음을 확인하였다. 이는 추후 다양한 시공간적 사례를 추가할 시 개선이 될 것으로 보인다.

1. 서론

국토의 63% 이상이 산지로 구성되어 있는 대한민국은 매년 400건 이상의 크고 작은 산불이 발생한다(Korea Forest Service, 2016; Korea Forest Service, 2019). 특히 면적의 81.5%가 산림으로 구성된 강원도 지역의 산불 발생 빈도는 타 지역–경기도 172건, 경상북도 121건(2019년 기준)–에 비해 적은 편(78건)이나, 피해면적은 전체의 87%를 차지할 정도로 큰 규모의 산불들이 주로 발생하고 있다(Korea Forest Service, 2016; Korea Forest Service, 2019). 산불은 지상에 노출된 식생과 함께, 토양 유기물, 미생물의 구성변화와 그에 따른 탄소순환에도 영향을 주어 생태계 전반에 영향을 끼친다(Won et al., 2014, Roteta at al., 2019). 또한 산불피해 후 식생 뿌리 및 토양 유기물의 토양 전단강도가 감소하게 되어 산사태에 매우 취약한 토양층을 만들게 된다. 다시 말해, 산지 경관 뿐 아니라, 조성, 기능, 생태 보전, 더 나아가 복귀 계획, 산사태 취약지 파악 등을 위해서 산불 발생지역의 피해정도 파악이 중요하다(Won et al., 2019).

과거에는 전문가가 현장을 방문 후, 산불피해 수목을 직접 측정하여 산불 피해 조사를 진행하여 왔다. 피해현장 방문 후, 개체목별 피해 정도를 확인해 수기로 기입하여 진행하던 과거의 방법은 피해지 전 영역에 대한 측정이 어려울 뿐만 아니라, 많은 사회경제적 비용이 들었고, 현재는 넓은 영역을 효율적으로 관측할 수 있는 위성과 항공기 등을 이용한 원격탐사 등으로 대체되고 있다(Lentile et al., 2006, NIFS, 2013). 원격탐사를 이용한 산불 피해강도는 산불 피해 후에 변화되는 식생 지수 값을 통해 결정하고 있다(Lentile et al., 2006; Escuin et al., 2008; Roy et al., 2019). 산불 피해정도에 따라 미피해(Unburned), 경피해(Low severity), 중피해(Moderate severity), 심피해(High severity)로 나누어 사용이 되고 있으며, 이는 개체 목별 조사에서 사용된 피해없음, 지표화, 수관열해, 수관전소의 분류체계와 동일하게 사용되고 있다(Won et al., 2014; Won et al., 2019).

선행 연구들 및 국내외 현업기관에서는 광학위성 자료에서 계산한 NDVI(Normalized Difference Vegetation Index; 정규식생지수)와 NBR(Normalized Burn Ratio; 정규탄화지수)의 산불전후 시계열 변화를 나타낸 dNDVI(differenced NDVI)와 dNBR(differenced NBR)을 이용하여 산불피해 추정을 하고 있다(Escuin et al., 2008; Stankova and Nedkov, 2015). dNDVI와 dNBR을 이용한 산불피해 추정은 산불피해지를 포함한 산림지역 영상에서 각 변수의 평균, 표준편차를 구하여 상대적 변화가 많은 영역 순으로 피해강도를 나누는 방식으로 진행된다(Escuin et al., 2008; NIFS, 2013; Stankova and Nedkov, 2015). 이 중 dNBR이 공간구분성에 더 장점이 있다는 연구결과가 있으나, 단파적외선(shortwave infrared) 채널을 필요로 하기에 위성의 재원에 따라 dNDVI를 사용하기도 한다(Stankova and Nedkov, 2015). 광학 자료만을 이용한 피해강도 파악은 계절변화, 일변화, 지표특성에 의한 오분류 결과를 만들 수 있어, 다시기 입력 영상의 촬영시기에 따라 임계범위를 조정하여 사용하는 것이 일반적이다(Escuin et al., 2008, Won et al., 2014). 또한 최근 기후변화에 의해 대표적 건조 시기인 봄철 외의 계절에 산불발생 빈도가 늘고 있어, 계절에 상관없이 산불피해강도를 파악할 수 있는 방법이 필요하다(Korea Forest Service, 2019).

산림은 계절 및 지역에 따라 식생의 활력도, 수분함량 등의 특성이 다양할 수 있는데, 단순 식생지수 변화량의 공간적 상대임계를 사용하는 접근법은 오분류를 만들 수 있다. 광학위성과 달리 SAR(Synthetic Aperture Radar) 위성은 태양복사, 밤낮구분, 구름유무 등에 무관하게 영상을 취득할 수 있어 지상환경변화 관련 연구에 많이 사용되고 있다(Addison and Oommen, 2018; Lasaponara and Tucci, 2019; Ban et al., 2020). SAR위성은 파장에 따라 대체로 X, C, L밴드를 가지고 있고, 이 중 C밴드는 수목의 체적산란 및 토양수분에 민감하여, 산불에 의한 수목 피해 및 토양수분 감소에 사용될 수 있다(Addison and Oommen, 2018; Lasaponara and Tucci, 2019; Ban et al., 2020). Addison and Oommen (2018)에서는 L밴드 SAR 센서인 PALSAR(PhasedArray typeL-band SyntheticApertureRadar)를 탑재한 ALOS-1(Advanced Land Observing Satellite) 위성자료를 활용해 미국지역 산불피해 지역의 피해강도를 추정하였다. 산불 발생 전후 영상의 차이, 상대비율 등을 입력변수로 사용한 의사결정나무 모델을 만들었고, 광학위성기반 분류와 비교하여 상대적으로 높은 정확도를 나타냈다. 하지만 SAR위성의 작은 값 차이에도 피해강도가 크게 달라질 수 있어, 안정도가 떨어짐을 확인할 수 있었다.

단일 위성종류만을 사용하는 산불 피해강도 탐지의 한계를 극복하고자, 광학위성과 SAR 위성을 복합적으로 사용하기도 하였다. Brown et al., (2018)은 Sentinel-1 SAR 위성과 Sentinel-2 광학위성을 사용하여 포르투갈에서 발생한 산불에 대해 피해강도를 추정하였다. 최대 우도 추정법 및 기계학습 결과를 취합하여 피해지 탐지를 거친 후, 기계학습을 통해 피해강도 탐지를 진행하여 77.9%의 강도탐지율을 보였으나, 단일사례로만 생산된 모델이라는 한계가 있었다.

이런 선행연구의 한계를 극복하고자, 본 연구에서는 광학위성과 SAR 위성자료에서 추출한 인자들과 기계학습 모델들을 통해 우리나라 산불에 적합한 산불 피해 강도 탐지 모델을 제시하였다. 세 개의 산불 사례로부터 산불 발생 전/후의 다시기 환경정보를 기계학습 모델의 입력변수로 사용하였다. 또한 교차사례검증(crosssite validation)을 통해 모델의 시공간적 범용성을 가늠해보고 문제점을 파악하였다.

2. 자료 및 연구방법

1) 참조자료(Reference data)

본 연구는 국립산림과학원이 구축한 2017년 5월 6일에 발생한 삼척(Samcheok), 2019년 4월 4일에 발생한 강릉·동해(Gangreung·Donghae), 고성·속초(Gosung·Sokcho) 산불의 고해상도 피해강도 자료를 참조자료로 사용하였다(Fig. 1, Table 1). 산불 피해강도는 경피해(low severity), 중피해(moderate severity), 심피해(high severity)로 구분되어 제공이 되었고, 항공우주연구원에서 운영 중인 KOMPSAT-3 시리즈의 dNDVI를 이용하여 생산이 되었다(NIFS, 2013; Won et al., 2019). 피해강도 참조자료는 10 m 공간해상도의 Sentinel-2 영상에 맞춰 과반수투표 방법을 통해 리샘플링 후 사용하였다. 리샘플링 시에 특정 강도의 면적이 50% 이상이며, 동률의 다른 강도샘플이 없는 픽셀만을 고품질의 샘플로 간주하여 선정하였고, 선정된 픽셀의 총 개수는 Table 1과 같다.

OGCSBN_2020_v36n5_3_1109_f0001.png 이미지

Figure 1. The study area with three wildfire cases: (a) Samcheok case in May 2017, (b) Gangreung·Donghae case in April 2019, and (c) Gosung·Sokcho case in April 2019.

Table 1. Summary of wildfire reference cases used in this study. ‘Number of pixels’ indicates the number of valid pixels for each severity class after the resampling process to 10 m resolution

OGCSBN_2020_v36n5_3_1109_t0001.png 이미지

2) 입력자료 및 전처리

본 연구에서는 산불 피해를 입은 산림의 체적 변화, 토양수분변화 및 식생/탄화 정도의 변화를 이용하여 산불 피해강도를 추정하기 위해 Sentinel-1A와 Sentinel-2A 자료를 입력자료로 사용하였다. SAR-C(C-band Synthetic Aperture Radar; 5.405 GHz) 센서를 탑재한 Sentinel-1A는 2014년 4월에 ESA(European Space Agency)에서 쏘아올린 위성체로, 그로부터 2년 후에 쏘아 올린 Sentinel1B와 군집위성 궤도를 돌며 자료를 제공하고 있다. 우리나라 지역에 대해서는 IW(Interferometric Wide) 모드의 VV(Vertical transmit and Vertical receive)와 VH(Vertical transmit and Horizontal receive) 이중편파 영상을 12일 주기로 제공하고 있다. 본 연구에서는 IW모드 GRD(Ground Range Detected) 자료를 활용하였고, Copernicus Open Access Hub를 통해 취득한 자료를 사용하였다. SAR 영상을 신뢰할 수 있는 후방산란강도로 변환하기 위해서는 전처리 과정이 필요한데, Copernicus에서 제공하는 SNAP(Sentinel application platform) 프로그램을 통해 진행을 하였다. 먼저 위성영상에 궤도정보를 적용 후에 복사보정을 수행하였다(Brown et al., 2018). 그 후, 5×5의 ‘Lee’ 필터를 통해 스페클을 보정하고, 기본값으로 제공되는 30 m 공간해상도의 SRTM(Shuttle Radar Topography Mission)자료를 이용한 지형보정을 진행하였다(Brown et al., 2018). Sentinel-1A영상은 대기나 태양 복사에너지의 영향을 거의 받지 않기 때문에, 산불피해 사례에 가장 근접한 전후 시기영상을 입력자료로 사용하였다(Table 2).

Table 2. Information of satellite data used in this study for Samcheok case (May 6, 2017), Gangreung·Donghae case (April 4, 2019), and Gosung·Sokcho case (April 4, 2019)

OGCSBN_2020_v36n5_3_1109_t0002.png 이미지

MSI(Multi-SpectralInstrument) 센서를 탑재한 Sentinel2A는 2015년 6월 ESA에서 발사된 위성으로, 2017년 3월에 발사된 Sentinel-2B와 군집위성 궤도를 돌며 자료를 제공하고 있다. 가시광선, 근적외선, 단파적외선을 포함한 13개 파장채널에 대한 정보를 10-60 m 공간해상도로 제공하고 있으며, 약 10일 주기의 재방문 주기를 가지고 있다. 고해상도 광학영상인 Sentinel-2A의 L1C자료는 대기에 의한 영상왜곡이 있을 수 있어, 본 연구에서는 대기보정처리가 완료된 L2A 자료를 입력자료로 사용하였다. Sentinel-2A 영상은 목표하는 영역에 구름이 덮여 있으면 해당지역 지표면의 정보를 원활히 취득할 수 없기 때문에, 산불피해 시기에 가장 가까운 구름 없는 영상을 Table 2와 같이 확보하여 입력자료로 사용하였다.

2) 연구방법

본 연구에서는 산불 피해강도 탐지를 하고자, 산불발생 전후 시기에 대한 Sentinel-1A의 VV, VH 후방산란강도와 함께 Sentinel-2A의 NDVI, NBR, NDWI(Normalized Difference WaterIndex; 정규수분지수)와 dNDVI, dNBR, dNDWI를 입력변수로 활용한 기계학습 모델을 구축하였다(Table 3). NDWI는 정규수분지수로, 수목의 산불 피해에 의한 수분스트레스를 잘 반영하는 인자로 알려져 있어 NDVI, NBR과 함께 입력변수로 도입하였다(Collins et al., 2018). 먼저, 연구에서 사용하는 위성영상들과 참조자료의 공간해상도가 균일하지 않아, 같은 시기 Sentinel-2A의 4번 밴드 영상에 맞게 10m 공간해상도로 리샘플링을 진행하였다. Sentinel-1A의 후방산란강도 영상과 Sentinel-2A의 12번 밴드는 이중선형보간 방법을, 참조자료는 과반수투표를 활용하여 리샘플을 하였다. Sentinel-1A와 다르게 Sentinel-2A 기반 입력변수들은 기본 밴드들을 이용하여 NDVI, NBR, NDWI을 계산하였으며(Eq.1-3), Green은 3번 밴드, Red는 4번 밴드, NIR(Near InfraRed)는 8번밴드, SWIR(Short Wavelength InfraRed)는 12번밴드로, 각각 0.560 µm, 0.665 µm, 0.842 µm, 2.190 µm의 중심파장을 가진다. 이 후, 인자 계산이 완료된 입력영상들을 해당되는 산불 피해강도 참조자료에 맞춰 픽셀단위로 샘플을 추출했다.

Table 3. Summary of the input variables used to develop machine learning-based wildfire severity mapping models

OGCSBN_2020_v36n5_3_1109_t0003.png 이미지

총 3개의 산불 사례에서 경피해, 중피해, 심피해, 그리고 미피해에 대한 샘플을 추출하였으며, 그 결과 강도별 샘플수의 불균형이 매우 컸다(적게는 2배, 많게는 10배 이상) (Table 1). 이러한 강도별 불균형 샘플자료를 이용하여 기계학습을 훈련할 경우, 샘플자료가 많은 강도에 편파적으로 분류를 수행하는 모델로 학습될 수 있기 때문에, 강도, 즉 타겟 클래스 별 훈련자료 비율을 조정할 필요가 있다(Cieslak and Chawla, 2008). 따라서 본 연구에서는 타겟 강도별 샘플들을 중피해 샘플 개수 기준으로 언더샘플링 또는 오버샘플링을 수행하였다. 샘플의 개수가 충분히 많은 미피해, 심피해의 경우 샘플 중 무작위로 중피해 샘플 개수만큼 추출하는 언더샘플링을 적용하였고, 샘플의 개수가 상대적으로 적은 경피해 샘플에 대해서는 허용가능한 오차범위를 ±5%로 선정 후 기존 샘플들에 무작위 오차를 주어 중피해 샘플 개수가 될 때까지 복제샘플을 만들어 구성을 하는 오버샘플링을 적용하였다(Park et al., 2019).

\(N D V I=\frac{N I R-R e d}{N I R+R e d}\)        (1)

\(N B R=\frac{N I R-S W I R}{N I R+S W I R}\)       (2)

\(N D W I=\frac{\text { Green }-N I R}{\text { Green }+\text { NIR }}\)       (3)

추출 후 비율조정된 샘플을 이용하여 본 연구에는 RF(Random Forest), LR(Logistic Regression), SVM(Support Vector Machine) 기계학습 방법을 통한 산불 강도탐지 모델을 만들었다. RF는 반복적인 이진분류를 통해 최종결과에 다다르는 CART(Classification And Regression Tree) 기반으로 구성된 기계학습 모델이다(Breinman, 2001). 부트스트랩(Bootstrap) 방법을 통한 무작위 샘플, 변수 선정을 통해 만들어진 다량의 CART들의 투표를 통해 최종결과를 만들며, 기존 CART의 과적합 문제를 개선한 기계학습 형태로, 다양한 분류 연구에 많이 사용이 된다(Yoo et al., 2019). LR은 S자모양의 로지스틱 함수(Logistic function)을 사용하는 다변수 회귀분석모델로, 로지스틱 함수의 특성으로 인해 아주 좁은 임계값 영역을 만들어 0과 1을 가지는 분류 모델의 기능으로 두루 사용이 되고 있다(Hosmer et al., 2013; Bak et al., 2018). SVM은 입력변수들과 종속변수의 다차원 공간에 대한 초평면(Hyper-plane)을 만들어 분류를 진행하는 기계학습 모델이다 (Mountrakis et al., 2011). 커널(kernel)을 통해 높은 차원으로 투영하여 분류를 진행하여 선형으로 분류하기 어려운 다차원 자료를 분류할 수 있는 기계학습 방법으로 다양한 분류연구에 많이 사용된다(Han et al., 2018).

본 연구에서는 기계학습모델의 안정성 및 일반화 가능성을 확인하기 위해 교차검증(cross-validation)을 도입하였다. 교차검증 중 오버샘플링이 된 강도의 샘플중 복제되지 않은 원본 샘플만을 이용해 성능평가를 진행하였다. 기계학습의 성능평가를 위해 세 개의 사례의 샘플들을 각각 다섯 등분으로 나누어 교차취합 하여, 시공간적 사례가 고루 적용된 샘플을 구축 후, 5겹 교차검증 기계학습 모델을 만들어 모델별 평가를 진행하였다. 각 모델별로 산불피해강도의 공간 분포를 비교분석 하기 위해 산림과학원에서 제작한 참조자료(reference)와 함께 기존 현업에서 사용되고 있는 dNDVI기반 알고리즘과 dNBR기반 알고리즘을 Sentinel-2A 영상으로 구현한 결과도 함께 나타내었다(NFIS, 2013). dNDVI와 dNBR 알고리즘의 임계값은 평균 + 표준편차의 2.5배, 평균 + 표준편차의 1.5배, 평균 – 표준편차의 0.5배로 두고 각각 미피해, 경피해, 중피해, 심피해 등급으로 나누어 사용하였다(NFIS, 2013). 그 후, 범용 가능성 확인 및 사례에 대한 민감도 확인을 위해 사례 전체를 고립하여 검증에 사용하는 사례교차검증(cross-site validation)을 수행하여 학습/검증 사례별 성능평가를 진행하였다. 성능평가를 위해 분류결과의 각 강도별 UA(User Accuracy; 사용자 정확도)와 PA(Producer Accuracy; 제작자 정확도)를 계산하였고, 모델별로는 OA(Overall accuracy; 총 정확도)를 계산하였다. UA는 해당 강도로 예측을 한 샘플 개수 중 제대로 탐지한 샘플의 개수를 백분위로 나타낸 것으로, 오경보(false alarm)가 작을수록 값이 크다. PA는 해당 강도 총 샘플 개수 중 제대로 탐지한 샘플의 개수를 백분위로 나타낸 것으로, 탐지정확도를 나타낸다. OA는 모든 샘플 중 제대로 탐지한 샘플의 개수를 백분위로 나타낸 것으로, 모델의 총 성능 지표로 활용된다.

3. 결과 및 토의

1) 기계학습 모델성능 비교

5겹 교차검증 결과 교차마다의 정확도 차이가 2% 내로 분포하여, 교차별 분류결과의 평균값을 사용하여 모델별 각 피해강도에 대한 정량적 성능수치인 UA와 PA에 대해 알아보았다(Fig. 2). 먼저 OA의 경우 RF는 82.3%, LR은 74.7%, SVM은 78.2%로 나와, RF, SVM, LR 순서로 높은 총정확도를 보였다. 그리고 모든 강도의 UA, PA 성능인자 면에서 RF모델의 성능이 타모델에 비해 뛰어남을 확인할 수 있었고, SVM과 LR모델이 뒤를 이었다(Fig. 2). 이는 회귀기반 모델과 조건기반 모델의 샘플갯수에 따른 민감도 차이로 해석이 될 수 있는데, 학습샘플이 작을 경우에는 회귀기반 모델의 성능이 조건기반보다 좋을 수 있으나, 본 연구는 10만개 이상의 픽셀샘플을 이용한 모델 구축을 진행함으로써 조건기반의 모델에서 더욱 다양한 패턴에 대한 학습이 가능하게 되어 RF 모델의 성능이 조금 더 좋은 것으로 사료된다(Liu et al., 2018).

OGCSBN_2020_v36n5_3_1109_f0002.png 이미지

Figure 2. User’s and producer’s accuracies by severity class from three machine learning models based on 5-fold cross validation results.

피해강도에 대한 분류성능을 살펴보면, 미피해 지역에 대해서는 모든 모델에서 80%를 넘는 UA, PA를 보이고, 심피해 지역에 대해서도 75%, 65%이상의 성능지수를 보이며 높은 탐지성능 및 낮은 오경보율 나타냄을 확인할 수 있었다. 하지만 경피해 영역의 탐지 성능에서는 세 개의 모델 모두 가장 낮은 성능을 보이고 있었다. 특히 LR 모델의 경우 실제 경피해 영역의 10%만을 맞히고, 오경보 역시 70%정도를 보였고, SVM 모델 역시 20%를 조금 넘는 영역만을 잘 탐지한 것을 알 수 있었다. 이어 중피해 영역에서는 모든 모델의 성능지수가 40%를 넘긴 하였으나, RF와 LR 모델의 성능수치 차이가 각 10%이상을 보이며 모델별 산불 피해강도 모의에 대한 성능이 차이가 나는 것을 알 수 있었다. 이는 각 영상 사례별 취득된 원본 산불 피해강도 픽셀수의 차이 경향과 유사함을 알 수가 있는데(Table 1), 미피해와 심피해 강도와 달리 경피해와 중피해의 경우 제한된 샘플 또는 타강도와 혼재 및 산개된 공간분포를 가진 자료로 모델 학습이 수행되어 타강도와의 구분성 및 값의 다양성이 떨어져 성능평가에 영향을 준 것으로 보인다(Fig. 1). 또한 경피해, 중피해와 같이 상대적으로 약한 산불 피해의 경우, 지표근처에서만 피해를 입히기 때문에 수목 상층부의 신호가 주요한 위성원격탐사에서 이를 구분해내기 힘들 수 있다(Collines et al., 2018). 수치적 성능결과와 함께 분류 분포를 확인하고자 실제 사례에 대한 모델별 매핑결과와 함께 현업에서 사용중인 dNDVI와 dNBR 알고리즘을 구현하여 같이 비교하였다(Fig. 3-5).

OGCSBN_2020_v36n5_3_1109_f0003.png 이미지

Figure 3. Wildfire severity maps of 2017 Samcheok case: (a) reference data, (b) difference of Normalized Difference Vegetation Index, (c) difference of Normalized Burn Ratio, (d) random forest, (e) logistic regression, and (f) support vector machine. (d)-(f) results were based on the models that resulted in the highest accuracy in 5-fold cross validation.

OGCSBN_2020_v36n5_3_1109_f0004.png 이미지

Figure 4. Wildfire severity maps of 2019 Gangreung·Donghae case: (a) reference data, (b) difference of Normalized Difference Vegetation Index, (c) difference of Normalized Burn Ratio, (d) random forest, (e) logistic regression, and (f) support vector machine. (d)-(f) results were based on the models that resulted in the highest accuracy in 5-fold cross validation.

OGCSBN_2020_v36n5_3_1109_f0005.png 이미지

Figure 5. Wildfire severity maps of 2019 Gosung·Sokcho case: (a) reference data, (b) difference of Normalized Difference Vegetation Index, (c) difference of Normalized Burn Ratio, (d) random forest, (e) logistic regression, and (f) support vector machine. (d)-(f) results were based on the models that resulted in the highest accuracy in 5-fold cross validation.

매핑을 위해 5겹 교차 중 세 모델 모두 가장 높은 총 정확도를 나타낸 학습샘플을 이용하여 기계학습 매핑을 진행하였고, dNDVI와 dNBR 알고리즘 분류결과와 비교하였다. 모든 사례 영역에 대해 dNDVI와 dNBR 알고리즘에서 미피해에 대한 모의가 잘 되지 않은 것을 확인할 수 있었고, 기계학습 모델들에서는 상대적으로 산불 피해지역에 대한 모의를 잘 하는 것으로 확인이 되었다. 앞선 성능인자 평가와 동일하게 모든 사례와 모든 모델에서 경피해와 중피해에 대한 모의가 부족한 것이 확인되었으나, 미피해와 심피해 지역에 대한 모의는 상대적으로 잘 됨을 확인할 수 있었다. 하지만 2019 고성·속초 사례의 분류 결과를 보면 LR과 SVM 모델에서 미피해지역에 대한 오경보가 발생하는 것을 확인할 수 있었다. 2019 강릉·동해 사례의 경우 경피해 지역에 대해 LR과 SVM모델에서 과소추정 패턴이 확인되었으나, 미피해로의 분류가 주로 이루어졌다. 이는 경피해 샘플의 값 분포가 미피해의 샘플과 겹치는 부분이 많아 발생한 회귀기반 분류모델의 한계로 볼 수 있다(Table 1). 또한 참조자료 역시 위성의 광학정보를 통해 산출되어 표고 및 지표경관에 따른 오차가 있을 뿐 아니라, 식생 상층부의 신호가 주요하여 경·중피해에 대한 모의가 잘되지 않았을 수 있다(Roy et al., 2006; Collines et al., 2018). 2019년 사례와 다르게 2017년 삼척 사례의 매핑 결과에서는 세 개의 모델 모두 다른 사례들에 비해 모의를 잘하지 못하는 것으로 확인이 되었다. 이는 사례별 시공간 차이에 의해 발생한 것으로 보여, 완벽히 독립된 사례들로 학습 및 검증을 사례교차검증을 통해 수행하여 사례에 대한 민감도를 알아보았다(Fig. 6)

OGCSBN_2020_v36n5_3_1109_f0006.png 이미지

Figure 6. User’s and producer’s accuracies by model and severity class based on the cross-site validation.

2) 교차사례 민감도 분석

먼저 2017년 삼척 산불 사례를 검증자료로 둔 모델의 결과를 보면 먼저 미피해 지점에 대해서는 모든 모델이 99% 이상의 높은 PA를 보여주었으나, 그에 비해 UA는 50% 정도였다(Fig. 7). 이는 실제로 미피해 지역에 대한 탐지율이 99%에 달하지만, 미피해로 분류된 면적의 절반가량은 실제로 피해가 있었던 면적임을 의미한다. 이와 상반되게 심피해 지역의 경우 모든 모델에서 95% 이상의 UA를, 5% 정도의 PA를 보이고 있다. 이는 심피해로 분류가 된 지역의 95% 이상이 실제로 심피해 지역이지만, 이 영역을 제외한 나머지의 심피해 지역에 대해서는 모의를 잘 못하고 있음을 의미한다. 그리고 경피해 지역에 대해서는 80%정도의 UA와 70%정도의 PA를 확인할 수 있는데, 이는 20% 정도의 오경보가 섞여있긴 하지만 실제 경피해 지역의 70% 정도는 기계학습 모델들에서 옳게 탐지를 한다는 것을 의미한다. 그리고 중피해 정확도를 확인해보면 UA와 PA 모두 30% 이하의 값을 가지고 있음을 알 수 있는데, 이는 중피해 분류 결과의 70% 이상이 실제로 타강도 지역이면서도 실제 중피해 지역에 대한 탐지도 잘 되지 않음을 의미한다. 다시 말해, 2019 강릉·동해와 2019고성·속초 사례로 학습한 기계학습모델들은 2017삼척 사례를 미피해지역으로 과도하게 분류하고, 중피해와 심피해 지역을 상대적으로 적게 분류하는 것을 확인할 수 있었다. 이는 학습사례와 검증사례 시공간 차이에 의한 결과로 볼 수 있는데, 세개의 검증 사례의 공간적 위치가 다 다름에도 2017삼척 사례를 모의하는 모델에서만 유다르게 낮은 성능을 나타내는 것으로 보아, 시간적 차이에 의해 발생한 문제임을알수 있었다. 2017년 사례는 5월달, 2019년 사례들은 4월달에 발생한 산불로, 식생의 성장이 주요히 일어나는 봄철에 발생한 식생활력도의 급격한 상승에 의한 차이임을 확인하고자 dNDVI, dNBR, dNDWI의 사례별, 강도별 값 분포를 확인하였다. dNBR의 경우 RF에서 가장 높은 변수중요도를 보이고, dNDWI, dNDVI가 각 7번째 8번째 순위를 차지하고 있고, 선행연구에서 식생 변화를 대변하는 중요변수로 언급이 되어있어 상관성이 높은 변수로 판단 후 값 분포를 확인하였다(Escuin et al., 2008; NIFS, 2013; Stankova and Nedkov, 2015; Collins et al., 2018). 각 사례에 대한 인자의 값 분포를 확인해본 결과, 2017년 5월에 발생한 삼척 사례에서 유다른 값 분포를 확인할 수 있었다. 국내 산림의 경우 4월 중순 이후 5월 초에 급격한 식생성장을 이루는 뚜렷한 계절적 특징을 가지며, 이것이 NDVI값의 급격한 상승을 일으키는데(Youn et al., 2019), 2017년 5월 삼척 사례의 경우, 4월 중순부터 5월 초 사이의 급격한 식생성장으로 인해서, Sentinel-2 영상의 식생지수들이 나머지 산불사례들과 다른 피해강도들의 특성을 나타내고, 그것이 기계학습의 성능하락을 초래하였을 것으로 사료된다. 또한 해당 시기의 식생 성장특성이 다른 해에 비해 달라서 생긴 식생신호의 차이가 더불어 작용했을 것으로 판단된다(Wilson and Baldocchi, 2000). 산림의 식생종류와 피해강도의 상관성 연구에 따라, 1996-2005년에 제작된 산림임상도와의 상호비교도 하였으나, 10년 이상의 큰 시간차이로 인해 식생종류와 피해강도의 유의한 상관성을 발견하지 못하였다(Hall et al., 2008). 이는 수관전소 피해를 입은 뒤임에도 불구하고 높은 식생지수 값을 유지하고 있어, 타사례 분류에 사용될 경우 오분류를 야기할 수 있음을 알 수 있다. 이 외의 모델에서는 각 월별 학습사례가 한 개 이상 들어가 상대적으로 높은 성능을 보임을 확인할 수 있다.

OGCSBN_2020_v36n5_3_1109_f0007.png 이미지

Figure 7. Boxplots of the post-pre difference for (a) normalized difference vegetation index, (b) normalized burn ratio, and (c) normalized difference water index. Case01, case02, and case03 represent May 2017 Samcheok, April 2019 Gangreung·Donghae, and April 2019 Gosung·Sokcho, respectively.

4. 결론

본연구는 산림과학원에서 구축한 2017, 2019년 강원도지역 3개의 산불피해강도 사례를 통해 시공간적으로 일반화된 산불피해강도 분류 모델의 구축가능성을 확인하였다. 산불피해 이 후 손상된 수목의 이파리 및 잔가지의 변화와 토양수분손실 파악을 위해 Sentinel-1위성 SAR-C 센서의 후방산란강도 산출물과 함께, 식생의 활력도 상태 및 변화를 반영하고자 Sentinel-2에서 산출된 NDVI, NBR, NDWI 값 및 이들의 변화량을 입력한 RF, LR, SVM 기계학습 모델들을 구축하였다. 정량적 평가 결과, LR과 SVM 모델에서 경피해 지역의 오분류 경향이 보였으나, 비선형 조건기반 모델인 RF에서는 가장 높은 분류정확도를 보였다. dNDVI와 dNBR 모델에서는 영상내 피해강도 구성의 불균형으로 인해 미피해 지역의 대부분이 경피해 지역으로 분류되었다. 이에 반해 기계학습 모델들은 참조자료와 유사한 공간 패턴을 보였으나, 발생한 시기가 다른 한 사례에 대한 평가에서 높은 오분류가 확인되었다. 독립적으로 분리된 사례에 대해 모델별 정량평가도 진행 및 변수분석 결과, 이는 봄철 식생의 성장정도 및 단계에 따라 값 분포의 차이가 발생하여 발생한 것으로 확인이 되었다. 또한 참조자료 자체의 불확실성, 피해지역의 수종분포 등에 의한 오차가 발생할 수도 있어, 이에 대한 고려가 추가될 시 모델의 성능 및 객관도를 높일 수 있다. 그리고 샘플 부족에 의한 피해강도별 불균형한 모의력이 파악이 되었는데, 이는 추후 다양한 시기/위치의 산불 피해사례 자료를 추가 학습함으로써 개선이 될 것으로 기대된다.

사사

본 연구는 2020년도 국립산림과학원 위탁연구사업(기상 빅데이터를 활용한 산불위험 통합예보체계 구축. F0500-2018-01)와 산림청(한국임업진흥원) 산림과학기술 연구개발사업 (FTIS 2020179A00-2022-BB01)의 지원에 의하여 이루어진 것입니다.

References

  1. Addison, P., and T. Oommen, 2018. Utilizing satellite radar remote sensing for burn severity estimation, International Journal of Applied Earth Observation and Feoinformation, 73: 292-299. https://doi.org/10.1016/j.jag.2018.07.002
  2. Bak, S. H., H. M. Kim, B. K. Kim, D. H. Hwang, E. Unuzaya, and H. J. Yoon, 2018. Study on Detection Technique for Cochlodinium polykrikoides Red tide using Logistic Regression Model and Decision Tree Model, The Journal of the Korea Institute of Electronic Communication Sciences, 13(4): 777-786 (in Korean with English abstract). https://doi.org/10.13067/JKIECS.2018.13.4.777
  3. Ban, Y., P. Zhang, A. Nascetti, A. R. Bevington, and M. A. Wulder, 2020. Near Real-Time Wildfire Progression Monitoring with Sentinel-1 SAR Time Series and Deep Learning, Scientific Reports, 10(1): 1-15. https://doi.org/10.1038/s41598-019-56847-4
  4. Breiman, L., 2001. Random forests, Machine Learning, 45(1): 5-32. https://doi.org/10.1023/A:1010933404324
  5. Brown, A. R., G. P. Petropoulos, and K. P. Ferentinos, 2018. Appraisal of the Sentinel-1 & 2 use in a large-scale wildfire assessment: A case study from Portugal's fires of 2017, Applied Geography, 100: 78-89. https://doi.org/10.1016/j.apgeog.2018.10.004
  6. Cieslak, D. A., and N. V. Chawla, 2008. Learning decision trees for unbalanced data, In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, Springer, Berlin, Heidelberg, pp. 241-256.
  7. Collins, L., P. Griffioen, G. Newell, and A. Mellor, 2018. The utility of Random Forests for wildfire severity mapping, Remote Sensing of Environment, 216: 374-384. https://doi.org/10.1016/j.rse.2018.07.005
  8. Escuin, S., R. Navarro, and P. Fernandez, 2008. Fire severity assessment by using NBR (Normalized Burn Ratio) and NDVI (Normalized Difference Vegetation Index) derived from LANDSAT TM/ETM images, International Journal of Remote Sensing, 29(4): 1053-1073. https://doi.org/10.1080/01431160701281072
  9. Hall, R. J., J. T. Freeburn, W. J. De Groot, J. M. Pritchard, T. J. Lynham, and R. Landry, 2008. Remote sensing of burn severity: experience from western Canada boreal fires, International Journal of Wildland Fire, 17(4): 476-489. https://doi.org/10.1071/WF08013
  10. Han, D., Y. J. Kim, J. Im, S. Lee, Y. Lee, and H. C. Kim, 2018. The estimation of arctic air temperature in summer based on machine learning approaches using IABP buoy and AMSR2 satellite data, Korean Journal of Remote Sensing, 34(6-2): 1261-1272 (in Korean with English abstract). https://doi.org/10.7780/KJRS.2018.34.6.2.10
  11. Hosmer Jr, D. W., S. Lemeshow, and R. X. Sturdivant, 2013. Applied logistic regression (Vol. 398). John Wiley & Sons.
  12. Korea Forest Service, 2016. Forest basic statistics 2016, Korea Forest Service, 189, Cheongsas-ro, Seogu, Daejeon. (in Korean).
  13. Korea Forest Service, 2020. Forestfire statistical yearbook 2019, Korea Forest Service, 189, Cheongsas-ro, Seo-gu, Daejeon (in Korean).
  14. Lasaponara, R., and B. Tucci, 2019. Identification of burned areas and severity using SAR Sentinel-1, IEEE Geoscience and Remote Sensing Letters, 16(6): 917-921. https://doi.org/10.1109/LGRS.2018.2888641
  15. Lentile, L. B., Z. A. Holden, A. M. Smith, M. J. Falkowski, A. T. Hudak, P. Morgan, and N. C. Benson, 2006. Remote sensing techniques to assess active fire characteristics and post-fire effects, International Journal of Wildland Fire, 15(3): 319-345. https://doi.org/10.1071/WF05097
  16. Liu, T., A. Abd-Elrahman, J. Morton, and V. L. Wilhelm, 2018. Comparing fully convolutional networks, random forest, support vector machine, and patch-based deep convolutional neural networks for object-based wetland mapping using images from small unmanned aircraft system, GIScience & Remote Sensing, 55(2): 243-264. https://doi.org/10.1080/15481603.2018.1426091
  17. Mountrakis, G., J. Im, and C. Ogole, 2011. Support vector machines in remote sensing: A review, ISPRS Journal of Photogrammetry and Remote Sensing, 66(3): 247-259. https://doi.org/10.1016/j.isprsjprs.2010.11.001
  18. National Institute of Forest Science, 2013. A study on damage characteristics and development of burn severity evaluation methods, National Institute of Forest Science Research report, Seoul, Korea, pp. 13-37 (in Korean).
  19. Park, S., M. Shin, J. Im, C. K. Song, M. Choi, J. Kim, and S. K. Kim, 2019. Estimation of groundlevel particulate matter concentrations through the synergistic use of satellite observations and process-based models over South Korea, Atmospheric Chemistry and Physics, 19(2): 1097-1097. https://doi.org/10.5194/acp-19-1097-2019
  20. Roteta, E., A. Bastarrika, M. Padilla, T. Storm, and E. Chuvieco, 2019. Development of a Sentinel-2 burned area algorithm: Generation of a small fire database for sub-Saharan Africa, Remote Sensing of Environment, 222: 1-17. https://doi.org/10.1016/j.rse.2018.12.011
  21. Roy, D. P., L. Boschetti, and S. N. Trigg, 2006. Remote sensing of fire severity: assessing the performance of the normalized burn ratio, IEEE Geoscience and Remote Sensing Letters, 3(1): 112-116. https://doi.org/10.1109/LGRS.2005.858485
  22. Roy, D. P., H. Huang, L. Boschetti, L. Giglio, L. Yan, H.H. Zhang, and Z. Li, 2019. Landsat-8 and Sentinel-2 burned area mapping-A combined sensor multi-temporal change detection approach, Remote Sensing of Environment, 231: 111254. https://doi.org/10.1016/j.rse.2019.111254
  23. Stankova, N., and R. Nedkov, 2015. Monitoring forest regrowth with different burn severity using aerial and Landsat data, In 2015 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Milan, IT, Jul. 26-31, pp. 2166-2169.
  24. Wilson, K. B., and D. D. Baldocchi, 2000. Seasonal and interannual variability of energy fluxes over a broadleaved temperate deciduous forest in North America, Agricultural and Forest Meteorology, 100(1): 1-18. https://doi.org/10.1016/S0168-1923(99)00088-X
  25. Won, M., K. Kim, and S. Lee, 2014. Analysis of Burn Severity in Large-fire Area Using SPOT5 Imagesand Field Survey Data, Korean Journal of Agricultural and Forest Meteorology, 16(2): 114-124 (in Korean with English abstract). https://doi.org/10.5532/KJAFM.2014.16.2.114
  26. Won, M., K. Jang, S. Yoon, and H.T. Lee, 2019. Change Detection of Damaged Area and Burn Severity due to Heat Damage from Gangwon Large Fire Area in 2019, Korean Journal of Remote Sensing, 35(6): 1083-1093 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2019.35.6.2.5
  27. Yoo, C., D. Han, J. Im, and B. Bechtel, 2019. Comparison between convolutional neural networks and random forest for local climate zone classification in mega urban areas using Landsat images, ISPRS Journal of Photogrammetry and Remote Sensing, 157: 155-170. https://doi.org/10.1016/j.isprsjprs.2019.09.009
  28. Youn, H., J. Jeong, 2019. Detection of Forest Fire and NBR Mis-classified Pixel Using Multi-temporal Sentinel-2A Images, Korean Journal of Remote Sensing, 35(6-2): 1107-1115 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2019.35.6.2.7

Cited by

  1. 광학위성영상을 이용한 기계학습/PROSAIL 모델 기반 엽면적지수 추정 vol.37, pp.6, 2020, https://doi.org/10.7780/kjrs.2021.37.6.1.19