DOI QR코드

DOI QR Code

A Study on Transferring Cloud Dataset for Smoke Extraction Based on Deep Learning

딥러닝 기반 연기추출을 위한 구름 데이터셋의 전이학습에 대한 연구

  • Kim, Jiyong (Smart City Engineering, Seoul National University) ;
  • Kwak, Taehong (Smart City Engineering, Seoul National University) ;
  • Kim, Yongil (Smart City Engineering, Seoul National University)
  • 김지용 (서울대학교 스마트도시공학) ;
  • 곽태홍 (서울대학교 스마트도시공학) ;
  • 김용일 (서울대학교 스마트도시공학)
  • Received : 2022.10.02
  • Accepted : 2022.10.18
  • Published : 2022.10.31

Abstract

Medium and high-resolution optical satellites have proven their effectiveness in detecting wildfire areas. However, smoke plumes generated by wildfire scatter visible light incidents on the surface, thereby interrupting accurate monitoring of the area where wildfire occurs. Therefore, a technology to extract smoke in advance is required. Deep learning technology is expected to improve the accuracy of smoke extraction, but the lack of training datasets limits the application. However, for clouds, which have a similar property of scattering visible light, a large amount of training datasets has been accumulated. The purpose of this study is to develop a smoke extraction technique using deep learning, and the limits due to the lack of datasets were overcome by using a cloud dataset on transfer learning. To check the effectiveness of transfer learning, a small-scale smoke extraction training set was made, and the smoke extraction performance was compared before and after applying transfer learning using a public cloud dataset. As a result, not only the performance in the visible light wavelength band was enhanced but also in the near infrared (NIR) and short-wave infrared (SWIR). Through the results of this study, it is expected that the lack of datasets, which is a critical limit for using deep learning on smoke extraction, can be solved, and therefore, through the advancement of smoke extraction technology, it will be possible to present an advantage in monitoring wildfires.

중, 고해상도 광학위성은 산불발생지역의 탐지에 대해 그 효용성이 입증되었다. 그러나 산불과 함께 발생하는 연기는 지표에 입사하는 가시광선을 산란시키므로 산불발생지역의 모니터링에 방해가 되며 따라서 연기를 사전에 추출하는 기술이 필요하다. 딥러닝 기술은 연기추출의 정확도를 향상시킬 수 있으나, 학습용 데이터셋의 부족으로 인해 적용에 한계가 있다. 반면에 연기와 유사하게 가시광선을 산란시키는 성질을 지닌 구름은 현재까지 다량의 학습용 데이터셋이 축적되었다. 본 연구는 딥러닝을 활용하여 연기추출을 고도화하는 것이 그 목적이며, 그 과정에서 데이터셋의 부족에 따른 연기추출의 한계점을 구름을 활용한 전이학습으로 해결했다. 전이학습의 효율성 확인을 위해 본 연구에서는 Landsat-8 위성영상을 기반으로 연기추출 학습용 데이터셋을 소규모로 제작한 후, 공공 구름 데이터셋을 활용하여 전이학습을 적용하기 전과 후의 연기추출 성능을 비교하였다. 그 결과 가시광선 파장대역 뿐만이 아니라 근적외선(NIR)과 단파장 적외선(SWIR) 영역에도 전이학습시 성능이 뚜렷하게 향상됨을 확인할 수 있었다. 본 연구결과를 통해서 연기추출의 데이터셋의 부족을 해결할 수 있을 것으로 보이며, 더 나아가 연기추출의 고도화를 통해서 산불발생지역의 모니터링에 이점을 제시할 수 있을 것이다.

Keywords

1. 서론

국내 산불의 연중화와 대형화로 인해, 산불발생지역에 대한 모니터링의 필요성이 증대되고 있다. 2019년 고성-속초에서 발생한 산불(소실면적 약 2,000 ha)을 이례로, 2020년 안동(소실면적 약 2,000 ha)과 2022년 울진-삼척(소실면적 20,000 ha 이상)에서 산불이 차례로 발생하였다. 산림청에 의하면 2019년부터 2021년까지 발생한 산불의 평균 소실면적은 2,314 ha로 2012년부터 2018년까지 평균 소실면적 561 ha의 4배에 달한다. 이러한 산불의 연중화 및 대형화는 세계적인 추세로 2019년부터 2020년까지 약 1,000 ha의 면적을 소실한 호주 및 2018년부터 거의 매년 대형산불이 발생하고 있는 캘리포니아의 경우를 통해서 산불의 연중화 및 대형화를 확인할수 있다. 이에 따라 산불발생지역에 대한 효율적인 모니터링 시스템의 필요성이 증대되고 있으며, 대상지역을 접촉없이 관측할 수 있는 원격탐사의 적극적인 활용이 논의되어 왔다.

산불 발생지역에 필연적으로 존재하는 연기는 지표에 도달하는 가시광선을 산란시키기 때문에 원격탐사 기반 산불 모니터링의 주요 장애요소이다. 산불 모니터링의 정확도를 향상시키기 위해서 전처리과정으로 연기를 추출하고 제거하는 기술이 적용되고 있다. 다중 임계값 설정(multi-thresholding)은 기존 연기추출연구에서 활용되는 방법으로, Xie et al. (2007)은 moderate resolution imaging spectroradiometer (MODIS) 파장대역의 밝기온도(brightness temperature)에 임계값을 설정하여 연기를 분리해냈다. 임계값은 총 8개의 파장대역의 조합을 통해 4번 적용되었으며 각각의 테스트를 모두 통과한 픽셀을 대상으로 연기객체를 분리해냈다. Li et al. (2001)은 advanced very high resolution radiometer (AVHRR)영상을 이용하여 다중 임계값과 인공신경망을 같이 적용하여 연기를 추출하였으며, 비슷하게 Li et al. (2015)은 MODIS 영상에 다중 임계값 설정을 통해서 학습데이터를 생성한 후, 이를 인공신경망에 투입하여 연기를 추출해냈다.

그러나 다중 임계값 설정은 넓은 범위의 파장대역을 요구하며, 이를 충족하는 MODIS와 같은 위성영상들이 낮은 공간해상도를 가진다는 점에서 한계를 보인다. 최근에는 영상 내 객체 추출에 뛰어난 성능을 보이는 합성곱 인공신경망인 convolutional neural network (CNN)을 적용하는 연구가 진행되고 있다. Wen and Burke (2021)는 GOES-2 정지궤도 위성에 U-Net을 활용하여 연기를 추출해냈으며, Wang et al. (2022)은 Landsat-8 operational land imager (OLI)/thermal infrared sensor (TIRS) 위성에 U-Net을 활용하여 연기를 추출한 후, Landsat-8 위성의 여러 파장대역을 이용하여 연기추출에 가장 효과적인 파장대역의 조합을 실험하였다. 그 결과 R, G, B에 SWIR-2 파장대역을 이용하는 것이 연기추출에 가장 효과적이었다.

딥러닝을 이용한 연기 추출의 효과를 보여주는 다양한 연구가 존재하지만, 실제로 적용에는 한계가 존재하는데 이는 학습용 데이터셋의 부족에서 기인한다. 연기 추출 학습용 데이터셋은 지상에서 촬영하였거나(Khan et al., 2021; Yuan et al., 2019), 저해상도 위성영상에 기반하였다는 한계점을 가진다(Wen and Burke, 2021). Sentinel-2을 이용하여 10~20 m급의 해상도를 가져도(Mommert et al., 2020), 산업 현장에서 발생한 연기를 대상으로 도심에서 취득한 영상을 이용하였으므로 산불로 발생한 연기에 적용하기에는 한계가 존재한다.

본 연구는 산불 모니터링을 위한 전처리 과정의 일환으로 딥러닝 기반의 연기 추출 기술을 구현하고자 하였다. 구체적으로 다량의 데이터셋이 존재하는 구름 데이터셋을 이용한 전이학습(transfer learning)을 이용하여 연기추출을 위한 학습용 공공 데이터셋의 부재를 극복할 수 있는지 분석하고자 하였으며, 이를 위해서 전이학습 적용 전, 후의 연기추출 성능을 각각 비교하였다.

2. 전이학습을 이용한 연기추출

1) 전이학습

본 연구에서는 연기추출 학습용 공공 데이터셋의 부재를 다량의 구름 데이터셋을 활용한 전이학습으로 해결하였다. 전이학습은 특정 용도로 학습된 모델을 다른 용도로 전이하여 학습의 시작지점으로 사용하는 학습방식을 의미한다. 전이학습은 상대적으로 적은 양의 데이터셋으로 학습을 가능하게 하며, 학습시간 또한 단축시킬 수 있다는 장점이 있다. 원격탐사 분야는 해당 분야의 딥러닝 활용 가능성에 비해서 데이터셋이 부족한데, 이를 해결하기 위해 전이학습이 활발하게 적용되고 있다. Wang et al. (2018)은 아르헨티나의 작물 재배량을 사전학습 후 전이학습하여 브라질의 작물 재배량을 예측했으며, Xie et al. (2016)은 주간에서 야간 불빛영상으로 사전학습 시킨 뒤 이를 전이학습하여 빈곤층 분포 데이터의 부족을 해결하였다.

전이학습을 적용하기 위해서는 먼저 두 데이터셋에 유사성이 전제되어야 한다. 구름과 연기는 미(mie) 산란을 일으킨다. 미 산란이란 입자의 크기가 빛의 파장과 비슷할 경우 일어나는 산란으로, 미 산란은 레일레이 (rayleigh) 산란에 비해서 파장의 영향을 덜 받는다. 이는 곧 구름과 연기객체가 영상에서 유사하게 높은 밝기값으로 나타나게 하며, 가시광선 대역의 위성영상에서 두 객체가 유사한 특성을 보이도록 한다. 그러나 두 객체는 파장대역에 비례하여 차이가 증가한다. 두 객체는 결정적으로 수분의 양에 따라서 차이가 발생하는데, 구름은 대부분이 물로 이루어져 있지만 연기는 수분의 함량이 상대적으로 적다. SWIR 파장대역은 NIR 파장대역과 함께 수분에 민감하게 반응하기 때문에 해당 파장대역에서 구름객체는 반사되어 밝게 나타나고 연기객체는 투과되어 감지되지 않는다.

또한 구름은 연기에 비해 다량의 학습용 데이터셋이 축적되었다. Cloud-Net (Mohajerani and Saeedi, 2019) 데이터셋은 95장의 Landsat-8 구름영상으로 구성되어 있으며, 구름이 존재하는 픽셀과 존재하지 않는 픽셀 두 개의 클래스로 의미론적 분할을 목적으로 한다. SPARCS (Hughes and Kennedy, 2019) 데이터셋은 80장의 Landsat8 영상에 구름, 구름 그림자, 수계 위의 구름 그림자, 수계, 빙하, 지표 총 7가지의 클래스를 포함한 라벨쌍으로 구성되는 데이터셋이다. 이처럼 연기와의 유사성에 더불어 다량의 데이터셋을 포함한다는 구름 데이터셋의 장점을 통해서 전이학습을 구현할 수 있었다.

전이학습은 Fig. 1과 같은 방식으로 진행되었다. 비교군은 총 세가지로, 연기 데이터셋 만으로 학습된 모델과 구름 데이터셋으로 사전학습을 진행 후, 전이학습을 통해 연기 데이터셋으로 학습을 진행시킨 모델, 그리고 ImageNet을 이용하여 사전학습을 진행 후, 전이학습을 통해 연기 데이터셋으로 학습을 진행시킨 모델이다. 먼저 구름 데이터셋으로 사전학습을 진행시킨 모델은 각 픽셀에 대해서 구름이 존재하는지 여부를 0과 1로 나타내도록 학습시켰다. 즉 사전학습 모델은 구름을 픽셀 단위로 이진분류하며, 연기 데이터셋의 추가학습을 통해서 구름객체의 특성을 추출하는 부분이 연기객체의 특성을 추출하도록 전이되었다.

OGCSBN_2022_v38n5_2_695_f0001.png 이미지

Fig. 1. The flowchart of transfer learning.

구름 데이터셋으로 사전학습 후 전이학습 적용 전후만을 비교하여 판단하기에는 구름 데이터셋의 수량이 연기 데이터셋의 수량에 비해서 30배가량 많다. 본 연구에서 사용한 합성곱 신경망기반 모델의 경우 입력자료의 수에 따라 그 성능이 유의미하게 달라진다. 즉 사전학습 과정에서 데이터셋의 단순증가가 성능 향상에 영향을 미칠 수 있으며 사전학습을 적용한 연기추출과 사전학습을 적용하지 않은 연기추출의 성능비교 타당성에 의문을 제기할 수 있다. 이를 해결하기 위해서 구름 데이터셋을 이용한 전이학습 외에도 ImageNet을 이용한 전이학습을 추가로 진행하였다. ImageNet은 ImageNet large scale visual recognition challenge (ILSVRC) 2012년에 사용된 데이터셋으로 1,281,167장의 학습 데이터와 50,000장의 검증 데이터, 그리고 100,000장의 평가 데이터를 포함한다. ImageNet은 computer vision (CV) 분야에 기반한 데이터셋이지만, 원격탐사 분야에서도 사전학습을 위한 데이터셋으로 범용성 있게 사용된다. 따라서 ImageNet을 이용하여 전이학습을 진행할 경우 구름과 연기객체의 유사성과 관계없이 단순한 데이터셋의 증가로 인한 성능향상을 확인할 수 있다. ImageNet은 그러나 구름 데이터셋과는 다르게 픽셀 단위가 아닌 영상 전체를 분류하는 목적의 데이터셋 이므로 전이학습 과정에서 마지막 분류를 담당하는 완전연결계층(fullyconnected layer)를 제거한 후, 모델의 나머지 부분을 연기객체의 특성을 추출하도록 전이하였다.

2) 딥러닝 모델

모델의 목적은 연기데이터의 의미론적 분할(semantic segmentation)로 설정하였다. 의미론적 분할이란 영상에 있는 픽셀들을 특정 클래스로 분류하는 것이다. 이를 위해서는 객체가 특정 클래스로 분류됨과 동시에 객체를 구성하는 픽셀들의 위치정보가 유지되어야 한다. 의미론적 분할을 성립시키기 위해서 fully convolutional network (FCN)이 제시되었다(Long et al., 2015). FCN은 모델을 지난 후, 학습 결과물 분류를 담당하는 완전연결계층을 모두 합성곱으로 변환하였다. 이를 통해서 분류된 픽셀들의 공간정보를 잃어버리지 않도록 할수있었다. 이렇게 특성과 공간정보를 추출한 후, 업샘플링 (upsampling)과정을 거쳐서 의미론적 분할을 달성할 수 있다. U-Net은 의미론적 분할을 위한 모델로, 투입 패치의 특징을 추출하는 인코더(encoder)와 추출한 특징을 바탕으로 각 픽셀의 공간정보를 재구성하는 디코더 (decoder)구조로 나뉘는 것이 특징이다(Ronneberger et al., 2015). U-Net은 잔차연결(skip-connection)을 적용하였는데, 잔차연결은 인코더 과정에서 생성된 영상을 디코더로 전이하여 투입하는 과정으로 인코더에서 소실되는 공간정보를 업샘플링 과정에서 유지할 수 있도록 한다. 본 연구는 U-Net을 기반으로 변형된 모델(Fig. 2)을 사용하였다. U-Net은 572×572에 1개의 채널을 가지는 흑백영상을 투입 데이터로 사용한다. 그러나 본 연구에서는 384×384 크기의 데이터를 사용했으며, Landsat8 위성의 R, G, B, NIR, SWIR-2 파장대역을 이용하여 연구를 진행하였으므로 투입 데이터의 크기와 채널 수를 384×384×3과 384×384×4로 조정하였다. 또한 U-Net에서는 합성곱 과정에서 패딩(padding)을 넣지 않아서 투입 데이터에 비해 산출 데이터의 크기가 줄어든다는 특징이 있다. 그러나 본 연구에서는 패딩을 1 추가하여 투입 데이터와 산출 데이터의 크기를 일치시켰다. 모델에 R, G, B 파장대역은 384×384×3의 크기로 투입했으며, NIR과 SWIR-2 파장대역을 추가로 활용 시 384×384×4의 크기로 투입했다. 결과물은 384×384×1의 크기로 산출되며, 결과물은 라벨 패치와 손실함수(lossfunction)를 통해서 비교 후 역전파 된다.

OGCSBN_2022_v38n5_2_695_f0002.png 이미지

Fig. 2. Model structure.

3. 실험 설계

1) 실험 지역 및 데이터 취득

(1) Landsat-8 OLI/TIRS

본 연구에서는 기존에 연기추출에 자주 사용되는 MODIS, AVHRR과 같은 영상들보다 높은 공간해상도를 가진 Landsat-8 OLI/TIRS위성을 이용하였다. Landsat8 OLI/TIRS은 2013년 2월 11일에 발사된 중해상도 광학위성으로 30 m 공간해상도를 가지는 가시광선과 15 m 공간해상도를 가지는 전정색 영상을 포함하여 근적외선과 단파 적외선을 감지하는 OLI센서와 100 m의 공간해상도로 열적외선을 감지하는 TIRS 두가지 센서로 이루어졌다. 두 센서는 총 11개의 파장대역을 가지는 밴드들을 제공하며 각 밴드들의 파장대역은 Table 1과 같다. Landsat-8 위성은 16 bit의 방사해상도를 가지므로 단일 픽셀의 밝기값을 65,536가지로 표현할 수 있다(Irons et al., 2012). 또한 Landsat-8 위성은 USGS EarthExplorer를 통해 공공에 영상을 공개하고 있다. 따라서 영상에 대한 접근성이 높으며 이에 따라 데이터셋의 생성 및 수정이 용이하다. 본 연구에서는 사전학습을 위해서 기존 데이터셋을 수정해서 사용했기에 이러한 특성을 가진 Landsat-8 영상을 이용하였다.

Table 1. The spatial resolution of bands in Landsat-8 OLI/ TIRS satellite

OGCSBN_2022_v38n5_2_695_t0001.png 이미지

(2) 구름, 연기 데이터셋 취득

연기영상들은 캘리포니아 산불사례를 통해서 취득하였다. 캘리포니아는 북아메리카의 서부에 위치하여 지중해성 기후를 띈다. 따라서 겨울이 지나고 3월 이후부터는 여름이 될 때까지 건조한 기후가 지속된다. 여름에 기온이 올라가게 되면 수분을 잃은 수목들이 불이 붙기 좋은 상태가 되며, 이로 인해서 주기적으로 산불이 발생한다. 특히 2018년 이후로 기후변화로 인하여 가뭄이 심화되고 있으며 거의 매년 초대형 산불이 발생하고 있다. 본 연구에서는 캘리포니아의 산불 사례 중 2018년과 2021년의 사례를 참고하였다. 2018년 사례에서는 두 개, 2021년 사례에서는 세 개의 영상을 취득하였다. 각 영상의 취득 중심점은 Fig. 3과 같다. 취득된 영상은 Fig. 4로 나타냈으며, 각각의 영상에 대응하는 메타데이터는 Table 2와 같다. 취득은 United States geological survey (USGS)의 EarthExplorer을 통해서 Landsat-8 OLI/TIRS의 Level-1 영상을 취득하였다. 연기영상 중에서 구름을 포함한 영상은 배제되었으며, 화면 전체가 연기로 덮여 있거나 연기의 양이 너무 적어 라벨링이 무의미한 영상 역시 배제되었다. 그 결과 총 5장의 Landsat-8 위성 영상을 취득하였다. 또한 다섯장의 캘리포니아 사례에 한 장의 2019년 시베리아 연기영상이 추가되었는데, 이는 해당영상에 나타난 연기객체의 경계면이 뚜렷하여 모델의 레퍼런스로 사용하기 위해서이다. 각각의 영상들은 ENVI 소프트웨어로 옮겨졌으며, R, G, B 파장대역과 SWIR-2 파장대역을 비교하여 연기객체를 확인하고 직접 라벨링을 진행하였다. 그 결과 Fig. 4와 같은 6장의 영상, 라벨쌍을 얻었다. 6장의 영상 중에서 5장은 학습과 검증에 사용되었으며, Fig. 4의 마지막 영상은 학습 결과물 평가에 사용되었다.

OGCSBN_2022_v38n5_2_695_f0003.png 이미지

Fig. 3. Image sites.

OGCSBN_2022_v38n5_2_695_f0004.png 이미지

Fig. 4. Image and label pairs: (a) Images, (b) Labels.

Table 2. Image metadata

OGCSBN_2022_v38n5_2_695_t0002.png 이미지

연기 데이터셋 취득 이후 사전학습에 사용할 구름 데이터셋을 취득하였다. 구름 데이터셋은 Cloud-Net (Mohajerani and Saeedi, 2019)을 사용했다. 구름 데이터셋의 취득에는 지역적 특성이 고려되었다. 연기 데이터셋은 캘리포니아라는 제한된 지역에서 취득하였기 때문에 특정지역에서 발생하는 연기의 특성만을 대표한다. 따라서 전이학습을 통해서 연기 데이터셋의 추출 성능을 향상시키기 위해서는 모든 지역의 특성을 대표할 수 있거나 단일지역의 특성을 대표할 시에는 해당 지역이 연기 데이터셋 취득 지역과 일치해야 한다. 구름 데이터셋은 95장의 구름을 포함한 Landsat-8 영상으로 구성되었다. 각 영상을 취득한 위치는 Fig. 3과 같으며 95장의 영상 모두 북아메리카와 남아메리카 북부, 그리고 그린란드에서 취득되었다. 즉 캘리포니아에서 취득한 연기 데이터와 지역적 특성이 일치하며 사전학습에 사용될 데이터셋으로 적합하다. 사전학습을 위해서는 데이터셋 자체의 수량 또한 충분해야 한다. 연기 데이터셋은 95장의 영상을 포함하며 이 영상들이 라벨과 함께 384×384의 크기로 쪼개져 학습용은 총 34,701장, 검증용은 총 9,201장의 패치들로 구성되었다. 이는 6장으로 구성된 연기 데이터셋의 16배에 가까운 양이다. 따라서 Cloud-Net은 사전학습에 이용되기에 적합하다.

(3) 데이터셋 전처리

영상 취득 이후 사전학습에 적용하기 위해서 두 가지의 전처리과정을 거쳤다. 첫 번째로 구름 데이터셋 파장대역 조합을 조정했으며, 두 번째로 영상을 분할하고 데이터셋을 정제했다. 먼저 파장대역 조합의 조정을 위해서 다음과 같은 추가영상 취득과정을 거쳤다. CloudNet은 R, G, B, NIR 네 개의 파장대역을 제공하지만, 본 연구에서는 SWIR-2 파장대역을 데이터셋에 추가했다. 따라서 USGS의 EarthExplorer을 이용하여 각각의 학습용 영상에 대응하는 SWIR-2 영상을 추가로 취득하였으며, SWIR-2 파장대의 취득이 불가능한 영상은 제외되었다. 그 결과 총 73장의 SWIR-2 영상을 취득했으며 해당 영상은 기존 구름 데이터셋에 합쳐졌다. 이때 73장의 영상 중에서 62장이 북아메리카 영상이었고, 그린란드 8장, 남아메리카 3장이었다. 73장의 영상 중에서 66장은 학습용으로, 7장을 검증용으로 사용하였다.

취득 후 구름과 연기 데이터셋을 모델에 투입하기 위해서 모든 영상들을 384×384의 크기로 잘라냈으며 이 과정에서 데이터의 정제를 위해서 패치 전체에 구름 객체가 없는 데이터는 제거되었다. 이는 라벨의 밝기값을 기준으로 판단하였으며, 라벨의 모든 픽셀이 밝기값 0을 가질 경우 객체가 없는 데이터로 판단하였다. 또한 영상이 마름모 형태로 정렬되어 있으므로 패치로 자르는 과정에서 영상의 모서리에 검정색으로 밝기값이 없는 픽셀이 나타났는데, 이런 모서리 픽셀의 양이 지나치게 많아 전체 픽셀의 75% 이상을 차지하는 패치 역시 제거되었다. 그 결과 학습용 패치는 14,847장, 검증용 패치는 2,030장이었다. 연기 데이터셋 역시 동일한 전처리 과정을 거쳤다. 4장의 학습용 영상, 1장의 검증용 영상 모두 라벨과 함께 384×384의 크기로 잘라냈으며, 라벨 기준 모든 픽셀의 밝기값이 0인 패치는 제거되었다. 그 결과 479장의 학습용 패치와 43장의 검증용 패치를 취득하였다. 학습용 패치 기준 연기 데이터셋의 수량은 구름데이터셋의 3.2%였다. 두 데이터셋의 비교는 Table 3과 같다.

Table 3. Comparison of cloud and smoke dataset

OGCSBN_2022_v38n5_2_695_t0003.png 이미지

2) 학습 파라미터 설계

손실함수로는이진교차엔트로피(binary cross entropy)를 사용하였다. ti는 라벨 영상의 실제값이며, yi는 학습 결과물의 예측값이다. 본 연구의 목표는 연기 객체의 존재 여부를 0과 1의 이진으로 분류하는 것이므로, 실제값은 0과 1로 나타나게 된다. 만일 실제값이 0이라면 학습 결과물은 0에 가까울수록 손실함수가 작아지며, 실제값이 1이라면 학습 결과물이 1에 가까울수록 손실함수가 작아진다. 따라서 손실함수를 최소화하는 방향으로 역전파를 실시할 경우 대상객체를 탐지하도록 모델을 학습시킬 수 있다.

\(\begin{aligned}Loss=-\frac{1}{\mathrm{~N}} \sum_{i=1}^{N}\left(t_{i} \times \ln y_{i}+\left(1-t_{i}\right) \times \ln \left(1-y_{i}\right)\right) \end{aligned}\)       (1)

학습을 위한 파라미터와 함수들은 Table 4와 같다. 해당 파라미터들은 구름추출의 사전학습 및 전이학습을 적용하지 않은 연기추출에 사용되었다. 활성함수는 rectified linear unit (ReLU)을 사용하였으며, 최적화 함수(optimizer)은 Adam으로 설정하였다. 학습률(learning rate)은 0.001, 배치 크기는 7, 에폭(epoch)은 300으로 경험적으로 설정하였다. 결과물은 모든 에폭을 지난 후 검증 데이터셋으로 모델을 평가하여 가장 낮은 손실함수를 가진 모델을 채택하였다. 모델 투입 후 결과물은 픽셀 단위로 시그모이드(sigmoid) 함수를 이용하여 0~1값으로 옮겨졌으며, 임계값을 0.5로 설정하여 대상객체의 존재 여부를 판단하여 0과 1의 이진결과물로 산출하였다.

Table 4. Hyperparameter values

OGCSBN_2022_v38n5_2_695_t0004.png 이미지

사전학습을 위한 파라미터 설정 이후, 전이학습을 위한 학습 파라미터를 새로 설정하였다. 이는 사전학습에 사용된 구름 데이터셋과 ImageNet의 수량이 연기 데이터셋의 양보다 많기 때문이다. 학습률이 지나치게 높다면 연기 도메인으로 과적합(overfitting)될 위험이 있으며, 반대로 지나치게 낮다면 학습 결과물이 국소값에 수렴할 수 있으므로, 성능이 향상될 수 있는 적절한 학습률을 경험적으로 설정해야 한다. 학습률은 시행착오를 통해서 0.0001로 설정되었으며, 이는 기존 학습률의 1/10크기이다. 또한 에폭 역시 100으로 하향 조정되었는데, 이는 전이학습을 적용할 경우가 적용하지 않았을 경우보다 더 빠르게 수렴하여 동일한 에폭을 설정 시 과적합 될 가능성이 있기 때문이다. 해당 학습률과 에폭을 적용하여 모델에 구름 및 ImageNet을 사전학습한 후, 연기 데이터셋을 추가로 학습시켜 전이학습을 구현하였다.

3) 평가 방법

평가는 Table 5의 오차행렬에 기반하여 실시하였다. 오차행렬은 예측된 값과 실제값을 비교하기 위한 표로, Table 5에서 actual은 실제값이 참인지의 여부를, predicted는 예측값이 참인지의 여부를 나타낸다. 따라서 TP는 예측값이 참이고 실제값도 참인 픽셀의 수를 의미하며, FP는 예측값은 참이지만 실제값은 거짓인 픽셀의 수를 나타낸다. 본 연구에서 사용한 평가지표들은 정밀도 (precision), 재현도(recall), f1-score이며 Table 5의 오차행렬에 기반하여 생성된 지표이다.

Table 5. Confusion matrix

OGCSBN_2022_v38n5_2_695_t0005.png 이미지

정밀도 = \(\begin{aligned}\frac{TP}{TP+FP} \end{aligned}\)       (2)

재현율=\(\begin{aligned}\frac{TP}{TP+FN} \end{aligned}\)       (3)

\(\begin{aligned}F1-sscore=\frac{2 \times \text { 정밀도 } \times \text { 재현율 }}{\text { 정밀도 }+\text { 재현율 }}\\\end{aligned}\)       (4)

정밀도는 모델이 참으로 분류한 픽셀 중에서 실제로 참인 픽셀의 비율이며, 재현율은 실제로 참인 픽셀들 중에서 모델이 참으로 예측한 비율이다. 정밀도가 높고 재현율이 낮다면 모델은 연기 객체에 둔감하게 반응하며, 역으로 정밀도가 낮고 재현율이 높다면 모델은 오탐지율이 높다고 결론 내릴 수 있다. 정밀도와 재현율은 서로 trade-off 관계이며, 종합적으로 평가할 지표가 필요하다. F1-score은 정밀도와 재현율을 조화평균 한 값이며 F1-score을 사용 시 두 지표를 모두 반영하여 모델을 평가할 수 있다.

4. 실험 결과

1) 사전학습 결과 분석

전이학습을 평가하기 위해서는 사전학습에 사용된 모델과 데이터셋, 그리고 평가 방법론의 독립적인 성능을 파악할 필요가 있다. 사전학습 모델의 성능이 저조할 경우 전이학습에도 영향을 미칠 수 있기 때문이다. 따라서 전이학습 전에 사전학습 된 모델과 데이터셋의 성능평가를 진행하였으며 그 결과는 Fig. 5의 (a), (b), (c), (d), (e) 및 Table 6와 같다. 학습결과 모든 파장대역에서 F1-score이 0.938 이상으로 높게 나타났다. 데이터셋과 모델의 목적 자체는 Cloud-Net과 동일하지만, 본 연구에서는 데이터셋과 투입데이터의 크기, 그리고 모델자체의 구조를 변경하였다. 그럼에도 불구하고 높은 구름 추출 성능을 보여주었으며 이를 기반으로 전이학습에 사용할 수 있었다. R, G, B와 R, G, B, NIR 파장대역을 투입했을 경우에는 0.938로 동일한 F1-score을 보여주었으며 R, G, B, SWIR-2 파장대역을 투입했을 경우는 F1-score이 0.949로 가장 우수한 성능을 보여주었다. R, G, B를 기반으로 NIR 파장대역의 추가는 모델이 의미있는 정보로 판단하지 못했으며, SWIR-2 파장대역이 추가되었을 때는 모델은 의미 있는 정보로 판단하여 F1-score을 향상시켰다.

Table 6. Pre-train result

OGCSBN_2022_v38n5_2_695_t0006.png 이미지

OGCSBN_2022_v38n5_2_695_f0005.png 이미지

Fig. 5. Result images. (a), (b): Original R, G, B composite cloud image and label pair. (c), (d), (e): Pretrain result images. (f), (g): Original R, G, B composite smoke image and label pair. (h), (i), (j): Result images before applying transfer learning. (l), (m), (n): Result images after applying transfer learning. (k): Result image after applying transfer learning, using ImageNet as a pretrain dataset. Each used (c), (h), (l) R, G, B (d), (i), (m) R, G, B, NIR (e), (j), (n) R, G, B, SWIR-2 as an input.​​​​​​​

2) 전이학습 결과 분석

전이학습을 적용하기 전의 결과는 Fig. 5의 (h), (i), (j)와 같으며, 각각의 경우에 대해서 산출한 F1-score은 Table 7과 같다. 전이학습 적용 전에는 R, G, B, SWIR-2의 조합이 F1-score이 0.798로 가장 우수한 성능을 보였으며, R, G, B의 조합이 F1-score이 0.710으로 가장 낮은 성능을 보였다. SWIR-2 파장대역은 연기를 쉽게 투과하는 특성을 가지며, 이는 단일모델 사용 시 연기객체를 다각도로 관측이 가능하게 하여 연기추출에 이점을 제시한다. 전이학습 이전의 연기추출 정밀도는 모든 조합에서 0.577에서 0.755사이로, 재현율에 비해서 낮은 값을 보였다. 이는 연기객체가 존재하지 않는데도 존재한다고 탐지한 비율 즉, 오탐지율이 높았음을 의미한다. 전이학습을 적용하기 전 영상인 Fig. 5의 (h), (i), (j) 세 영상 모두 연기객체가 없음에도 영상 중앙하단부의 호수에 연기객체를 탐지하였다. 마찬가지로 영상 중앙 좌측부의 호수 역시 세 경우 모두 연기로 잘못 탐지했다. 수계 오탐지의 원인 판별을 위해 연기 데이터셋을 재검토한 결과 학습 패치들 중 수계를 포함한 패치가 없음을 확인했다. 즉 데이터셋 수량의 부족으로 인해서 모델이 수계를 비롯한 다양한 특징들을 학습하지 못했으며 연기추출의 정확도에 영향을 끼쳤다.

Table 7. Transfer result​​​​​​​

OGCSBN_2022_v38n5_2_695_t0007.png 이미지

전이학습을 적용한 후의 결과는 Fig. 5의 (l), (m), (n)과 같다. 전이학습 적용 이후에는 모든 파장대역의 조합에서 성능이 향상되었다. 특히 R, G, B 파장대역에서는 F1-score이 0.710에서 0.839로 성능향상의 폭이 가장 컸다. F1-score의 성능 향상은 정밀도의 향상이 견인하였는데, 정밀도가 0.577에서 0.789로 크게 변화했기 때문이다. 실제로 전이학습 전에는 연기객체로 분류되었던 수계가 전이학습 후에는 올바르게 분류된 것을 확인할 수 있다. 또한 R, G, B 파장대역에 대해서 구름 데이터셋이 아닌 ImageNet을 이용하여 전이학습을 추가로 진행하였다. 이는 랜덤 데이터셋을 이용한 사전학습을 통해서 데이터 수의 단순증가가 연기추출 성능 향상에 미치는 영향을 확인하기 위함이다. 그 결과 F1-score은 0.782로 F1-score이 0.839인 구름 데이터셋에 비해서 저조한 성능을 보였다. 따라서 데이터셋의 단순증가로 인한 성능향상은 분명히 존재하나 구름 데이터셋을 활용한 성능향상에 비해서 그 정도가 미미함을 확인할 수 있었다.

연기추출 성능이 크게 향상된 R, G, B 파장대역의 조합과는 달리 R, G, B, NIR과 R, G, B, SWIR-2 파장대역의 조합은 각각 0.785에서 0.824로, 0.798에서 0.824로 증가했는데 이는 R, G, B에 비해서 성능의 향상폭이 적었으며, 전이학습 후의 F1-score은 오히려 둘 다 0.824로 0.839인 R, G, B보다 낮았다. 이는 파장대역이 증가할수록 연기와 구름객체의 차이가 커지는 점에서 기인한다.

전이학습은 사전학습 된 모델과 후에 학습된 모델이 서로 유사성을 가진다는 전제 하에서 진행이 되는데, SWIR-2 파장대역에서는 두 객체가 큰 차이를 보인다. 구체적 확인을 위해서 Fig. 6과 같이 데이터셋을 재검토하였다. Fig. 6에서는 각각 구름, 연기의 평가에 사용된 영상을 파장대역에 따라 나타냈다. 영상에서 파장대역이 증가할수록 연기객체는 투과되지만, 구름객체는 투과되지 않고 유지되는 모습을 보여준다. 특히 SWIR-2 파장대역에서는 연기객체가 완전하게 투과되었다. 따라서 SWIR-2 파장대역을 기준으로 볼 때 구름과 연기 객체는 완전히 다른 성질을 가진다. 이런 차이점으로 인해 R, G, B 파장대역에서는 전이학습이 큰 효과를 보였으나, R, G, B에 NIR과 SWIR-2를 추가한 파장대역의 조합에서는 전이학습이 효과를 보이지 못했다. 또한 단일 모델에서 구름과 연기를 추출할 때 SWIR-2 파장대역을 사용하는 것이 두 경우 모두 추출성능을 향상시켰음에도 불구하고 전이학습을 적용한 모델에서는 SWIR-2 파장대역의 추가로 성능이 하락하였다.

OGCSBN_2022_v38n5_2_695_f0006.png 이미지

Fig. 6. Cloud and smoke images on different bands: (a) cloud, (b) smoke.​​​​​​​

5. 결론

본 연구에서는 딥러닝을 활용한 연기추출 고도화의 한계점인 학습용 데이터셋의 부족을 해결하기 위해서 구름추출 학습용 공공 데이터셋을 이용하였다. 해당 데이터셋을 모델에 사전학습한 후 연기 데이터셋을 학습하여 연기추출로 수렴시키는 전이학습을 이용했으며, 전이학습을 적용한 전후를 비교하여 구름을 활용한 전이학습이 연기추출에 효율적인지를 확인하였다. 또한 이때 가시광선 대역과 이에 NIR, SWIR-2를 각각 추가한 파장대역 조합을 사용하여 파장대역과 추출성능 간의 관계성을 검토하였다. 실험 결과 다음과 같은 결론을 도출할 수 있었다.

1) 모든 파장대역의 조합에서 구름 데이터셋을 활용한 전이학습은 연기추출에 효과적이다.

2) 전이학습 없이 단일모델로 구름 및 연기추출 시 R, G, B 파장대역에 SWIR-2 파장대역을 추가로 활용하는 것이 가장 효과적이다.

3) 전이학습을 적용 시 R, G, B 파장대역만 활용했을 때 가장 효과적이다.

연기와 구름 객체는 경계면이 불분명하여 라벨을 생성하기가 어렵다. 또한 생성된 라벨 역시 얼만큼의 불분명한 객체를 포함했는지 주관적으로 판단하기 때문에 결국엔 학습과 평가가 일관성이 떨어지게 되는 한계가 있다. 따라서 라벨생성 과정에서 구름 데이터셋과 동일한 기준으로 연기객체의 존재 여부를 제시할 수 있는 척도가 요구되며 본 연구의 방법론은 해당부분을 명확하게 함으로써 개선할 수 있는 여지가 존재한다. 그럼에도 불구하고 본 연구는 기존의 연기 데이터셋의 부족을 구름 데이터셋의 전이학습을 통해 해결하였다는 차별점이 있으며, 이러한 연기추출의 고도화를 통해서 재난재해, 그 중에서도 산불발생지역의 모니터링에 기여할 수 있을 것이다.

사사

본 과제는 행정안전부 재난안전 부처협력 기술개발사업의 지원을 받아 수행된 연구이며(20009742), 국토교통부의 스마트시티 혁신인재육성사업으로 지원되었습니다. 서울대학교 공학연구원의 지원에도 감사드립니다.

References

  1. Hughes, M.J. and R. Kennedy, 2019. High-quality cloud masking of Landsat 8 imagery using convolutional neural networks, Remote Sensing, 11(21): 2591. https://doi.org/10.3390/rs11212591
  2. Irons, J.R., J.L. Dwyer, and J.A. Barsi, 2012. The next Landsat satellite: The Landsat Data Continuity Mission, Remote Sensing of Environment, 122: 11-21. https://doi.org/10.1016/j.rse.2011.08.026
  3. Khan, S., K. Muhammad, T. Hussain, J.D. Ser, F. Cuzzolin, S. Bhattacharyya, Z. Akhtar, and V.H.C. de Albuquerque, 2021. DeepSmoke: Deep learning model for smoke detection and segmentation in outdoor environments, Expert Systems with Applications, 182: 115125. https://doi.org/10.1016/j.eswa.2021.115125
  4. Li, X., J. Wang, W. Song, J. Ma, L. Telesca, and Y. Zhang, 2014. Automatic smoke detection in MODIS satellite data based on k-means clustering and Fisher linear discrimination, Photogrammetric Engineering and Remote Sensing, 80(10): 971-982. https://doi.org/10.14358/PERS.80.10.971.
  5. Li, X., W. Song, L. Lian, and X. Wei, 2015. Forest fire smoke detection using back-propagation neural network based on MODIS data, Remote Sensing, 7(4): 4473-4498. https://doi.org/10.3390/rs70404473
  6. Li, Z., A. Khananian, R. H. Fraser, and J. Cihlar, 2001. Automatic detection of fire smoke using artificial neural networks and threshold approaches applied to AVHRR imagery, IEEE Transactions on Geoscience and Remote Sensing, 39(9): 1859. https://doi.org/10.1109/36.951076
  7. Long, J., E. Shelhamer, and T. Darrell, 2015. Fully convolutional networks for semantic segmentation, arXiv preprint arXiv:1411.4038. https://doi.org/10.48550/arXiv.1411.4038
  8. Mohajerani, S. and P. Saeedi, 2019. Cloud-Net: An endto-end cloud detection algorithm for Landsat 8 imagery, arXiv preprint arXiv:1901.10077. https://doi.org/10.48550/arXiv.1901.10077
  9. Mommert, M., M. Sigel, M. Neuhausler, L. Scheibenreif, and D. Borth, 2020. Characterization of industrial smoke plumes from remote sensing data, arXiv preprint arXiv:2011.11344. https://doi.org/10.48550/arXiv.2011.11344
  10. Ronneberger, O., P. Fischer, and T. Brox, 2015. U-Net: convolutional networks for biomedical image segmentation, In: Navab, N., Hornegger, J., Wells, W., Frangi, A. (eds), Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015, Springer, Cham, Switzerland, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
  11. Wang, A.X., C. Tran, N. Desai, D. Lobell, and S. Ermon, 2018. Deep transfer learning for crop yield prediction with remote sensing data, Proc. of the 1st ACM SIGCAS Conference on Computing and Sustainable Societies, Menlo Park and San Jose, CA, Jun. 20-22, vol. 50, pp. 1-5. https://doi.org/10.1145/3209811.3212707
  12. Wang, Z., P. Yang, H. Liang, C. Zheng, J. Yin, Y. Tian, and W. Cui, 2021. Semantic segmentation and analysis on sensitive parameters of forest fire smoke using Smoke-Unet and Landsat-8 imagery, Remote Sensing, 14(1): 45. https://doi.org/10.3390/rs14010045
  13. Wen, J. and M. Burke, 2021. Wildfire smoke plume segmentation using geostationary satellite imagery, arXiv preprint arXiv:2109.01637. https://doi.org/10.48550/arXiv.2109.01637
  14. Xie, M., N. Jean, M. Burke, D. Lobell, and S. Ermon, 2016. Transfer learning from deep features for remote sensing and poverty mapping, arXiv preprint arXiv:1510.00098. https://doi.org/10.48550/arXiv.1510.00098
  15. Xie, Y., J.J. Qu, X. Xiong, X. Hao, N. Che, and W. Sommers, 2007. Smoke plume detection in the eastern United States using MODIS, International Journal of Remote Sensing, 28(10): 2367-2374. https://doi.org/10.1080/01431160701236795
  16. Yuan, F., L. Zhang, X. Xia, B. Wan, Q. Huang, and X. Li, 2019. Deep smoke segmentation, Neurocomputing, 357: 248-260. https://doi.org/10.48550/arXiv.1809.00774