DOI QR코드

DOI QR Code

Research Trend of the Remote Sensing Image Analysis Using Deep Learning

딥러닝을 이용한 원격탐사 영상분석 연구동향

  • Kim, Hyungwoo (Department of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyong National University) ;
  • Kim, Minho (College of Space Environment, Sangmyung University) ;
  • Lee, Yangwon (Department of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyong National University)
  • 김형우 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공) ;
  • 김민호 (상명대학교 공간환경학부) ;
  • 이양원 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공)
  • Received : 2022.10.11
  • Accepted : 2022.10.23
  • Published : 2022.10.31

Abstract

Artificial Intelligence (AI) techniques have been effectively used for image classification, object detection, and image segmentation. Along with the recent advancement of computing power, deep learning models can build deeper and thicker networks and achieve better performance by creating more appropriate feature maps based on effective activation functions and optimizer algorithms. This review paper examined technical and academic trends of Convolutional Neural Network (CNN) and Transformer models that are emerging techniques in remote sensing and suggested their utilization strategies and development directions. A timely supply of satellite images and real-time processing for deep learning to cope with disaster monitoring will be required for future work. In addition, a big data platform dedicated to satellite images should be developed and integrated with drone and Closed-circuit Television (CCTV) images.

인공지능 기법들은 특히 영상분류(image classification), 객체탐지(object detection), 영상분할(image segmentation)에 효과적으로 사용되고 있다. 특히, 딥러닝(deep learning)은 최근 컴퓨팅 파워의 증대와 함께 깊고 두터운 네트워크 구성이 가능해지고 보다 효율적인 활성함수(activation function)와 옵티마이저(optimizer)를 활용한 특징맵(feature map)의 생성을 통해 상당히 높은 정확도를 도출할 수 있다. 본고에서는 최근 다양한 원격탐사 분야에서 활용성이 확대되고 있는 딥러닝 영상인식 기법인 Convolutional Neural Network (CNN) 기반 모델 및 Transformer 기반 모델에 대한 기술동향 및 사례연구를 검토하고, 우리나라에서 이들 기법의 활용방안 및 발전방향 등을 제시하고자 한다. 향후 원격탐사 기반의 재난 상황 대응을 위해서는 위성영상의 적시성 확보와 실시간 딥러닝 처리, 그리고 위성, 드론 및 Closed-circuit Television (CCTV) 영상이 함께 활용되는 영상 빅데이터 플랫폼도 개발되어야 할 것이다.

Keywords

1. 서론

원격탐사 영상자료는 환경, 도시, 수문, 식생, 농업,기상, 지리, 지질, 해양, 수산 등 다양한 분야에서 광역적인 모니터링을 위한 기초자료로 사용되어 왔다. 또한,다양한 지구환경 정보 산출을 위해 수치 모델이나 물리방정식의 입력자료로 활용되기도 한다(Awada et al.,2022). 그러나 이러한 물리적 모델을 구성하는 여러 파라미터가 복잡한 메커니즘으로 연결되어 있을 경우에는 상당한 불확실성이 존재하며(Yuan et al., 2020), 최근에는 기존의 물리적 모델 기반 원격탐사 기법의 한계점을 보완하기 위해, 복잡성 및 비선형성을 해결할 수 있는 자료 기반 인공지능 기법들이 활용되고 있다.

인공지능 기법들은 특히 영상분류(image classification),객체탐지(object detection), 영상분할(image segmentation)에 효과적으로 사용되고 있다. 특히, 딥러닝(deep learning)은 최근 컴퓨팅 파워의 증대와 함께 깊고 두터운 네트워크 구성이 가능해지고 보다 효율적인 활성함수(activation function)와 옵티마이저(optimizer)를 활용한 특징맵(featuremap)의 생성을 통해 상당히 높은 정확도를 도출할 수 있다. 특히 원격탐사 영상분석에서는 대표적인 딥러닝 모델로서 Convolutional Neural Network (CNN)이 널리 활용되고 있다. CNN은 이동창 방식의 컨볼루션 레이어(convolution layer)를 통해 영상의 특징을 추출하고 이를 풀링 레이어(pooling layer)가 요약하여 특징맵을 만들어가는 구조로서, 훈련자료가 매우 충분치 않더라도 다른 기법보다 상대적으로 정확한 정보를 산출할 수 있으며(Jiang et al., 2022), U-Net, Residual Network (ResNet), DenseNet, High-Resolution Network (HRNet) 등 다양한 CNN 계열의 모델들이 개발 및 활용되고 있다. 또한, 영상 내에서 보다 비중을 두어야 할 공간영역 및 입력채널에 대한 선택과 집중을 수행하는 어텐션(attention) 메커니즘을 추가적으로 장착한 CNN 모델들이 개발되어 효과를 보이고 있다. 매우 최근인 2021년에는 CNN계열의 모델들과는 달리, 일련의 영상블록을 시퀀스 처리 모델에 적용하여 셀프어텐션(self-attention)을 적용한 Transformer 계열의 모델이 개발되어(Xu et al., 2021; Zhanget al., 2021), 컴퓨터 비전 분야의 영상인식 경진대회를 석권하고 있다(PWC, 2022).

본고에서는 최근 다양한 원격탐사 분야에서 활용성이 확대되고 있는 딥러닝 영상인식 기법인 CNN 기반 모델 및 Transformer 기반 모델에 대한 기술동향 및 사례연구를 검토하고, 우리나라에서 이들 기법의 활용방안 및 발전방향 등을 제시하고자 한다.

2. 기술적 배경

1) Convolutional Neural Network (CNN) 모델

(1) CNN 모델의 역사

CNN 모델의 역사는 1959년 신경생리학자인 Hubel과 Wiesel의 발견에 기초한다. 고양이의 시각 피질 세포가 빛을 인식하는 과정에서 고양이의 뇌에 있는 뉴런은 일련의 계층 구조로 이루어져 있으며, 이러한 신경망(neural network)은 시각적인 데이터가 눈으로 들어오면 받은 데이터에서 국지적인 특징들을 추출하고, 망막에서 신호를 받은 대뇌 피질의 각기 다른 뉴런들이 이를 결합하여 구체적인 시각 정보를 인식하는 것인데, 이는 현재 CNN 모델의 원리와 상당히 일치한다. 이러한 발견에 기초하여, 1982년에는 컴퓨터과학자 Fukushima가 네오코그니트론(Neocognitron)이라는 일종의 시스템구조를 제안하였으며(Fig. 1), 이는 현재 CNN의 첫 번째 이론적 모델로 여겨지고 있다. 네오코그니트론은 동물의 시각 시스템을 컴퓨터 비전 분야에 그대로 대입한 듯한 구조를 가지고 있는데, 입력된 이미지의 특징을 추출하여(S-cell) 모으는(C-cell) 과정을 반복 수행하는 다중레이어를 통해 인식된 패턴을 도출해내는 신경망이다(Fukushima, 1982).

OGCSBN_2022_v38n5_3_819_f0001.png 이미지

Fig. 1. Structure of Neocognitron (Fukushima, 1982).

이러한 네오코그니트론 구조를 이어받아 LeCun et al. (1989)은 LeNet-5라는 CNN 프레임워크를 개발하여 수기로 작성된 숫자 인식을 수행하였다. LeNet-5는 입력 레이어에서 출력 레이어로 순차적인 계산 과정을 거치는 순전파의 반대 개념인, 출력 레이어에서 입력 레이어로 진행하면서 계산 결과와 정답 사이의 오차를 구하여 가중치 수정에 반영하는 역전파(back-propagation)을 통해 학습 효과를 높였다. LeNet-5가 개발된 이후 2000년대 말까지는 컴퓨팅 파워의 문제로 인해 CNN이 널리 활용되지는 못하였으나, 2010년대 초반부터 컴퓨팅 파워의 비약적인 발전과 함께 AlexNet (2012), VGGNet(2014), GoogLeNet (2014), U-Net (2015) 등이 개발되었고, 2016년 알파고의 등장 이후 딥러닝이 대중적으로 알려지기 시작했다. 현재, U-Net, ResNet, DensNet, HRNet등은 원격탐사 영상분석 분야에서 널리 활용되고 있다.

(2) U-Net

Ronneberger et al. (2015)은 기존의 완전연결층(Fully Connected Layer, FCL) 아키텍처를 수정하여 적은 수의 훈련 영상으로도 보다 정확한 영상분할이 가능한 U-Net 모델을 개발하였다. U-Net은 좌측의 수축경로(contracting path)와 우측의 확장경로(expanding path)가 U자형으로 이어지는 구조이다(Fig. 2). 다운샘플링(down-sampling)구간인 수축경로는 일반적인 CNN과 마찬가지로 컨볼루션과 풀링을 반복하여 특징맵을 추출한다. 업샘플링(up-sampling) 구간인 확장경로는 기존 CNN과 달리 스킵커넥션(skip connection) 메커니즘을 통해, 다운샘플링 구간에서 생성한 특징맵의 핵심영역을 해상도가 동일한 업샘플링 구간에 지름길로(shortcut) 전달하여(copy and crop), 병합 사용하는 방식이다. 이는 화소군의 로컬리티(locality)를 공간적 맥락에 부합하게 구성하는 의미론적 영상분할(semantic segmentation)을 가능하게 하였다. 학습자료가 충분치 않을 때에는, 영상자료증대(image data augmentation)를 통해 유사한 학습자료를 생성할 수 있는데, U-Net은 특히 영상자료증대의 효과가 잘 나타나는 딥러닝 모델이다.

OGCSBN_2022_v38n5_3_819_f0002.png 이미지

Fig. 2. Structure of U-Net (Ronneberger et al., 2015).

(3) ResNet

ResNet은 잔차 네트워크(residual network)를 이용한 CNN 모델로, 2015년 마이크로소프트 북경연구소에서 개발하여 ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 경진대회에서 우승한 알고리즘이다. 컨볼루션 및 풀링 레이어를 많이 쌓을수록 성능이 반드시 향상되는 것은 아니고, 레이어가 20층을 넘어가면 정확도가 저하되는 문제가 발생하기도 하였는데, ResNet은 이를 해결하기 위하여 잔차학습(residual learning)을 통해 모델의 네트워크 층이 깊어지더라도 학습 결과의 정확도가 저하되지 않도록 구현되었다(Fig. 3; He et al., 2016). 기존의 CNN 모델은 입력값 x가 목표값 y에 부합하도록 하는 함수 H(x)를 구하는 것으로, 즉 F(x)=H(x)-x이고 H(x)-x의 값을 최소화하여 결국엔 H(x)=x가 되는 방향으로 학습이 반복되었다. 그러나 ResNet은 관점을 달리하여 입력값을 이항시킨 H(x)=F(x)+x라는 식을 만들었고, 여기서 F(x)+x를 최소화하여 F(x)=0이 되도록 한다. x는 학습 과정에서 불변하는 값이므로 F(x)가 0에 가까워지도록 반복하면 출력값과 입력값 사이의 차이를 줄일 수 있으며, F(x)=0이라는 일관된 목표를 가지고 효율적인 학습이 가능하다. 이러한 F(x)와 x의 결합 과정은 skip connection을 통해 이루어지고, F(x)를 잔차로 간주하고 잔차 최소화를 목표로 하는 반복학습을 통해 성능향상을 도모할 수 있다.

OGCSBN_2022_v38n5_3_819_f0003.png 이미지

Fig. 3. Principle of residual learning (He et al., 2016).

(4) DenseNet

DenseNet은 ResNet에서 모티브를 얻어 이를 보다 더 고밀도 심층 네트워크로 발전시킨 모델로서, 2017년 Computer Vision and Pattern Recognition Conference(CVPR)에서 우수한 성과를 거두었다(Huang et al., 2017). U-Net, ResNet과 마찬가지로 DenseNet도 skip connection을 통해 효율적인 학습이 이루어지도록 하였는데, ResNet은 skip connection을 합계(summation) 연산으로 처리하는 반면, DenseNet은 결합(concatenation) 연산으로 업샘플링 단계를 수행해간다. DenseNet의 고밀도 심층 네트워크는 이전 레이어의 특징맵을 다음 레이어의 입력값으로 투입할 때, 바로 다음 레이어 뿐 아니라 다음 이후의 모든 레이어로 전달하며, growth rate를 통해 각 레이어에 대한 기여도를 조절한다(Fig. 4). DenseNet는 정보 보존과 효율성 측면에서 장점을 가진 아키텍처라고 할 수 있다.

OGCSBN_2022_v38n5_3_819_f0004.png 이미지

Fig. 4. Structure of DenseNet (Huang et al., 2017).

(5) HRNet

일반적인 CNN은 다운샘플링 과정에서 공간해상도를 저하시키는 대신 분광정보를 상세화시키는 방식으로 특징맵을 생성한다. 그러나 HRNet은 고해상도 특징맵을 이후 레이어의 저해상도 특징맵에 결합시켜, 점차적으로 high-to-low 서브네트워크를 추가해 나가는 다중 스케일 융합(multi-scale fusions)을 반복하는 방식이다(Fig. 5; Sun et al., 2019). U-Net에서 저해상도 특징맵을 다시 고해상도로 복원하는 것과 달리, HRNet은 연산 과정에서 계속 고해상도를 유지하면서 다중 해상도 표현을 반복적으로 융합한다는 점에서, 보다 효과적인 학습과 정확도 향상을 이룰 수 있다.

OGCSBN_2022_v38n5_3_819_f0005.png 이미지

Fig. 5. Structure of HRNet (Sun et al., 2019).

2) Transformer 모델

(1) Vision Transformer

Recurrent Neural Network (RNN) 모델은 긴 시퀀스 처리시 가중치 부적합(long-term dependency) 문제가 발생하기도 하는데, 이를 보완하기 위해 2017년 구글 리서치팀은 self-attention 메커니즘을 장착한 Transformer 모델을 제시하였다. Vision Transformer는 시퀀스 처리에 사용하던 어텐션 기법을 영상에 적용하여 채널 강조와 공간 강조로 활용하는 모델이다(Dosovitskiy et al., 2020). Vision Transformer는 영상을 패치 단위로 나누고 각 패치를 나열하여 시퀀스처럼 만든 후, 이를 벡터로 변환하고 클래스 토큰(token)과 위치 인덱스를 부여하여 인코더(encoder)를 생성하고, 이러한 인코딩 과정을 반복한 후 Multi-Layer Perceptron (MLP)를 거쳐 영상 분류를 수행한다(Fig. 6).

OGCSBN_2022_v38n5_3_819_f0006.png 이미지

Fig. 6. Structure of Vision Transformer (Dosovitskiy et al., 2020).

(2) Shifted Window (Swin) Transformer

종래의 Vision Transformer 모델은 하나의 이미지에 대해 저해상도의 특징맵을 생성하고 전역적인 self-attention 연산을 수행하였다. 그러나 Shifted Window(Swin) Transformer는 Vision Transformer를 확장하여 영상 패치로부터 계층적 특징맵을 생성하고, 하나의 창 안에서 국지적인 self-attention 연산을 수행한다(Fig. 7; Liu et al., 2021). 패치를 나누어 연산을 수행하면 각 패치의 경계 근처에 위치한 픽셀들은 self-attention 계산이 제대로 수행되지 않는 문제가 있는데, 이를 해결하기 위하여 이동창 방식으로 패치 크기의 절반만큼 이동하면서 self-attention 계산을 수행함으로써 패치 경계 부근에서도 인식 정확도가 저하되지 않도록 한다.

OGCSBN_2022_v38n5_3_819_f0007.png 이미지

Fig. 7. Structural features of Swin Transformer: (a) hierarchical feature maps in the Swin Transformer, (b) an illustration of the shifted window approach for computing self-attention in the proposed Swin Transformer architecture (Wang et al., 2021).

기존 Transformer 모델에서 사용되던 Multi-head Self Attention (MSA) 대신에, Swin Transformer는 각 창에 들어있는 패치들끼리만 self-attention 연산을 수행하는 국지화된 Window MSA (W-MSA), 또는 경계 픽셀이 누락되지 않도록 하기 위하여 이동창 방식으로 self-attention을 수행하는 Shifted Window MSA (SW-MSA)를 활용한다. 이러한 이동창은 순방향 및 역방향으로 반복적 연산 수행 후 MLP를 통해 최종 출력을 생성한다(Fig. 8; Liu et al., 2021). Swin Transformer는 채널 수와 레이어 수에 따라 Swin-T, Swin-S, Swin-B, Swin-L 등으로 구분되는데, 이들 모델은 최근 대부분의 컴퓨터비전 경진대회에서 최상위권의 성적을 거두고 있다.

OGCSBN_2022_v38n5_3_819_f0008.png 이미지

Fig. 8. Structure of Swin Transformer (Liu et al., 2021).

(3) 요약

원격탐사 영상분석을 위한 CNN 계열의 모델과 Transformer 계열의 모델의 주요 특징을 정리하면 Table 1과 같다.

Table 1. Summary of Convolutional Neural Network (CNN) and Transformer models

OGCSBN_2022_v38n5_3_819_t0001.png 이미지

3. 원격탐사 영상분석 사례검토

1) CNN 계열 모델의 활용

Khelifi and Mignotte (2020)는 2014년부터 2020년까지 Web of Science Database 논문을 대상으로, 최근 원격탐사 분야에서 수행된 딥러닝 관련 연구의 추세를 종합적으로 검토하였다. 이 중 절반 정도는 CNN 모델을 이용한 연구였고, 식생, 농업, 생태 등의 활용사례가 다수를 차지했다. Kattenborn et al. (2021)은 CNN모델을 이용한 최근 연구 100여 편을 검토한 결과, 농업 분야에서는 잡초 확산, 작물 객체 탐지, 작물 유형, 그리고 산림 분야에서는 수종 분류, 바이오매스, 수목 구조, 수관 탐지, 산림훼손 등에 대해 Vanilla CNN, U-Net, ResNet, DenseNet, HRNet과 같은 CNN 계열 모델이 활용되었다.

(1) Vanilla CNN 활용사례

Jang (2021)은 2020년 강원도 홍천군 약 200 ha의 산림을 대상으로 드론 촬영을 수행하여 Ground Sample Distance (GSD) 8 cm의 정사영상을 제작하였다. 이 영상을 이용하여, 소나무, 잣나무, 낙엽송, 신갈나무, 자작나무 5가지 수종별로 1,000장씩 총 5,000장의 데이터베이스를 구축하였으며, 레이블 제작시에는 제5차 임상도의 수종정보를 참고하였다. 수종분류를 위한 학습모델은 CNN을 사용하였고, 암맹평가 결과, 소나무 83%, 자작나무 98%, 낙엽송 90%, 잣나무 88%, 신갈나무 86%의 정확도를 나타냈다.

Park et al. (2019)은 미국 일리노이 주를 대상으로 2017년 30 m 해상도의 Landsat-8 영상과 National Agricultural Statistics Service (NASS), Cropland Data Layer (CDL) 자료를 사용하여 농작물 분류를 수행하였다. 영상 패치 크기를 달리하면서 영상 내의 다양한 공간정보를 추출하고 특징맵을 가중 결합하는 방식의 CNN 모델링을 수행하였다. 5 × 5 패치부터 13 × 13 패치까지 순차적으로 적용한 결과, 패치의 크기가 커질수록 여러 작물 이 혼재하여 분류 정확도가 낮아지는 양상을 보였고, 옥수수 필지가 콩 필지로 오분류되는 경우가 많았다. 그러나 제안된 모델은 특징맵의 가중 결합 방식으로 분류를 수행함으로써 전체 정확도를 83.7%로 향상시켰다.

Brodrick et al. (2019)은 CNN을 이용하여 흰개미 서식지 식별, 산호초 분류, 기름야자나무 식별 등을 수행하였다. Carnegie Airborne Observatory (CAO)에서 수집한 1 mGSD의 Light Detection and Ranging (LiDAR) 데이터를 사용하여 남아프리카공화국 Kruger 국립공원의 흰개미 서식지를 정확하게 식별할 수 있음을 보여주었다. 또한 CAO가 제공하는 RGB 이미지를 사용하여 바다, 모래, 산호초에 대한 레이블 데이터를 구축하고, 이를 이용하여 CNN 모델을 학습시켜 산호초 분류를 수행하였다. 그리고, CAO의 LiDAR 데이터를 활용하여 계산한 수관고(Tree Canopy Height, TCH)를 참조하여 RGB 영상으로부터 기름야자나무 레이블 데이터를 구축하고 CNN 모델링을 수행하여 기름야자나무 분포지를 명확하게 식별하였다.

(2) U-Net 활용사례

Pasquali et al. (2019)은 WorldView-2 영상으로부터 더 효율적인 건물 탐지를 수행하기 위하여 5가지 U-Net 아키텍처(8–256, 16–256, 16–512, 32–512, 64–512 레이어)를 비교 평가하였다. 2018년 10월 10일 플로리다 Panhandle 지역에 상륙하여 많은 인명과 재산 피해를 입힌 5등급 허리케인 Michael을 사례로, 재난 전과 후의 영상 차이를 이용하여 붕괴 사고가 집중된 지역을 정확하게 탐지할 수 있었다.

Bai et al. (2018)은 WorldView-2 영상을 이용하여 2011년 동일본 대지진으로 인한 도시 인프라 피해를 신속하게 탐지하기 위하여 U-Net 모델을 활용하였다. 대지진 전과후의 영상과 지상자료를 참조하여 레이블을 구축하고 모델을 학습한 결과, 건물 피해를 완파, 반파, 잔존으로 분류하였고, 약 71%의 정확도를 달성하였다. 이를 현업 시스템에 적용할 경우 15분 이내에 피해 지도를 생성할 수 있어, 재해 대응 실무에서 적용 가치를 크게 향상시켰다.

Hashemi-Beni and Gebrehiwot (2020)은 U-Net 모델을 농업에 적용할 수 있는 활용방안으로, 정확한 잡초 탐지 및 매핑을 시도하였다. 해당 연구에서는 Crop Weed Field Image Dataset (CWFID)를 이용하여, 162개 작물과 332개 잡초에 대한 분류를 수행한 결과, 토양 99.3%, 작물 60.48%, 잡초 66.72%의 분류 정확도를 달성하였다.

Wei et al. (2019)은 다시기 이중편파(multi-temporal dual-polarization) 합성개구레이더(Synthetic Aperture Radar, SAR) 데이터를 이용한 대규모 작물 매핑을 수행하였다. 중국 길림성 푸위시 지역을 대상으로 4가지 작물(옥수수, 땅콩, 대두, 벼)과 4가지 비작물(건물, 식생, 물, 나대지)의 클래스 분류를 수행하였다. Sentinel-1 영상에 대한 방사보정, 지형보정 등의 전처리를 수행하고 영상자료증대를 적용하여 U-Net 모델을 적용한 결과, 전체 정확도 85%의 결과를 얻었다.

Kang et al. (2021)은 Spatial Procedures for Automated Removal of Cloud and Shadow (SPARCS) 구름 데이터 세트와 영상자료증대 기법을 활용하여 U-Net 구름 탐지 모델링을 수행하였다. SPARCS 데이터 세트와 Landsat-8의 적색, 근적외, 단파적외밴드 반사도를 입력 채널로 하여 U-Net 구름 탐지 모델을 구성하고, 이미지의 클래스를 5개(구름 그림자, 물, 얼음/눈, 땅, 구름)로 구분하여 10폴드 교차검증을 통해 수행하였다. 1,800장의 영상에 대한 검증 결과, Accuracy 0.821, mean intersection over union (mIOU) 0.723 등 비교적 높은 정확도를 나타냈다.

Park et al. (2021)은 유류오염(oil spill)의 분포 특성에 따른 Vanilla CNN과 U-Net 모델의 탐지 성능을 비교 평가하였다. National Oceanic and Atmospheric Administration (NOAA)와 International Tanker Owners Pollution Federation (ITOPF)의 공개 자료를 통해 66개의 Sentinel-1 위성영상에서 122개의 유류오염 레이블을 제작하였고, 시험평가 결과 F1-score는 Vanilla CNN이 0.8624, U-Net이 0.9144로 나타났다. Vanilla CNN은 Recall=0.9653, Precision=0.7715로서 과탐지 경향이 있었고, U-Net은 반대로 Recall=0.8586, Precision=0.9731로서 미탐지 경향이 있었다.

(3) ResNet 활용사례

Alotaibi and Alotaibi (2020)의 연구에서는 기존 초분광영상의 토지피복 분류 성능을 향상시킬 수 있는 딥러닝 모델로서 ResNet과 Inception 아키텍처를 결합하였다. ResNet-Inception 결합 네트워크에서 두 개의 잔차 블록을 구성하고, 각 컨볼루션 레이어는 이전의 모든 컨볼루션 레이어로부터 입력을 받아 평균 풀링 연산을 적용하였다. Adaptive Moment Estimation (ADAM) 옵티마이저와 드롭아웃 비율 0.25를 적용하여 이탈리아 Pavia University 및 Pavia Center, 미국 Salinas Valley 및 Indian Pines에 대해 테스트한 결과, 모든 지역에서 90% 이상의 분류 정확도를 기록하였다.

Natesan et al. (2019)의 연구에서는 드론 RGB 영상에 ResNet 모델을 적용하여 산림수종을 분류하는 방법을 제시하였다. 사전에 훈련된 ResNet-50 모델을 전이학습(transfer learning) 시켜 학습효율을 높였고, 초기 계층은 일반적인 저차원의 피처를 학습 및 추출하고 최종 계층은 클래스별 피처를 학습하도록 하였다. 602개의 적송이미지, 593개의 백송 이미지, 591개의 그 외 수종 훈련데이터를 구축하여 시험한 결과, 80%의 분류 정확도를 얻었고, 향후 멀티스펙트럼 영상의 활용이 필요함을 언급하였다.

(4) DenseNet 활용사례

Natesan et al. (2019) 연구의 연장선상으로 Natesa et al.(2020)에서는 DenseNet 모델을 사용하여 수종을 분류하는 방법을 제시하였다. 이전 연구와 마찬가지로 캐나다 온타리오의 보호림에서 드론으로 취득한 3년간의 RGB 영상을 사용하였으며, 소나무는 90% 이상의 정확도로 잘 분류된 반면, 코니카가문비는 50% 미만의 정확도를 나타냈는데, 이는 해당 수종의 학습영상 부족 때문이었다. 전반적으로 DenseNet 기반의 모델이 이전 연구의 ResNet보다 더 나은 결과를 나타냈다.

Wang et al. (2020)은 중국 장시성 포양호의 수역을 식별하기 위해 DenseNet 기반의 모델을 제안하였다. 분광특성 및 임계치 기반의 수역 식별은 임계치의 객관성 확보가 쉽지 않은데, 이 문제를 극복하기 위해 기존의 Normalized Difference Water Index (NDWI) 임계치 적용은 물론, ResNet, VGG, SegNet, DeepLabV3+, DenseNet등을 비교 평가하였다. Gaofen-1 위성영상으로부터 5,558개의 수역 학습영상을 구축하여 4,446개는 훈련, 1,112개는 시험평가에 사용한 결과, mIoU에서 DenseNet이 6개 모델 중 가장 높은 정확도를 나타냈다.

(5) HRNet 활용사례

Xu et al. (2020)은 HRNet을 발전시킨 High-Resolution Context Extraction Network (HRCNet)이라는 아키텍처를 제안하였는데, 이는 컨텍스트와 경계 정보를 효과적으로 획득하고 인식하기 위해 attention 메커니즘을 경량화하는 방식이다. Feature Enhancement Feature Pyramid(FEFP) 모듈을 사용하여 다중 스케일 정보를 병합하였으며, Potsdam과 Vaihingen 도시지형지물 영상을 사용하여 시험평가를 수행하였다. 불투수성 표면, 건물, 낮은 초목, 나무, 자동차, 기타 등 6개 클래스에 대한 훈련 및 검증 결과를 여러 모델에 대해 비교한 결과 HCRNet이 다른 모델에 비해 재현율, 정밀도, F1-score, 전체 정확도에서 모두 좋은 수치를 기록하였다.

Tao et al. (2021)은 HRNet 모델 기반의 새로운 아키텍처를 이용하여 구름을 탐지하는 연구를 수행하였다. 여러 단계에서 출력된 서로 다른 스케일의 4가지 특징맵을 Joint Pyramid Up-sampling (JPU)를 사용하여 병합하고 로컬리티의 손실을 줄이기 위해 skip connection을 사용하였다. 티베트 지역의 Fengyun-4A 영상을 대상으로 훈련 및 평가한 결과 기존의 HRNet, HRNetV2보다 해당 연구에서 제시한 아키텍처가 가장 우수한 결과를 나타냈다.

2) Transformer 계열 모델의 활용

(1) Vision Transformer 활용사례

Chen et al. (2021)은 Vision Transformer를 도입하여 두시기 영상 내의 시공간의 컨텍스트를 고려한 변화탐지를 수행하는 Bitemporal Image Transformer (BIT)를 개발하였다. 이 모델에서는 두 시기 영상에서 각각 시맨틱 토큰 세트를 구한 후 변환기 인코더를 사용하여 토큰 간의 컨텍스트를 모델링하며, MSA을 통해 복수의 공간영역에 대한 attention을 구현하였다. Fig. 9는 LEVIR-CD, WHU-CD, DSIFN-CD 테스트 세트에 대한 탐지 예시이며, 흰색은 true positive (실제 true인 값을 true로 예측), 검은색은 true negative (실제 false인 값을 false로 예측), 붉은색은 false positive (실제 false인 값을 true로 예측), 녹색은 false negative (실제 true인 값을 false로 예측)이다.

OGCSBN_2022_v38n5_3_819_f0009.png 이미지

Fig. 9. Detection of LEVIR-CD, WHU-CD, DSIFN-CD dataset using Vision Transformer (Chen et al., 2021).

Reedha et al. (2022)는 Vision Transformer를 UAV 이미지의 식물 분류에 적용하는 연구를 통하여 프랑스의 Centre-Val de Loire 지역의 방대한 양의 데이터(12,844개의 훈련 데이터, 3,211개의 검증 데이터, 3,210개의 테스트 데이터)에 적용하여, 99.4%의 F1-score를 나타낸 바 있다.

(2) Swin Transformer 활용사례

Xu et al. (2021)은 Local Perception Swin Transformer(LPSW) 백본(backbone)을 설계하여 다양한 지형지물 데이터 세트에 대한 정확도 향상을 제시하였다. Swin Transformer 블록은 SW-MSA로 구성되고, Local Perception Block (LPB)은 Swin Transformer 블록에서 추출된 시퀀스 형식의 특징맵을 공간단위 특징맵으로 재구성한다.Spatial Attention Interleaved Execution Cascade (SAIEC) 네트워크 모델은 Cascade Mask R-CNN에서 특징맵을 입력 받아 일련의 후보 영역을 출력하고, Spatial Attention Mask Head에서 중요 특징을 집중 및 강조하고, 불필요한 노이즈를 완화하여 최종 탐지를 수행한다. 이 탐지모델은 기존의 Vision Transformer에 비해 정밀도가11.9% 향상되었다(Fig. 10).

OGCSBN_2022_v38n5_3_819_f0010.png 이미지

Fig. 10. Segmentation examples using Swin Transformer: (a) Cascade Mask R-CNN, (b) Swin Transformer with Cascade Mask R-CNN, and (c) Local Perception Swin Transformer (LPSW) with Spatial Attention Interleaved Execution Cascade (SAIEC) (Xu et al., 2021).

Liu et al. (2021)은 잔차의 사후 정규화(residual post normalization)와 고해상도 영상을 위한 보다 큰 attention window를 포함하여 수정된 아키텍처를 Swin Transformer V2라고 명명하였다. Swin Transformer V2 모델을 평가하기 위해 ImageNet-V2 이미지 분류, Common Objectsin Context (COCO) 객체 감지, ADE20K 의미론적 분할을 수행한 결과, ViT 및 Swin Transformer 모델에 비해 향상된 mIOU를 제시하였다.

4. 적용방안 및 발전방향

1) 토지피복 분류

현장조사의 시공간적 제약 때문에, 광역적인 토지피복 분류를 위해서는 원격탐사 데이터를 이용하는 경우가 많다. 그러나 자료마다 공간해상도, 분광해상도가 다르고, 연구자의 데이터 처리방법 차이로 인해 정확한 결과를 도출하는데 어려움을 겪기도 하는데, 딥러닝 모델을 통하여 보다 높은 정확도 및 정밀도를 달성할 수 있을 것이다. 최근 들어 토지피복도 작성을 위해 전통적인 기계학습보다 CNN, RNN, Generative Adversarial Network (GAN) 등과 같은 딥러닝 기반 기법들이 활용되고 있다(Alem and Kuma, 2020). Zhang et al. (2021)은 중국을 사례지역으로 하여 전통적인 분류 기법, 기계학습, 딥러닝 모델의 성능을 비교한 결과, 딥러닝 기법에 의한 분류 정확도가 다른 기법보다 우수함을 제시하였다. Vali et al. (2020)에 따르면 다중분광 및 초분광 영상에 딥러닝 기법을 적용한 토지피복 연구는 2015년 이후 매년 두 배 이상씩 증가하고 있는 것으로 나타났다.

2) 식생 및 작물 분류

한반도가 작은 면적에도 불구하고 난대림, 온대림, 한대림에 이르기까지 다양한 식생이 분포하기 때문에 식생 분류는 매우 중요한 연구대상이다. 최근 기후변화가 심각하게 진행됨에 따라 식생 분포가 크게 변화할 가능성이 있다. 또한 농작물의 분류도 기후변화에 대응하여 큰 중요성을 가지는 연구 분야이다. Wang et al. (2022)은 식물 생육과 관련하여 잎 규모(leaf scale)에서의 병충해 탐지, 수관 규모(canopy scale)에서의 수관 유형 탐지, 필드 규모(field scale)에서의 스트레스 탐지, 성장 및 영양상태 모니터링, 수확량 예측 등에 딥러닝이 활용될 수 있을 제시하였다. 우리나라에는 논, 밭, 과수원 등에서 다양한 곡물류와 과채류가 분포하고 있고, 작물 재배 가능 지역이 기후 변화에 따라 민감하게 반응하기 때문에, 작물의 분포를 정확하게 파악하는 것은 농업의 지속가능성을 위해 매우 중요하다. 이에, 원격탐사 영상에 딥러닝 모델을 적용함으로써 신속 정확한 작물 분포 매핑이 가능할 것으로 기대된다.

생산성을 저해하는 잡초의 분포를 파악하는 것도 작물 재배에 있어 매우 중요하다. 잡초는 작물과 분광 패턴이 유사하여 쉽게 분별하기 어렵기 때문에, 잡초 인식에 특화된 딥러닝 모델 개발함으로써 효율적인 제초작업을 지원하고 잡초가 생태계에 미치는 영향을 최소화하는 데 활용할 수 있을 것이다. 또한, 다양한 센서로부터 수집된 영상과 딥러닝을 바탕으로 생태계 교란 식물의 탐지 및 공간분포의 파악이 가능해지고 있다. Lake et al. (2022)은 WorldView-2 영상으로부터 미국 미네소타주의 교란 식생을 탐지하기 위해 CNN과 U-Net을 활용하였고, Guo et al. (2022)는 무인항공기에서 수집한 시계열 영상자료로부터 교란 식생 탐지를 위해 CNN과 RNN을 통합한 모델을 활용하였다. Takaya et al. (2022)은 신체에 부착하는 액션카메라(action camera)로 수집한 영상자료에 딥러닝 기법을 적용하여 Solidago altissima 교란 식물 탐지 연구를 수행한 바 있다.

3) 재난 탐지

딥러닝 모델은 변화 탐지에도 강점을 가지고 있다. 시계열 영상으로부터 평상시와의 차이가 현격한 곳이 발견된다면 이는 재난에 의한 변화일 가능성이 있다. 재난 탐지에 있어 딥러닝 모델의 활용사례는 중국(23%), 미국(18%), 영국(9%), 일본(9%), 오스트레일리아(7%), 독일(4%), 이탈리아(4%), 한국(3%) 등으로 집계되었고, 주로 CNN 기법이 활용되었다(Abid et al., 2021). 우리나라의 경우, 봄에는 건조한 날씨로 인한 산불, 여름에는 집중호우, 태풍, 홍수, 산사태, 겨울에는 폭설, 한파 등 자연재해의 영향을 많이 받는다. 재해 지역은 사람이 접근하기 어렵기 때문에 인적 자원을 투입하지 않아도 매핑이 가능한 원격탐사의 활용도와 가치가 높아진다. 딥러닝은 산사태 피해지 탐지, 태풍 피해 분석(Mohan etal., 2020; Kaur et al., 2021), 지진에 의한 건물 피해 탐지(Song et al., 2020), 산불에 따른 피해규모 추정(Brand and Manandhar, 2021) 등에 활용되고 있다.

4) 건물 탐지

CNN 모델은 원격탐사 영상으로부터 건물 객체를 추출하여(Yi et al., 2019; Abdollahi et al., 2020) 도시구조 모델링 및 불법 건축물 조사 등에 활용될 수 있다. Seong and Choi (2021)는 안산시와 시흥시를 대상으로 HRNet에 채널 어텐션과 공간 어텐션을 적용하여 국토지리정보원 항공사진에서 주거지와 산업지의 건물을 성공적으로 추출하였다. Sapena et al. (2021)은 기계학습을 활용하여 시가화 건조지역의 밀도에 따른 도시의 삶의 질 수준을 도출하였는데, 이 모델은 CNN이나 Transformer 모델로 대체되어 보다 정확도를 향상시킬 수 있을 것이다.

5) 차량 탐지

Peppa et al. (2018)은 R-CNN 모델을 활용하여 Closed-circuit Television (CCTV) 영상으로부터 도시지역의 교통량 분석을 수행한 바 있다. Kurniawan et al. (2018)은CCTV 영상과 CNN을 활용하여 교통체증이 발생하는 구간을 추정하였다. 우리나라와 같이 대도시의 도로 교통량이 많고 변동폭이 큰 경우, 도로 교통량을 정확하게 파악하기 위해 많은 노력을 기울이고 있다. 현재 주요지점들에 대해 도로 교통 상황이 실시간으로 제공되고 있지만, 원격탐사와 딥러닝을 결합한 모델을 사용한다면 도로 교통 정보의 시공간 커버리지가 더욱 증가할 것이다.

6) 발전 방향

딥러닝을 적용한 원격탐사는 활용분야가 매우 넓고 지속적인 발전가능성을 가지고 있다. 현재 대부분의 관련 연구는 CNN 기반의 아키텍처와 Transformer 기반의 아키텍처를 중심으로 이루어지고 있고, 정확도와 정밀도의 향상에 초점을 맞추고 있다. 최근 서로 다른 센서에서 수집된 영상자료로부터 보다 고품질의 정보를 산출하는 영상융합(image fusion)에 딥러닝을 적용하는 사례도 늘어나고 있다.

다양한 위성영상과 드론영상의 융합을 통해 시공간해상도를 향상시킴으로써 향후에는 실시간 또는 준실시간으로 필요한 자료의 적시성을 확보할 수 있을 것이다. 딥러닝 기법은 양질의 훈련자료가 대량으로 구축될수록 영상인식의 정확도를 향상시킬 수 있는데, 자료 확보가 어려운 상황이라면 이러한 한계를 극복하기 위하여 영상자료증대를 적극적으로 활용하여 다양한 화소규모(pixel-level) 및 공간규모(spatial-level) 변환기법을 적용할 수 있다. 전이학습은 유사한 도메인에서 이미 학습된 가중치를 현재 모델의 초기치로 활용함으로써(Vali et al., 2020), 대부분의 모델에서 학습시간 단축과 정확도 향상의 효과를 거두고 있다. 또한, 여러 딥러닝 모델의 결과를 통합하는 앙상블 러닝(ensemble learning)도 향후 발전적인 모델로서 고려되어야 할 것이다(Algiriyage et al., 2022).

5. 결론

최근 들어 전통적인 기계학습을 대체하고 있는 현대적인 딥러닝 기법은 다수 레이어의 재현 -학습(representation-learning) 과정을 통해 자료를 추상화하고 특징을 추출하여 영상인식의 정확성을 향상시키고 있다(Tsagkatakis et al., 2019). 원격탐사 분야에서 딥러닝은 토지피복 분류, 작물 분류, 재난 탐지, 공간객체 추출, 변화탐지 등에 적용되고 있다(Zhu et al., 2019). 우리나라는 다양한 센서를 탑재한 여러 위성을 운용하고 있으므로, 국내 및 국외의 위성영상에 딥러닝 기법을 적용하여 다양한 분야에서 유용한 정보를 산출할 수 있을 것이다. 이를 위해서는 무엇보다도 지구환경분야에 있어 양질의 딥러닝 학습자료가 많이 구축되어야 한다. 과학기술정보통신부에서는 2021년부터 2025년까지 인공지능 학습용 데이터 구축 지원 사업을 통해 다양한 분야의 레이블 영상을 구축하고 있는데, 2022년 현재 재난/안전/환경 분야에 59종의 데이터가 등재되어, 향후 딥러닝 모델의 활용이 기대된다. 또한 재난 상황에 신속하기 대응하기 위해서 위성영상의 적시성 확보와 실시간 자료처리를 위한 기술개발도 반드시 필요하고, 위성 영상 뿐 아니라, 드론 영상, CCTV 영상도 함께 활용하기 위한 영상 빅데이터 플랫폼의 개발도 중요한 당면과제라 할 수 있다.

사사

이 연구는 행정안전부의 ”지능형 상황관리 기술개발사업”의 지원을 받아 수행된 연구임(2021-MOIS37-002).

References

  1. Awada, H., D. Prima, S. Sirca, C. Giadrossich, F. Marras, S. Spano, D. and M. Pirastru, 2022. A remote sensing and modeling integrated approach for constructing continuous time series of daily actual evapotranspiration, Agricultural Water Management, 260: 107320. https://doi.org/10.1016/j.agwat.2021.107320
  2. Abdollahi, A., B. Pradhan, and A. M. Alamri, 2020. An ensemble architecture of deep convolutional Segnet and Unet networks for building semantic segmentation from high-resolution aerial images, Geocarto International, 37(12): 3355-3370. https://doi.org/10.1080/10106049.2020.1856199
  3. Abid, S.K., N. Sulaiman, S.W. Chan, U. Nazir, M. Abid, H. Han, A. Ariza-Montes, and A. VegaMunoz, 2021. Toward an integrated disaster management approach: how artificial intelligence can boost disaster management, Sustainability, 13(22): 12560. https://www.mdpi.com/2071-1050/13/22/12560 1050/13/22/12560
  4. Alem, A. and S. Kumar, 2020. Deep learning methods for land cover and land use classification in remote sensing: a review, Proc. of 2020 8th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO), Noida, India, Jun. 4-5, pp. 903-908. https://doi.org/10.1109/ICRITO48877.2020.9197824
  5. Algiriyage, N., R. Prasanna, K. Stock, E.E. Doyle, and D. Johnston, 2022. Multi-source Multimodal Data and Deep Learning for Disaster Response: A Systematic Review, SN Computer Science, 3(1): 1-29. https://doi.org/10.1007/s42979-021-00971-4
  6. Alotaibi, B. and M. Alotaibi, 2020. A hybrid deep ResNet and Inception model for hyperspectral image classification, PFG- Journal of Photogrammetry, Remote Sensing and Geoinformation Science, 88: 463-476. https://doi.org/10.1007/s41064-020-00124-x
  7. Bai, Y., E. Mas, and S. Koshimura, 2018. Towards operational satellite-based damage-mapping using U-Net convolutional network: A case study of 2011 Tohoku earthquake-tsunami, Remote Sensing, 10(10): 1626. https://doi.org/10.3390/rs10101626
  8. Brand, A.K. and A. Manandhar, 2021. Semantic segmentation of burned areas in satellite images using a U-Net-based convolutional neural network, The International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences, 43: 47-53. https://doi.org/10.5194/isprs-archivesXLIII-B3-2021-47-2021
  9. Brodrick, P.G., A.B. Davies, and G.P. Asner, 2019. Uncovering ecological patterns with convolutional neural networks, Trends in Ecology & Evolution, 34(8): 734-745. https://doi.org/10.1016/j.tree.2019.03.006
  10. Chen, H., Z. Qi, and Z. Shi, 2021. Remote sensing image change detection with transformers, IEEE Transactions on Geoscience and Remote Sensing, 60: 1-14. https://doi.org/10.48550/arXiv.2103.00208
  11. Dosovitskiy, A., L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby, 2020. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXivpreprint arXiv:2010.11929. https://arxiv.org/abs/2010.11929
  12. Fukushima, K. and S. Miyake, 1982. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition, In: Amari, S., Arbib, M.A. (eds), Competition and Cooperation in Neural Nets, Springer, Berlin, Heidelberg, Germany, vol. 45, pp. 267-285. https://doi.org/10.1007/978-3-642-46466-9_18
  13. Guo, Y., Y. Zhao, T.A. Rothfus, and A.S. Avalos, 2022. A novel invasive plant detection approach using time series images from unmanned aerial systems based on convolutional and recurrent neural networks, Neural Computing and Applications, 34: 20135-20147. https://doi.org/10.1007/s00521-022-07560-3
  14. Hashemi-Beni, L. and A. Gebrehiwot, 2020. Deep learning for remote sensing image classification for agriculture applications, The International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences, 44: 51-54. https://doi.org/10.5194/isprs-archives-XLIV-M-2-2020-51-2020
  15. He, K., X. Zhang, S. Ren, and J. Sun, 2016. Deep residual learning for image recognition, Proc. of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, Jun. 27-30, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90
  16. Huang, G., Z. Liu, L. Van Der Maaten, and K.Q. Weinberger, 2017. Densely connected convolutional networks, Proc. of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, Jul. 22-25 pp. 4700-4708. https://doi.org/10.1109/CVPR.2017.243
  17. Jang, K., 2021. A study on the deep learning-based tree species classification by using high-resolution orthophoto images, Journal of the Korean Association of Geographic Information Studies, 24(3): 1-9. https://doi.org/10.11108/kagis.2021.24.3.001
  18. Jiang, H., M. Peng, Y. Zhong, H. Xie, Z. Hao, J. Lin, X. Ma. and X. Hu, 2022. A survey on deep learningbased change detection from high-resolution remote sensing images, Remote Sensing, 14(7): 1552. https://doi.org/10.3390/rs14071552
  19. Kang, J., K. Kim, Y. Jeong, S. Kim, Y. Youn, S. Cho, and Y. Lee, 2021. U-Net cloud detection for the SPARCS cloud dataset from Landsat 8 images, Korean Journal of Remote Sensing, 37(5-1): 1149-1161. https://doi.org/10.7780/kjrs.2021.37.5.1.25
  20. Kattenborn, T., J. Leitloff, F. Schiefer, and S. Hinz, 2021. Review on Convolutional Neural Networks (CNN) in vegetation remote sensing, ISPRS Journal of Photogrammetry and Remote Sensing, 173: 24-49. https://doi.org/10.1016/j.isprsjprs.2020.12.010
  21. Kaur, S., S. Gupta, and S. Singh, 2021. Hurricane damage detection using machine learning and deep learning techniques: A Review, Proc. of 1st International Conference on Computational Research and Data Analytics (ICCRDA 2020), Rajpura, India, Oct. 24, vol. 1022, p. 012035. https://doi.org/10.1088/1757-899X/1022/1/012035
  22. Khelifi, L. and M. Mignotte, 2020. Deep learning for change detection in remote sensing images: Comprehensive review and meta-analysis, IEEE Access, 8: 126385-126400. https://doi.org/10.1109/ACCESS.2020.3008036
  23. Kurniawan, J., S.G. Syahra, and C.K. Dewa, 2018. Traffic congestion detection: learning from CCTV monitoring images using convolutional neural network, Procedia Computer Science, 144: 291-297. https://doi.org/10.1016/j.procs.2018.10.530
  24. Lake, T.A., R.D. Briscoe Runquist, and D.A. Moeller, 2022. Deep learning detects invasive plant species across complex landscapes using Worldview-2 and PlanetScope satellite imagery, Remote Sensing in Ecology and Conservation. https://doi.org/10.1002/rse2.288
  25. LeCun, Y., B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, and L.D. Jackel, 1989. Backpropagation applied to handwritten zip code recognition, Neural Computation, 1(4): 541-551. https://doi.org/10.1162/neco.1989.1.4.541
  26. Liu, Z., Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, 2021. Swin Transformer: Hierarchical vision transformer using shifted windows, arXiv preprint arXiv:2103.14030. https://arxiv.org/abs/2103.14030. 103.14030
  27. Mohan, A., A.K. Singh, B. Kumar, and R. Dwivedi, 2021. Review on remote sensing methods for landslide detection using machine and deep learning, Transactions on Emerging Telecommunications Technologies, 32(7): e3998. https://doi.org/10.1002/ett.3998
  28. Natesan, S., C. Armenakis, and U. Vepakomma, 2019. ResNet-based tree species classification using UAV images, International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 13: 475-481. https://doi.org/10.5194/isprs-archives-XLII-2-W13-475-2019
  29. Natesan, S., C. Armenakis, and U. Vepakomma, 2020. Individual tree species identification using Dense Convolutional Network (DenseNet) on multitemporal RGB images from UAV, Journal of Unmanned Vehicle Systems, 8(4): 310-333. https://doi.org/10.1139/juvs-2020-0014
  30. Park, M., G. Kwak, and N. Park, 2019. A convolutional neural network model with weighted combination of multi-scale spatial features for crop classification, Korean Journal of Remote Sensing, 35(6-3): 1273-1283. https://doi.org/10.7780/kjrs.2019.35.6.3.10
  31. Park, S., M. Ahn, C. Li, J. Kim, H. Jeon, and D. Kim, 2021. Evaluation of oil spill detection models by oil spill distribution characteristics and CNN architectures using Sentinel-1 SAR data, Korean Journal of Remote Sensing, 37(5-3): 1475-1490. https://doi.org/10.7780/kjrs.2021.37.5.3.11
  32. Pasquali, G., G.C. Iannelli, and F. Dell'Acqua, 2019. Building footprint extraction from multispectral, spaceborne earth observation datasets using a structurally optimized U-Net convolutional neural network, Remote Sensing, 11(23): 2803. https://doi.org/10.3390/rs11232803
  33. Peppa, M.V., D. Bell, T. Komar, and W. Xiao, 2018. Urban traffic flow analysis based on deep learning car detection from CCTV image Series, The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 42(4): 499-506. https://doi.org/10.5194/isprsarchives-XLII-4-499-2018
  34. PWC, 2022. Papers with Code, https://paperswithcode. com, Accessed on Oct. 7, 2022.
  35. Reedha, R., E. Dericquebourg, R. Canals, and A. Hafiane, 2022. Transformer neural network for weed and crop classification of high resolution UAV images, Remote Sensing, 14(3): 592. https://doi.org/10.3390/rs14030592
  36. Ronneberger, O., P. Fischer, and T. Brox, 2015. U-Net: Convolutional networks for biomedical image segmentation, In: Navab, N., Hornegger, J., Wells, W., Frangi, A. (eds), Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015, Springer, Cham, Switzerland, vol. 9351, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
  37. Sapena, M., M. Wurm, H. Taubenbock, D. Tuia, and L.A. Ruiz, 2021. Estimating quality of life dimensions from urban spatial pattern metrics, Computers, Environment and Urban Systems, 85: 101549. https://doi.org/10.1016/j.compenvurbsys.2020.101549
  38. Seong, S. and J. Choi, 2021. Semantic segmentation of urban buildings using a high-resolution network (HRNet) with channel and spatial attention gates, Remote Sensing, 13(16): 3087. https://doi.org/10.3390/rs13163087
  39. Song, D., X. Tan, B. Wang, L. Zhang, X. Shan, and J. Cui, 2020. Integration of super-pixel segmentation and deep-learning methods for evaluating earthquake-damaged buildings using single-phase remote sensing imagery, International Journal of Remote Sensing, 41(3): 1040-1066. https://doi.org/10.1080/01431161.2019.1655175
  40. Sun, K., B. Xiao, D. Liu, and J. Wang, 2019. Deep highresolution representation learning for human pose estimation, Proc. of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, Jun. 15-20, pp. 5693-5703. https://doi.org/10.1109/CVPR.2019.00584
  41. Sun, K., Y. Zhao, B. Jiang, T. Cheng, B. Xiao, D. Liu, Y. Mu, X. Wang, W. Liu, and J. Wang, 2019. High-resolution representations for labeling pixels and regions, arXivpreprint arXiv:1904.04514. https://arxiv.org/abs/1904.04514
  42. Takaya, K., Y. Sasaki, and T. Ise, 2022. Automatic detection of alien plant species in action camera images using the chopped picture method and the potential of citizen science, Breeding Science, 72(1): 96-106. https://doi.org/10.1270/jsbbs.21062
  43. Tao, R., Y. Zhang, L. Wang, Q. Liu, and J. Wang, 2021. U-High resolution network (U-HRNet): cloud detection with high-resolution representations for geostationary satellite imagery, International Journal of Remote Sensing, 42(9): 3511-3533. https://doi.org/10.1080/01431161.2021.1875510
  44. Tsagkatakis, G., A. Aidini, K. Fotiadou, M. Giannopoulos, A. Pentari, and P. Tsakalides, 2019. Survey of deep-learning approaches for remote sensing observation enhancement, Sensors, 19(18): 3929. https://doi.org/10.3390/s19183929
  45. Vali, A., S. Comai, and M. Matteucci, 2020, Deep learning for land use and land cover classification based on hyperspectral and multispectral earth observation data: A review, Remote Sensing, 12(15): 2495. https://doi.org/10.3390/rs12152495
  46. Wang, D., W. Cao, F. Zhang, Z. Li, S. Xu, and X. Wu, 2022. A review of deep learning in multiscale agricultural sensing, Remote Sensing, 14(3): 559. https://doi.org/10.3390/rs14030559
  47. Wang, J., Z. Zhang, L. Luo, W. Zhu, J. Chen, and W. Wang, 2021. SwinGD: A Robust Grape Bunch Detection Model Based on Swin Transformer in Complex Vineyard Environment, Horticulturae, 7(11): 492. https://doi.org/10.3390/horticulturae7110492
  48. Wang, G., M. Wu, X. Wei, and H. Song, 2020. Water identification from high-resolution remote sensing images based on multidimensional densely connected convolutional neural networks, Remote Sensing, 12(5): 795. https://doi.org/10.3390/rs12050795
  49. Wei, S., H. Zhang, C. Wang, Y. Wang, and L. Xu, 2019. Multi-temporal SAR data large-scale crop mapping based on U-Net model, Remote Sensing, 11(1): 68. https://doi.org/10.3390/rs11010068
  50. Xu, X., Z. Feng, C. Cao, M. Li, J. Wu, Z. Wu, Y. Shang, and S. Ye, 2021. An improved Swin Transformerbased model for remote sensing object detection and instance segmentation, Remote Sensing, 13(23):4779. https://doi.org/10.3390/rs13234779
  51. Xu, Z., W. Zhang, T. Zhang, and J. Li, 2020. HRCNet: High-resolution context extraction network for semantic segmentation of remote sensing images, Remote Sensing, 13(1): 71. https://doi.org/10.3390/rs13010071
  52. Yi, Y., Z. Zhang, W. Zhang, C. Zhang, W. Li, and T. Zhao, 2019. Semantic segmentation of urban buildings from VHR remote sensing imagery using a deep convolutional neural network, Remote Sensing, 11(15): 1774. https://doi.org/10.3390/rs11151774
  53. Yuan, Q., H. Shen, T. Li, Z. Li, S. Li, Y. Jiang, H. Xu, W. Tan, Q. Yang, J. Wang, J. Gao, and L. Zhang, 2020. Deep learning in environmental remote sensing: Achievements and challenges, Remote Sensing of Environment, 241: 111716. https://doi.org/10.1016/j.rse.2020.111716
  54. Zhang, H., H. Xu, X. Tian, J. Jiang, and J. Ma, 2021. Image fusion meets deep learning: A survey and perspective, Information Fusion, 76: 323-336. https://doi.org/10.1016/j.inffus.2021.06.008
  55. Zhang, J., H. Zhao, and J. Li, 2021. TRS: Transformers for remote sensing scene classification, Remote Sensing, 13(20): 4143. https://doi.org/10.3390/rs13204143
  56. Zhu, M., Y. He, and Q. He, 2019. A review of researches on deep learning in remote sensing application, International Journal of Geosciences, 10(1): 1-11. https://doi.org/10.4236/ijg.2019.101001