DOI QR코드

DOI QR Code

Performance Improvement Analysis of Building Extraction Deep Learning Model Based on UNet Using Transfer Learning at Different Learning Rates

전이학습을 이용한 UNet 기반 건물 추출 딥러닝 모델의 학습률에 따른 성능 향상 분석

  • Chul-Soo Ye (Department of AI Computer Engineering, Far East University) ;
  • Young-Man Ahn (Department of AI Computer Engineering, Far East University) ;
  • Tae-Woong Baek (Department of AI Computer Engineering, Far East University) ;
  • Kyung-Tae Kim (Department of AI Computer Engineering, Far East University)
  • 예철수 (극동대학교 AI컴퓨터공학과) ;
  • 안영만 (극동대학교 AI컴퓨터공학과) ;
  • 백태웅 (극동대학교 AI컴퓨터공학과) ;
  • 김경태 (극동대학교 AI컴퓨터공학과)
  • Received : 2023.10.04
  • Accepted : 2023.10.19
  • Published : 2023.10.31

Abstract

In recent times, semantic image segmentation methods using deep learning models have been widely used for monitoring changes in surface attributes using remote sensing imagery. To enhance the performance of various UNet-based deep learning models, including the prominent UNet model, it is imperative to have a sufficiently large training dataset. However, enlarging the training dataset not only escalates the hardware requirements for processing but also significantly increases the time required for training. To address these issues, transfer learning is used as an effective approach, enabling performance improvement of models even in the absence of massive training datasets. In this paper we present three transfer learning models, UNet-ResNet50, UNet-VGG19, and CBAM-DRUNet-VGG19, which are combined with the representative pretrained models of VGG19 model and ResNet50 model. We applied these models to building extraction tasks and analyzed the accuracy improvements resulting from the application of transfer learning. Considering the substantial impact of learning rate on the performance of deep learning models, we also analyzed performance variations of each model based on different learning rate settings. We employed three datasets, namely Kompsat-3A dataset, WHU dataset, and INRIA dataset for evaluating the performance of building extraction results. The average accuracy improvements for the three dataset types, in comparison to the UNet model, were 5.1% for the UNet-ResNet50 model, while both UNet-VGG19 and CBAM-DRUNet-VGG19 models achieved a 7.2% improvement.

원격탐사 영상을 이용한 지표 속성의 변화를 모니터링 하기 위해서 딥러닝(deep learning) 모델을 이용한 의미론적 영상 분할 방법이 최근에 널리 사용되고 있다. 대표적인 의미론적 영상 분할 딥러닝 모델인 UNet 모델을 비롯하여 다양한 종류의 UNet 기반의 딥러닝 모델들의 성능 향상을 위해서는 학습 데이터셋의 크기가 충분해야 한다. 학습 데이터셋의 크기가 커지면 이를 처리하는 하드웨어 요구 사항도 커지고 학습에 소요되는 시간도 크게 증가되는 문제점이 발생한다. 이런 문제를 해결할 수 있는 방법인 전이학습은 대규모의 학습 데이터 셋이 없어도 모델 성능을 향상시킬 수 있는 효과적인 방법이다. 본 논문에서는 UNet 기반의 딥러닝 모델들을 대표적인 사전 학습 모델(pretrained model)인 VGG19 모델 및 ResNet50 모델과 결합한 세 종류의 전이학습 모델인 UNet-ResNet50 모델, UNet-VGG19 모델, CBAM-DRUNet-VGG19 모델을 제시하고 이를 건물 추출에 적용하여 전이학습 적용에 따른 정확도 향상을 분석하였다. 딥러닝 모델의 성능이 학습률의 영향을 많이 받는 점을 고려하여 학습률 설정에 따른 각 모델별 성능 변화도 함께 분석하였다. 건물 추출 결과의 성능 평가를 위해서 Kompsat-3A 데이터셋, WHU 데이터셋, INRIA 데이터셋을 사용하였으며 세 종류의 데이터셋에 대한 정확도 향상의 평균은 UNet 모델 대비 UNet-ResNet50 모델이 5.1%, UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 동일하게 7.2%의 결과를 얻었다.

Keywords

1. 서론

최근 딥러닝(deep learning) 기술의 발전과 함께 컨볼루션 신경망(convolutional neural network, CNN) 아키텍처(architecture)가 영상 분류, 객체 검출, 영상 분할 등의 분야에서 널리 활용되고 있다. 특히 컨볼루션 신경망을 이용한 의미론적 영상 분할(semantic image segmentation) 기술은 원격탐사 분야에서 다양한 종류의 영상 객체 추출 기술로 널리 활용되고 있다. 의미론적 영상 분할 기술의 대표적인 딥러닝 아키텍처인 UNet 모델(Ronneberger et al., 2015)은 영상의 추상적 특징을 추출하는 인코더(encoder)와 인코더의 특징을 이용하여 원래 해상도의 영상 분할 결과를 생성하는 디코더(decoder) 구조를 이용하여 정확한 분할 결과를 생성한다. UNet 모델이 발표된 이후에 UNet 모델과 잔차 학습(residual learning)을 결합한 ResUNet 모델(Zhang et al., 2018), ResUNet 모델의 성능을 더욱 개선한 DeepResUNet 모델(Yi et al., 2019), DeepResUNet 모델의 잔차 학습 블록 구조를 개선하고 주목 블록(attention block)을 추가적으로 결합한 CBAM-DRUNet 모델(Ye et al., 2022)이 제안되었다.

UNet 모델 이후 제안된 이러한 모델들은 잔차 학습블록 개선과 주목 블록 추가 등 각 모델의 아키텍처 내부 구조의 변경을 통해 성능 개선을 시도하였으나 근본적으로 외부에서 입력되는 학습 데이터셋의 영향을 받는다. 딥러닝 모델에 사용되는 학습 데이터셋의 크기는 일반적으로 충분히 클수록 모델 성능에 좋은 영향을 미치지만 현실적으로는 충분히 큰 규모의 학습 데이터셋 구축이 어려운 경우가 많으며, 학습 데이터셋 규모가 커질수록 학습에 소요되는 시간이 또한 크게 증가하기 때문에 적정 크기를 가지는 학습 데이터셋의 구축이 필요하다. 학습 데이터셋의 크기를 일정하게 유지하면서 동시에 모델 성능을 향상시킬 수 있는 대표적인 방법으로 전이학습(transfer learning)이 널리 활용되고 있다. 전이학습은 사전에 학습된 딥러닝 모델의 구조와 가중치를 새로운 데이터셋에 적용하여 모델의 성능을 향상시키는 방법으로 다양한 분야에서 활용되었다. Sharma et al.(2023)은 의료 영상 분할을 위해 UNet 모델에 전이학습을 적용하였으며, Wurm et al. (2019)은 fully convolutional networks (FCN) 모델에 VGG19를 결합한 전이학습을 이용하여 도시지역 영역을 검출하였다. 도시지역 변화탐지를 위해 Song et al. (2019)은 FCN 모델의 일부 레이어를 공개된 데이터셋으로 학습된 FCN의 파라미터(parameter)로 초기화하였으며, Mo et al. (2021)은 공개된 데이터를 이용하여 HRNet-v2 모델의 초기 가중치를 결정하였다.

의미론적 영상 분할에서 딥러닝 모델뿐만 아니라 전이학습을 이용한 딥러닝 모델의 경우에도 모델과 관련된 여러 종류의 파라미터 중에서 학습률(learning rate)은 모델의 성능에 큰 영향을 미치는 파라미터 중 하나이다. 설정한 학습률에 따라 같은 딥러닝 모델이라 하더라도 성능에 차이가 발생하며 보통의 경우, 사용자가 경험에 기초하여 모델에 적용되는 학습률을 결정한다. 본 논문에서는 위성 및 항공 영상을 이용한 의미론적 영상 분할에서 대표적인 UNet 기반의 건물 추출 딥러닝 모델들의 전이학습 적용 효과를 분석하고 학습률 설정에 따른 모델별 성능 변화를 분석하였다.

본 논문은 2장에서 전이학습에서 대표적으로 사용되는 두 종류의 사전 학습 모델인 VGG19 모델과 ResNet50 모델에 대해 설명하고 이어서 UNet 기반의 모델에 두 종류의 사전 학습 모델을 결합한 전이학습 모델들을 설명한다. 3장에서는 위성 및 항공 영상으로부터 추출한 데이터셋을 이용하여 UNet 기반의 모델들과 전이학습 모델들의 성능 평가 결과를 소개하고 4장에서는 결론을 제시한다.

2. 연구 방법

2.1. 사전 학습 모델

전이학습은 사전 학습된 모델의 일부를 새로운 신경망 모델의 일부로 재사용하는 기술이다. 사전 학습 모델은 대규모 데이터셋을 이용하여 학습된 모델로 Fig. 1과 같이 전이학습을 통해 사전 학습 모델의 일부 구조와 그 구조에 대한 학습 가중치가 목표 모델(target model)의 일부 구조와 가중치로 사용된다. 사전 학습 모델에서 추출된 레이어의 가중치는 목표 모델의 훈련 전략에 따라 고정되거나 훈련 가능하게 설정된다. 대규모의 학습 데이터셋을 통해 학습된 사전 학습 모델은 우수한 특징 추출 능력을 갖추고 있고 목표 모델에서도 이러한 우수한 특징 추출 능력을 전이학습을 통해 활용할 수 있게 된다. 목표 모델에서 재사용되는 사전 학습 모델의 가중치는 필요에 따라 그대로 사용되거나 학습을 통해 가중치가 조정될 수 있다. 목표 모델에 사용되는 데이터셋의 크기가 작고 목표 모델의 파라미터가 많다면 사전 학습 모델의 가중치는 그대로 사용하는 것이 적절하다. 반면에 목표 모델에 사용되는 데이터셋의 크기가 크고 목표 모델의 파라미터가 작다면 사전 학습 모델의 일부 또는 전체를 새로 학습시킨다.

OGCSBN_2023_v39n5_4_1111_f0001.png 이미지

Fig. 1. Relationship between pretrained model of transfer learning and target model.

사전 학습 모델들 가운데 대표적인 모델로 Fig. 2와 같이 VGG19 모델과 ResNet50 모델이 널리 사용된다. VGG19 모델(Simonyan and Zisserman, 2015)은 16개의 합성곱 레이어(convolution layer), 5개의 최대 풀링 레이어(max pooling layer), 3개의 완전 연결 레이어(fully connected layer)로 구성된다. 합성곱 레이어는 입력 영상으로부터 특징을 추출하기 위해 3 × 3 크기의 작은 필터를 사용하여 미세한 특징과 구조를 감지하는데 유리하다. 최대 풀링 레이어는 다운 샘플링(down-sampling)을 통해 특징 크기를 감소시켜서 네트워크 파라미터의 수를 줄이고 계산 효율성을 향상시킨다. 완전 연결 레이어는 추출된 특징 정보를 이용하여 영상 분류 등과 같은 최종 작업을 수행한다.

OGCSBN_2023_v39n5_4_1111_f0002.png 이미지

Fig. 2. Two representative pretrained models: VGG19 model and ResNet50 model.

ResNet50 모델(He et al., 2016)은 Fig. 2와 같이 여러 개의 합성곱 블록(convolution block)과 항등 블록(identity block)을 포함하여 총 50개의 레이어로 구성된다. 합성곱 블록과 항등 블록은 일련의 합성곱 레이어와 단축경로 연결(shortcut connection)로 구성된다. 단축경로 연결을 통해 입력 데이터가 일련의 합성곱 레이어 출력에 직접 추가되어 신경망이 입력과 출력 간의 차이를 학습하는 것이 가능하다. 본 연구에서 활용된 ResNet50 모델은 대규모 영상 데이터셋인 ImageNet을 이용하여 사전 학습된 모델이며, 사전 학습된 가중치가 다양한 분야의 전이학습에 사용된다.

2.2. UNet 기반의 전이학습 딥러닝 모델

본 절에서는 앞서 설명한 ResNet50 모델 또는 VGG19 모델을 사전 학습 모델로 이용하는 세 종류의 전이학습 딥러닝 모델을 소개한다. 첫 번째로 소개하는 UNet-ResNet50 전이학습 딥러닝 모델은 Fig. 3과 같이 UNet을 기본 모델로 하고 UNet의 인코더 부분을 사전 학습된 ResNet50 모델로 대체한 모델이다. 사전 학습된 ResNet50 모델의 입력 레이어 이외에 4개의 출력은 스킵 연결(skip connection)을 통해 디코더로 전달되어 높은 해상도의 정보와 저해상도 특징을 함께 활용하는 데 사용된다. Fig. 3에 Output (conv_1) 등으로 표시한 바와 같이 스킵연결을 통해 사전 학습된 ResNet50 모델의 컨볼루션 필터 출력과 항등 블록 단계별 출력이 디코더로 전달된다.

OGCSBN_2023_v39n5_4_1111_f0003.png 이미지

Fig. 3. UNet-ResNet50 model using pretrained ResNet50 model.

두 번째 모델인 UNet-VGG19 모델은 Fig. 4와 같이 UNet을 기본 모델로 하고 UNet의 인코더 부분을 사전 학습된 VGG19 모델로 대체한 모델이다. 사전 학습된 VGG19 모델에서 Fig. 4에서 Output (block_1, conv_2) 등으로 표시한 바와 같이 다섯 군데의 최대 풀링 레이어 출력들이 스킵 연결을 통해 디코더로 전달된다. UNet-VGG19 전이학습 딥러닝 모델은 VGG19의 우수한 특징 추출 능력을 활용하여 영상 분할을 수행한다.

OGCSBN_2023_v39n5_4_1111_f0004.png 이미지

Fig. 4. UNet-VGG19 model using pretrained VGG19 model.

세 번째 모델인 CBAM-DRUNet-VGG19 모델은 Fig. 5와 같이 CBAM-DRUNet 모델(Ye et al., 2022)을 기본 모델로 하고 CBAM-DRUNet 모델의 인코더 부분을 사전 학습된 VGG19 모델로 대체한 모델이다. UNet-VGG19 모델과 유사하게 스킵 연결을 통해 VGG19의 출력들이 디코더로 전달되며, 디코더 부분은 4개의 개선된 잔차 학습 블록과 주목 블록으로 구성된다. 주목 블록은 입력 채널의 상대적 중요도와 영상 화소 위치의 상대적 중요도를 함께 고려하여 정제된 특징을 생성하는 블록이다.

OGCSBN_2023_v39n5_4_1111_f0005.png 이미지

Fig. 5. CBAM-DRUNet-VGG19 model using pretrained VGG19 model.

3. 연구 자료 및 성능 평가 방법

본 연구에는 각 모델별 성능 평가를 위해서 Komspat-3A 위성 데이터셋과 함께 WHU 항공 데이터셋(Ji et al., 2019), INRIA 항공 데이터셋(Maggiori et al., 2017)을 사용하였다(Fig. 6). Komspat-3A 데이터셋은 256 × 256 크기의 학습 데이터셋 1,180개, 테스트 데이터셋 295개를, WHU 데이터셋은 256 × 256 크기로 축소한 학습 데이터셋 1,000개, 테스트 데이터셋 200개를, INRIA 데이터셋은 512 × 512 크기의 학습 데이터셋 900개, 테스트 데이터셋 100개를 각각 사용하였다.

OGCSBN_2023_v39n5_4_1111_f0006.png 이미지

Fig. 6. Examples of the original images and labeling images (ground truth) from the three types of datasets used in the experiment.

실험에 사용된 반복 훈련 횟수 epoch은 50으로 설정하였으며 loss function은 binary crossentropy, 배치 크기(batch size)는 1로 설정하였다. Optimizer는 Adam을 사용하였으며 학습률은 값이 지나치게 크거나 작은 경우는 배제하고 10–3, 10–4, 10–5의 세 종류의 값을 사용하였다. 예비 실험을 통해서 학습률이 10–3보다 크거나 10–5보다 작은 경우에는 학습률이 10–3과 10–5 사이일 때보다 대부분의 모델들의 정확도가 감소하는 것을 확인하여 본 실험에서는 10–3, 10–4, 10–5 세 종류의 값을 사용하였다. 건물 추출 결과에 대한 모델별 성능 평가를 위해 식(1)과 식(2)로 주어지는 정밀도(precision)와 재현율(recall)을 동시에 고려하는 성능 지표인 F1 score를 계산하였다. F1 score의 계산은 F1 score의 수렴 단계에서 대표성을 가지는 값을 선택하기 위하여 반복 훈련 횟수인 epoch의 값이 41부터 50까지의 F1 score 중에서 중앙값을 계산하였다. 이 과정을 통해 최종 epoch 값 근처의 일부 epoch 값에서 정확도의 다소 큰 변동이 발생하여도 그 영향을 최소화할 수 있다. 식(1)과 식(2)의 TP, FP, FN은 Table 1의 오차행렬(confusion matrix)에 표기된 바와 같이 True Positive (TP), False Negative (FN), False Positive (FP)를 각각 의미한다.

Table 1. Confusion matrix for evaluating the performance of deep learning models

OGCSBN_2023_v39n5_4_1111_t0001.png 이미지

\(\begin{aligned}\text {Precision}=\frac {TP}{TP+FP}\end{aligned}\)       (1)

\(\begin{aligned}\text {Recall0}=\frac {TP} {TP+FN}\end{aligned}\)       (2)

\(\begin{aligned}\text {F1 score}= 2{\times}\frac{Precision {\times} Recall} {Precision + Recall}\end{aligned}\)       (3)

4. 연구 결과 및 분석

본 연구에서는 건물 추출을 위해 Table 2와 같이 의미론적 영상 분할의 대표적인 모델인 UNet 모델(Ronneberger et al., 2015), UNet 모델에 잔차 학습을 결합한 ResUNet 모델(Zhang et al., 2018)과 DeepResUNet 모델(Yi et al., 2019), DeepResUNet 모델에 주목 블록을 결합한 CBAM-DRUNet 모델(Ye et al., 2022)을 사용하였다. UNet 모델 이외의 앞의 세 종류의 모델은 잔차 학습을 이용하여 UNet 모델의 성능을 향상시키고자 개발된 대표적인 모델로 본 논문에서 비교 모델로 선정하였다. 이와 함께 전이학습 모델로는 UNet 모델에 사전 학습 모델로 ResNet50과 VGG19를 각각 적용한 UNet-ResNet50 모델, UNet-VGG19 모델을 사용하였으며 CBAM-DRUNet 모델에 사전 학습 모델로 VGG19를 적용한 CBAM-DRUNet-VGG19 모델을 사용하였다(Table 2).

Table 2. The types of deep learning models used in the experiment​​​​​​​

OGCSBN_2023_v39n5_4_1111_t0002.png 이미지

본 연구에서는 각 딥러닝 모델의 건물 추출 결과에 대한 정성적인 성능 평가를 위해 각 데이터셋 별로 학습에 사용되지 않은 테스트 영상에 대해 라벨링 영상(ground truth)과 각 모델 별 건물 추출 결과 영상을 함께 제시하고 오차행렬의 True Positive 화소는 흰색, False Negative 화소는 적색, False Positive 화소는 녹색으로 각각 표시하였다. Fig. 7은 학습률이 10–4일 때의 Kompsat-3A 영상에 대한 모델 별 건물 추출 결과 영상을 보여준다. 영상 중앙에 기울어진 형태로 위치한 사각형 건물은 각 모델별로 대체로 잘 검출되었으나 바로 우측에 인접한 사각형 건물은 CBAM-DRUNet 모델과 CBAM-DRUNet-VGG19 모델을 제외하고 대부분의 모델에서 False Negative (적색) 화소들이 많이 검출되었다. 영상 전체적으로 볼 때에 CBAM-DRUNet 모델이 False Negative (적색) 화소가 가장 적은 반면에 False Positive (녹색) 화소는 가장 많으며 CBAM-DRUNet 모델에 전이학습을 적용한 CBAM-DRUNet-VGG19 모델은 False Negative (적색) 화소는 적으면서 False Positive (녹색) 화소도 CBAM-DRUNet 모델의 경우보다 감소되었음을 알 수 있다.

OGCSBN_2023_v39n5_4_1111_f0007.png 이미지

Fig. 7. Comparison of building segmentation results using various deep learning models on a Kompsat-3A image.​​​​​​​

Kompsat-3A 영상에 대한 각 모델 별 정량적 평가를 위해 10–3, 10–4, 10–5 세 종류의 학습률에 대한 epoch=41부터 epoch=50까지의 F1 score의 중앙값을 계산하였으며 그 결과는 Table 3과 같다. Table 3에서 각 학습률 별로 7개 모델 중에 상위 두 개 모델은 밑줄로 표시하였다. 세 종류의 학습률 가운데 가장 큰 10–3인 경우에는 전이학습을 적용하지 않은 DeepResUNet 모델과 CBAMDRUNet 모델이 각각 0.7969, 0.8116의 값을 보여 다른 모델들에 비해 높은 F1 score의 결과를 보였다. 반면에 학습률이 10–4과 10–5의 경우에는 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델이 F1 score가 가장 높은 상위 두 개 모델의 결과를 보였다.

Table 3. Comparison of F1 scores based on learning rates for different deep learning models on the Kompsat-3A dataset​​​​​​​

OGCSBN_2023_v39n5_4_1111_t0003.png 이미지

Fig. 8은 학습률이 10–4일 때의 WHU 영상에 대한 모델별 건물 추출 결과 영상을 보여준다. 전이학습을 사용하지 않은 UNet 모델, DeepResUNet 모델, CBAM-DRUNet 모델에서 False Negative 화소가 상대적으로 많이 검출되었으며 전이학습을 사용한 모델들은 False Negative 화소가 비교적 적게 검출되었다. UNet-RESNET50 모델과 UNet-VGG19 모델은 False Negative와 False Positive 화소들이 일부 검출된 반면에 CBAM-DRUNet-VGG19 모델은 False Negative 화소만 일부 검출되었다.

OGCSBN_2023_v39n5_4_1111_f0008.png 이미지

Fig. 8. Comparison of building segmentation results using various deep learning models on a WHU image.​​​​​​​

Table 4는 WHU 데이터셋에 대한 각 모델의 학습률에 따른 F1 score를 보여준다. 세 종류의 학습률에서 모두 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델이 F1 score가 가장 높은 상위 두 개 모델의 결과를 보였다. 학습률이 10–4인 경우에 대부분의 모델의 F1 score가 다른 학습률에 비해 상대적으로 우수한 결과를 보였다. 학습률이 10–3인 경우에는 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델을 제외한 나머지 모델들의 F1 score가 모두 유사하게 대략 0.78에 해당하는 값을 보인 반면에 학습률이 10–5인 경우에는 학습률이 10–4인 경우에 비해 모델 별로 F1 score의 하락폭이 큰 결과를 보였다. 이러한 결과를 볼 때 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델을 제외한 모델들에서는 학습률이 10–3과 같이 비교적 큰 값일 때에는 모델 자체의 특성보다는 학습률 자체가 모델 성능에 큰 영향을 미치는 것으로 보인다. 반면에 VGG19를 사전 학습 모델로 사용한 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 학습률이 10–4과 10–5 모두에서 F1 score 값에 큰 변화가 없이 상대적으로 높은 정확도를 보였다.

Table 4. Comparison of F1 scores based on learning rates for different deep learning models on the WHU dataset​​​​​​​

OGCSBN_2023_v39n5_4_1111_t0005.png 이미지

Fig. 9는 학습률이 10–4일 때의 INRIA 영상에 대한 모델 별 건물 추출 결과 영상을 보여준다. UNet 모델이 False Negative 화소 검출이 가장 많고 DeepResUNet 모델이 False Positive 화소 검출이 가장 많음을 볼 수 있다. CBAM-DRUNet-VGG19 모델이 False Negative 화소와 False Positive 화소 검출이 상대적으로 가장 적은 결과를 보였다.

OGCSBN_2023_v39n5_4_1111_f0009.png 이미지

Fig. 9. Comparison of building segmentation results using various deep learning models on an INRIA image.​​​​​​​

Table 5는 INRIA 데이터셋에 대한 각 모델의 학습률에 따른 F1 score를 보여준다. ResUNet 모델을 제외한 전이학습을 이용하지 않는 나머지 모델들은 모두 학습률이 10–3인 경우에 가장 높은 정확도를 보였다. ResUNet 모델과 전이학습을 사용한 세 모델 모두 학습률이 10–4일 때 가장 높은 정확도를 보였다. CBAM-DRUNET-VGG19 모델은 세 종류의 학습률에서 모두 나머지 다른 모델들에 비해 가장 높은 정확도를 보였다. UNet-VGG19 모델은 학습률이 10–4와 10–5일 때에는 CBAM-DRUNETVGG19 모델과 비슷한 정확도를 보인 반면에 학습률이 10–3인 경우에는 7개 모델들 가운데 가장 낮은 정확도를 보였다.

Table 5. Comparison of F1 scores based on learning rates for different deep learning models on the INRIA dataset​​​​​​​

OGCSBN_2023_v39n5_4_1111_t0006.png 이미지

Fig. 10은 Kompsat-3A 데이터셋에 대한 모델 별 학습률에 따른 F1 score의 변화를 보여준다. 학습률이 10–3인 경우에는 전이학습을 사용하지 않는 모델들이 상대적으로 우수한 결과를 보였으며 학습률이 10–4인 경우에는 대부분의 모델에서 학습률이 10–3과 10–5인 경우보다 우수한 결과를 보였다. 반면에 학습률이 10–5인 경우에는 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델을 제외한 나머지 모델들은 학습률이 10–3과 10–4인 경우보다 모두 F1 score가 낮아진 결과를 보였다. 학습률이 10–5와 같이 작은 값에서도 전이학습을 이용한 모델이 우수한 결과를 보이는 것은 사전 학습 모델의 초기 가중치 값이 학습 단계에서 효과적으로 기여한 영향이라 판단된다. 반면에 학습률이 10–3와 같이 큰 경우에는 학습률 자체가 크기 때문에 사전 학습 모델의 초기 가중치의 효과가 제대로 반영되지 못하여 상대적으로 낮은 정확도를 보인 것으로 판단된다.

OGCSBN_2023_v39n5_4_1111_f0010.png 이미지

Fig. 10. Comparison of F1 score changes based on learning rates for different models on the Kompsat-3A dataset.​​​​​​​

Fig. 11은 WHU 데이터셋에 대한 모델 별 학습률에 따른 F1 score의 변화를 보여준다. 학습률이 10–3인 경우에는 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델을 제외한 나머지 모델들은 비슷한 정확도를 보이며 학습률이 10–4인 경우에는 대부분의 모델에서 학습률이 10–3과 10–5인 경우보다 우수한 결과를 보였다. 반면에 학습률이 10–5인 경우에는 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델을 제외한 모든 모델에서 학습률이 10–3와 10–4인 경우보다 낮은 정확도를 보였다.

OGCSBN_2023_v39n5_4_1111_f0011.png 이미지

Fig. 11. Comparison of F1 score changes based on learning rates for different models on the WHU dataset.​​​​​​​

Fig. 12는 INRIA 데이터셋에 대한 모델 별 학습률에 따른 F1 score의 변화를 보여준다. 학습률이 10–3일 때의 UNet-VGG19 모델의 정확도가 다소 낮은 경우를 제외하고 학습률이 10–3과 10–4인 경우의 각 모델의 정확도는 큰 차이를 보이지 않으나 학습률이 10–5인 경우에는 전이학습을 사용하지 않은 모델들은 학습률이 10–3과 10–4인 경우에 비해 정확도가 큰 폭으로 하락한 결과를 보였다.

OGCSBN_2023_v39n5_4_1111_f0012.png 이미지

Fig. 12. Comparison of F1 score changes based on learning rates for different models on the INRIA dataset.​​​​​​​

전이학습 사용에 따른 성능 향상 정도를 비교하기 위하여 Table 6과 같이 전이학습을 사용하지 않은 모델들을 비교 모델로 삼아 각 비교 모델 대비 전이학습 모델들의 F1 score의 향상 정도를 비교하였다. 기준 학습률은 세 개의 데이터셋에서 모두 정확도의 과도한 하락이 없는 10–4 값을 기준으로 비교하였다. 세 종류의 전이학습 모델들이 모두 네 가지 비교 모델 가운데 UNet 모델 대비 정확도 향상 정도가 가장 큰 결과를 보였다. UNet 모델 대비 UNet-ResNet50 모델이 5.1%, UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 동일하게 7.2%의 성능 향상 결과를 보였다. ResUNet 모델과 DeepResUNet 모델 대비 UNet-ResNet50 모델은 각각 3.4%, 3.8%의 성능 향상 결과를 보인 반면에 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 동일하게 각각 5.4%와 5.8%의 정확도 향상 결과를 보였다. 마지막으로 CBAM-DRUNet 모델 대비 UNet-ResNet50 모델은 0.1%, UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 동일하게 2.0%의 정확도 향상 결과를 보였다. CBAM-DRUNet 비교 모델 대비 전이학습 모델들의 정확도 향상이 크지 않은 이유는 Ye et al. (2022)의 연구 결과에서 제시된 바와 같이 CBAM-DRUNet 모델이 다른 세 비교 모델보다 건물 검출 성능이 우수하기 때문이다. 또한 VGG19 사전 학습모델을 사용한 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델이 ResNet50 사전 학습 모델을 사용한 UNet-ResNet50 모델보다 세 종류의 데이터셋에서 모두 상대적으로 우수한 정확도 향상 결과를 보였다.

Table 6. Comparison of accuracy improvement in transfer learning models relative to four comparison models​​​​​​​

OGCSBN_2023_v39n5_4_1111_t0007.png 이미지

5. 결론

본 논문에서는 원격 탐사 영상에서 건물 추출을 위한 UNet 기반의 딥러닝 모델의 전이학습 적용 효과를 학습률 설정에 따른 모델별 성능 변화와 함께 분석하였다. 전이학습에 널리 사용되는 대표적인 사전 학습 모델인 ResNet50 모델과 VGG19 모델을 이용하여 세 종류의 전이학습 모델(UNet-ResNet50, UNet-VGG19, CBAMDRUNet-VGG19)을 생성하였다. 건물 추출 딥러닝 모델 성능 평가를 위해서 Kompsat-3A 데이터셋, WHU 데이터셋, INRIA 데이터셋을 사용하고 세 종류의 학습률(10–3, 10–4, 10–5)에 따른 딥러닝 모델 별 F1 score를 계산하였다.

각 데이터셋에 대한 정성적인 성능 분석 결과에 따르면 Kompsat-3A 데이터셋의 경우에는 CBAM-DRUNet 모델과 CBAM-DRUNet-VGG19 모델을 제외하고 대부분의 모델에서 False Negative 화소들이 많이 검출되었다. WHU 데이터셋의 경우에는 UNet 모델, DeepResUNet 모델, CBAM-DRUNet 모델에서 False Negative 화소가 상대적으로 많이 검출되었다. INRIA 데이터셋의 경우에는 UNet 모델이 False Negative 화소 검출이 가장 많고 DeepResUNet 모델이 False Positive 화소 검출이 가장 많은 반면에 CBAM-DRUNet-VGG19 모델은 False Negative 화소와 False Positive 화소 검출이 상대적으로 가장 적은 결과를 보였다. 세 종류의 데이터셋에 대한 정성적인 성능 분석 결과를 종합해 볼 때, CBAM-DRUNet-VGG19 모델이 다른 전이학습 모델들에 비해 False Negative 화소와 False Positive 화소의 검출 비율이 낮고 상대적으로 우수한 건물 검출 성능을 보였다.

학습률이 상대적으로 큰 값인 10–3인 경우에 Kompsat-3A 데이터셋 실험에서는 전이학습 모델들이 다른 모델들보다 낮은 정확도를 보인 반면에, WHU 데이터셋과 INRIA 데이터셋 실험에서는 전이학습 모델들이 다른 모델들보다 다소 높거나 낮은 정확도를 보였다. 학습률이 10–3과 같이 큰 경우에는 사전 학습 모델의 가중치가 학습 과정에서 큰 영향을 발휘하지 못하여 성능 향상이 데이터셋에 따라 제한적으로 나타나는 것으로 판단된다. 학습률이 10–4인 경우에는 일부 예외가 있으나 대부분의 모델에서 학습률이 10–3과 10–5인 경우보다 높은 정확도를 보였다. 특히 UNet-VGG19 모델, CBAM-DRUNet-VGG19 모델은 세 종류의 데이터셋에서 모두 F1 score가 가장 높은 상위 두 개 모델에 해당되는 결과를 보였다. 학습률이 10–5인 경우에는 UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 학습률이 10–4인 경우와 유사한 정확도를 보인 반면에 나머지 모델들은 학습률이 10–4인 경우보다 정확도가 크게 낮아진 결과를 보였다. 학습률이 10–4이나 10–5와 같이 작은 값에서는 사전 학습 모델의 가중치 값이 학습 단계에서 정확도 향상에 효과적으로 기여하는 것으로 판단된다. 특히 사전 학습 모델로 VGG19 모델을 사용하는 경우에 학습률이 10–4 또는 10–5을 사용하여도 정확도에 큰 차이가 없는 것은 전이학습 모델이 비전이학습 모델 대비 학습률 선정에서 가지는 우수한 장점이라 할 수 있다.

UNet 모델의 F1 score를 기준으로 세 개의 전이학습 모델들의 F1 score의 향상 정도를 학습률 10–4의 값을 기준으로 비교한 결과, 세 개의 데이터셋에 대해 평균적으로 UNet-ResNet50 모델이 5.1%, UNet-VGG19 모델과 CBAM-DRUNet-VGG19 모델은 각각 7.2%의 성능 향상 결과를 보였다.

본 연구에서는 ResNet50 모델과 VGG19 모델을 이용하여 세 종류의 전이학습 모델을 생성하여 세 종류의 데이터셋에 대해 전이학습의 정확도 향상 정도를 분석하였으며, 향후에는 데이터셋의 크기가 다양한 경우에 대한 성능 분석과 데이터 증강을 통해 생성된 데이터셋에 대한 전이학습 모델의 성능 분석에 대한 연구가 필요하다. 

사사

본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호: RS-2022-00155763).

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. He, K., Zhang, X., Ren, S., and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 27-30, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90
  2. Ji, S., Wei, S., and Lu, M., 2019. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set. IEEE Transactions on Geoscience and Remote Sensing, 57(1), 574-586. https://doi.org/10.1109/TGRS.2018.2858817
  3. Maggiori, E., Tarabalka, Y., Charpiat, G., and Alliez, P., 2017. Can semantic labeling methods generalize to any city? the INRIA aerial image labeling benchmark. In Proceedings of the IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Fort Worth, TX, USA, July 23-28, pp. 3226-3229. https://doi.org/10.1109/IGARSS.2017.8127684
  4. Mo, J., Seong, S., and Choi, J., 2021. Change detection of building objects in urban area by using transfer learning. Korean Journal of Remote Sensing, 37(6-1), 1685-1695. https://doi.org/10.7780/kjrs.2021.37.6.1.16
  5. Ronneberger, O., Fischer, P., and Brox, T., 2015. U-Net: Convolutional networks for biomedical image segmentation. arXiv preprint arXiv:1505.04597. https://doi.org/10.48550/arXiv.1505.04597
  6. Sharma, N., Gupta, S., Koundal, D., Alyami, S., Alshahrani, H., Asiri, Y., and Shaikh, A., 2023. U-Net model with transfer learning model as a backbone for segmentation of gastrointestinal tract. Bioengineering, 10(1), 19. https://doi.org/10.3390/bioengineering10010119
  7. Simonyan, K., and Zisserman, A., 2015. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556. https://doi.org/10.48550/arXiv.1409.1556
  8. Song, A. R., Choi, J. W., and Kim, Y. I., 2019. Change detection for high-resolution satellite images using transfer learning and deep learning network. Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography, 37(3), 199-208. https://doi.org/10.7848/ksgpc.2019.37.3.199
  9. Wurm, M., Stark, T., Zhu, X. X., Weigand, M., and Taubenbock, H., 2019. Semantic segmentation of slums in satellite images using transfer learning on fully convolutional neural networks. ISPRS Journal of Photogrammetry and Remote Sensing, 150, 59-69. https://doi.org/10.1016/j.isprsjprs.2019.02.006
  10. Ye, C. S., Ahn, Y. M., Baek, T. W., and Kim, K. T., 2022. Semantic building segmentation using the combination of improved DeepResUNet and convolutional block attention module. Korean Journal of Remote Sensing, 38(6-1), 1091-1100. https://doi.org/10.7780/kjrs.2022.38.6.1.10
  11. Yi, Y., Zhang, Z., Zhang, W., Zhang, C., Li, W., and Zhao, T., 2019. Semantic segmentation of urban buildings from VHR remote sensing imagery using a deep convolutional neural network. Remote Sensing, 11(15),1774. https://doi.org/10.3390/rs11151774
  12. Zhang, Z., Liu, Q., and Wang, Y., 2018. Road extraction by deep residual U-Net. IEEE Geoscience and Remote Sensing Letters, 15(5), 749-753. https://doi.org/10.1109/LGRS.2018.2802944