DOI QR코드

DOI QR Code

Semantic Building Segmentation Using the Combination of Improved DeepResUNet and Convolutional Block Attention Module

개선된 DeepResUNet과 컨볼루션 블록 어텐션 모듈의 결합을 이용한 의미론적 건물 분할

  • Ye, Chul-Soo (Department of AI Computer Engineering, Far East University) ;
  • Ahn, Young-Man (Department of AI Computer Engineering, Far East University) ;
  • Baek, Tae-Woong (Department of AI Computer Engineering, Far East University) ;
  • Kim, Kyung-Tae (Department of AI Computer Engineering, Far East University)
  • 예철수 (극동대학교 AI컴퓨터공학과) ;
  • 안영만 (극동대학교 AI컴퓨터공학과) ;
  • 백태웅 (극동대학교 AI컴퓨터공학과) ;
  • 김경태 (극동대학교 AI컴퓨터공학과)
  • Received : 2022.11.11
  • Accepted : 2022.11.24
  • Published : 2022.12.31

Abstract

As deep learning technology advances and various high-resolution remote sensing images are available, interest in using deep learning technology and remote sensing big data to detect buildings and change in urban areas is increasing significantly. In this paper, for semantic building segmentation of high-resolution remote sensing images, we propose a new building segmentation model, Convolutional Block Attention Module (CBAM)-DRUNet that uses the DeepResUNet model, which has excellent performance in building segmentation, as the basic structure, improves the residual learning unit and combines a CBAM with the basic structure. In the performance evaluation using WHU dataset and INRIA dataset, the proposed building segmentation model showed excellent performance in terms of F1 score, accuracy and recall compared to ResUNet and DeepResUNet including UNet.

딥러닝 기술의 진보와 함께 다양한 국내외 고해상도 원격탐사 영상의 활용이 가능함에 따라 딥러닝 기술과 원격탐사 빅데이터를 활용하여 도심 지역 건물 검출과 변화탐지에 활용하고자 하는 관심이 크게 증가하고 있다. 본 논문에서는 고해상도 원격탐사 영상의 의미론적 건물 분할을 위해서 건물 분할에 우수한 성능을 보이는 DeepResUNet 모델을 기본 구조로 하고 잔차 학습 단위를 개선하고 Convolutional Block Attention Module(CBAM)을 결합한 새로운 건물 분할 모델인 CBAM-DRUNet을 제안한다. 제안한 건물 분할 모델은 WHU 데이터셋과 INRIA 데이터셋을 이용한 성능 평가에서 UNet을 비롯하여 ResUNet, DeepResUNet 대비 F1 score, 정확도, 재현율 측면에서 모두 우수한 성능을 보였다.

Keywords

1. 서론

최근 원격탐사 분야에서 고해상도의 아리랑위성영상과 함께 국토위성영상의 활용이 가능해짐에 따라 고해상도 위성영상을 이용한 국토 모니터링에 대한 관심이 크게 높아지고 있다. 국토 모니터링과 관련된 활용 분야 가운데 도심 지역에 대한 원격탐사 영상을 활용한 건물 분할 및 변화 탐지는 도시관리 업무 또는 도시문제 대응을 위한 중요한 모니터링 기술이다. 건물 분할을 위한 기존의 감독 기반 분류 방식은 건물 등과 같은 영상 내에 존재하는 다양한 객체를 클래스로 정의하고 각 클래스의 대표적인 분광학적 특성을 계산한 후에 각 영상 화소를 클래스 별로 분류한다. 이러한 감독 기반 분류에 기초한 건물 분할 방식의 한계점은 분류 대상 영상에 속하는 클래스의 정의와 각 클래스의 대표 속성을 가지는 샘플 추출 과정에서 분류를 수행하는 개인의 주관적 판단에 크게 의존해야 하는 점이다. 원격탐사 영상의 특성상 분석 대상 지역에 대한 충분한 사전 지식이 있는 경우에도 클래스 정의와 샘플 추출 과정에 상당한 주의가 필요하다. 또한 촬영 센서의 종류, 계절적 요인 등 여러 영상 획득 조건의 변화에 따라 개인의 주관적 판단에 의존하는 감독 분류 방식은 실제 현장에서 활용하기가 쉽지 않은 측면이 있다. 감독 기반 분류 방식이 분석 대상 영상을 선정하고 선정된 영상에 대해 각 클래스와 클래스의 대표 속성을 추출하는 방법을 취하기 때문에 분석 대상 영상이 달라지면 해당 영상에 대해 동일한 과정의 분석이 필요하며 이러한 점은 다수의 영상에 대한 자동화 처리에 한계점으로 작용한다.

반면에 딥러닝 기반의 건물 분할 방식은 최근에 기술적으로 다양한 방식의 의미론적 건물 분할 기법(Ye et al., 2019; Foivos et al., 2020; Li et al., 2021; Wang and Fang, 2022)이 등장하였으며 충분한 학습데이터의 구축이 가능하다면 학습된 딥러닝 모델에 분석 대상 영상을 입력하여 건물 분할 결과를 손쉽게 획득할 수 있다. 딥러닝 기반의 건물 분할 결과를 성공적으로 획득하기 위해서는 건물 분할에 적합한 딥러닝 모델의 선택과 딥러닝 모델을 학습하는데 필요한 정확하고 충분한 개수의 학습 데이터의 구축이 필요하다. 건물 분할에 적합한 대표적인 딥러닝 모델로는 일반적으로 UNet 모델(Ronneberger et al., 2015)이 널리 사용되고 있으며, 잔차 학습(residual learning)을 UNet 모델과 결합한 ResUNet 모델(Zhang et al., 2018) 그리고 ResUNet 모델보다 성능이 더욱 향상된 DeepResUNet 모델(Yi et al., 2019)이 최근에 발표되었다. 한편 건물 분할을 위한 딥러닝 모델의 성능을 향상시킬 수 있는 방법으로 어텐션 블록(attention block)을 통해 모델의 감도를 향상시키기 위한 다양한 기법들이 제안되었다(Wu et al., 2020; Guo et al., 2020; Deng et al., 2021; Jin et al., 2021).

본 논문에서는 UNet 기반의 딥러닝 모델을 분석한 선행 연구(Ye et al., 2022)에 기초하여 잔차 학습 기반의 UNet 모델들 가운데 우수한 성능을 보이는 DeepResUNet 모델의 성능을 향상시킬 수 있는 방법으로 잔차 학습 블록의 내부 구조를 개선하고 어텐션 블록을 건물 분할 딥러닝 모델에 결합하는 방법을 제안한다. 본 논문은 2장에서UNet 기반의 대표적인 건물 분할 딥러닝 모델들을 소개하고 이어서 잔차 학습 블록의 개선 방법과 어텐션 블록을 건물 분할 모델에 결합하는 방법을 소개한다. 3장에서는 건물 분할 딥러닝 모델에 사용되는 데이터셋과 성능 평가 방법을 소개한다. 4장에서는 기존 건물 분할 모델들과 제안하는 모델의 성능을 분석하고 5장에서는 본 연구의 결론과 향후 연구 방향을 제시한다.

2. 연구 방법

1) UNet 기반의 건물 분할 딥러닝 모델

대표적인 의미론적 영상 분할 모델인 UNet 모델은 특징 영상의 크기를 풀링(pooling) 과정을 통해 축소시키는 다운샘플링 경로와 업샘플링(upsampling) 과정을 통해 특징 영상의 해상도를 고해상도로 증가시키는 업샘플링 경로로 구성된다(Ronneberger et al., 2015). 다운샘플링 경로를 거치면서 특징 영상의 크기는 축소되나 특징 채널의 수는 증가되며 이 과정을 통해 영상이 가지고 있는 다양한 영상 특징 정보들이 생성되어 업샘플링 경로로 전달된다. 업샘플링 경로를 거치면서 영상 특징 크기를 증가시키고 이후 다운샘플링 경로의 풀링 전의 영상 특징과 결합되는 과정을 반복적으로 거치면서 고해상도의 출력을 생성하게 된다.

ResUNet 모델은 잔차 학습과 UNet 모델의 장점을 결합한 딥러닝 모델이다(Zhang et al., 2018). ResUNet은 기본적으로 UNet과 유사한 구조를 가지나 입력 특징이 컨볼류션 레이어를 포함한 일련의 레이어들을 통과한 결과와 합쳐지는 잔차 유닛(residual unit)을 통해 네트워크의 학습을 용이하게 한다. 또한 skip connection을 통해 인코딩 과정의 잔차 유닛의 결과가 디코딩 단계의 업샘플링 결과와 합쳐지는 UNet의 특성을 함께 가진다.

DeepResUNet 모델은 2개의 3×3 컨볼류션 레이어와 1×1 컨볼류선 레이어를 순차적으로 통과한 결과에 입력 특징이 더해지는 잔차 유닛 구조의 ResBlock을 정의하고, 2개의 ResBlock과 풀링 레이어로 구성되는 레이어 그룹을 여러 단계로 구성하여 UNet보다 깊은 다층 레이어을 구성한다(Yi et al., 2019). ResBlock 내부의 잔차 유닛 구성과 유사하게 2개의 ResBlock과 풀링 레이어로 구성되는 레이어 그룹 간에도 풀링 레이어의 특징맵을 2개의 연속적인 ResBlock 출력에 더하는 방식을 적용하여 레이어 그룹 사이의 특징 정보 전파가 유리한 구조를 가진다. Yi et al. (2019)에 의하면 DeepResUNet은 UNet, ResUNet을 포함한 6개 건물 분할 딥러닝 모델보다 우수한 건물 분할 결과를 보였다.

2) DeepResUNet 모델의 ResBlock 개선

DeepResUNet의 ResBlock은 Fig. 1과 같이 3개의 컨볼류션 레이어가 3×3(채널 64), 3×3(채널 128), 1×1(채널 128) 순으로 배치되며 각각의 3×3 컨볼류션 레이어 이후에 활성화 함수(ReLU)가 위치하고 마지막 컨볼류션 레이어의 출력과 입력 특징이 더해진 후에 다시 한번 활성화 함수(ReLU)를 적용하는 구조로 총 3번의 활성화 함수가 적용된다. Han et al. (2017) 의 연구에 따르면 ResBlock 내부에 사용되는 활성화 함수의 개수가 많아지면 성능이 저하되며 이는 활성화 함수의 특성상 컨볼류션 결과 값이 0보다 작은 값들이 활성화 함수 적용으로 0으로 변환되는 회수가 증가할수록 ResBlock의 전체적인 성능에 부정적인 영향을 미치기 때문이다. 따라서 본 연구에서는 ResBlock 내부의 사용되는 활성화 함수를 Fig. 1과 같이 2회만 적용하는 새로운 ResBlock을 제안한다. 제안하는 ResBlock은 입력 특징을 정규화(batch normalization, BN)한 후에 3×3 컨볼류션(Conv 3×3), 정규화(BN), 활성화 함수(ReLU)를 순차적으로 적용하고 이후 다시 한번 3×3 컨볼류션(Conv 3×3)과 정규화(BN)를 순차적으로 적용한 결과와 입력 특징을 더한 후에 정규화(BN)와 활성화 함수(ReLU)를 적용한다. ResBlock의 마지막 단계에 정규화(BN)를 추가하여 다수의 ResBlock이 사용되는 딥러닝 네트워크 환경에서 학습 속도와 안정성을 높인다. 이와 함께 각 컨볼류션 레이어에 사용되는 채널의 개수를 DeepResUNet에서는 파라미터의 개수를 고려하여 64-128-128 순으로 증가시키나 제안하는 ResBlock에서는 파라미터의 개수가 증가하더라도 보다 많은 특징 정보 생성에 유리하도록 컨볼류션 레이어에 사용되는 채널의 개수를 모두 256으로 설정한다.

OGCSBN_2022_v38n6_1_1091_f0001.png 이미지

Fig. 1. Comparison of DeepResBlock’s resblock and the improved resblock structure.

3) DeepResUNet과 Convolutional Block Attention Module 결합

Convolutional Block Attention Module (CBAM)은 Convolutional Neural Networks (CNN) 기반의 딥러닝 모델에서 입력 채널의 상대적 중요도와 영상 화소 위치 별 상대적 중요도를 각각 가중치로 계산하여 정제된 특징을 생성하는 모듈이다(Woo et al., 2018). 각 채널의 상대적 중요도를 결정하기 위해서는 channel attention module을 적용하고 영상 화소의 위치 별 상대적 중요도 가중치를 결정하기 위해서는 spatial attention module을 적용한다. Woo et al. (2018)의 연구에 따르면 channel attention module과 spatial attention module을 순차적으로 적용한 경우가 다른 경우의 조합보다 다소 높은 성능을 보인다. 본 연구에서는 Fig. 2와 같이 channel attention module과 spatial attention module을 순차적으로 적용하는 CBAM 모듈을 개선된 DeepResUNet 모델과 결합한다.

OGCSBN_2022_v38n6_1_1091_f0002.png 이미지

Fig. 2. Internal structure of Convolutional Block Attention Module (CBAM).

4) 제안하는 CBAM-DRUNet 건물 분할 모델

제안하는 건물 분할 딥러닝 모델 CBAM-DRUNet은 Fig. 3과 같이 DeepResUNet 모델의 구조와 유사한 구조를 가지나 업샘플링 과정의 마지막 단계에서 CBAM를 적용하고 각 ResBlock은 앞서 기술한 바와 같이 채널 개수가 256인 개선된 ResBlock을 사용한다. 제안하는 건물 분할 딥러닝 모델은 2개의 ResBlock과 풀링 레이어로 구성되는 레이어 그룹을 여러 단계로 구성하여 UNet 등 기존 딥러닝 모델 대비 보다 깊은 다층 레이어로 구성된다. 레이어 그룹 간에도 풀링 레이어의 특징맵을 2개의 연속적인 ResBlock 출력에 더하는 방식을 4회 적용하여 레이어 그룹 사이의 특징 정보 전파가 유리한 구조를 가진다.

OGCSBN_2022_v38n6_1_1091_f0003.png 이미지

Fig. 3. The proposed CBAM-DRUNet model for semantic building segmentation.

3. 연구 자료 및 성능 평가 방법

본 연구에서는 제안하는 건물 분할 알고리즘의 성능 평가를 위해 건물 분할에 널리 사용되는 오픈 데이터셋인 WHU 데이터셋과 INRIA 데이터셋을 사용하였다. WHU 데이터셋은 Fig. 4와 같이 다양한 크기와 종류의 건물 영상과 라벨링 영상을 제공한다. 공간해상도 0.3 m의 512×512 크기의 전체 데이터셋에 187,000개 이상의 건물에 대한 라벨링 데이터가 포함되며 학습 데이터 4,736개, 검증 데이터 1,036개, 테스트 데이터 2,426개가 제공된다. INRIA 데이터셋 영상의 공간해상도는 0.3 m이며 5개 도시에 대해 5,000×5,000 크기의 데이터셋이 각각 36개씩 총 180개의 학습 및 테스트 데이터셋으로 제공된다.

OGCSBN_2022_v38n6_1_1091_f0004.png 이미지

Fig. 4. Examples of WHU dataset.

OGCSBN_2022_v38n6_1_1091_f0005.png 이미지

Fig. 5. An example of INRIA dataset.

건물 분할의 정량적인 성능 평가 지표로 식(1)부터 식 (5)까지 주어지는 정확도(overall accuracy), 정밀도(precision), 재현율(recall), FI score 그리고 Intersection over Union (IoU)를 사용하였다. 정밀도는 딥러닝 모델을 이용하여 검출된 건물 화소 수 중 실제 건물 화소 수의 비율을, 재현율은 실제 건물 화소 수 중 딥러닝 모델을 이용하여 검출된 건물 화소 수의 비율을 의미한다. F1 score는 정밀도와 재현율의 조화평균으로 정밀도와 재현율을 동시에 고려한 성능 지표이다. IoU는 실제 건물 화소 또는 검출된 건물 화소 가운데 실제 건물 화소이며 동시에 딥러닝 모델을 통해 검출된 건물 화소 수의 비율을 의미한다.

\(\begin{aligned}Overall Accuracy\;\frac{TP+TN}{TP+TN+FP+FN}\end{aligned}\)       (1)

\(\begin{aligned}Precision\;\frac{TP}{TP+FP}\end{aligned}\)       (2)

\(\begin{aligned}Recall\;=\frac{TP}{TP+FN}\end{aligned}\)       (3)

\(\begin{aligned}F1\;score =2×\frac{Precision×Recall}{Precision+Recall}\end{aligned}\)       (4)

\(\begin{aligned}IoU\;=\frac{TP}{FP+TP+FN}\end{aligned}\)       (5)

각 성능 지표는 Table 1의 오차행렬(confusion matrix)의 각 항목을 이용하여 계산한다. 반복 훈련 횟수 epoch은 50, loss function은 binary_crossentropy, optimizer는 Adam(학습률: 10–3, 학습률 감소율: 10–6), batch size는 1을 사용하였다. 딥러닝 모델의 전반적인 성능을 나타내는 지표인 F1 score 계산은 반복 훈련 횟수가 50에 도달하기 전인 epoch=41부터 epoch=50까지 범위에서 F1 score의 평균값, 중앙값, 최소값, 최대값을 함께 계산하여 각 모델의 성능을 비교하였다. 정확도, 정밀도, 재현율은 epoch 변화에 따른 영향을 가급적 배제하기 위하여 epoch=41부터 epoch=50까지 범위에서 중앙값을 계산하였다.

Table 1. Confusion matrix for performance evaluation

OGCSBN_2022_v38n6_1_1091_t0001.png 이미지

실험을 수행한 하드웨어 환경은 Table 2와 같으며 Python 3.10 버전과 tensorflow 2.8 버전을 사용하여 실험을 진행하였다.

Table 2. Computer specifications used in the experiment

OGCSBN_2022_v38n6_1_1091_t0002.png 이미지

4. 연구 결과 및 분석

본 연구에서는 제안한 건물 분할 모델과 UNet, ResUNet, DeepResUNet 건물 분할 모델의 상대적인 성능 평가를 목적으로WHU 데이터셋은 256×256 크기로 축소하고 학습 데이터셋 1,000개, 테스트 데이터셋 200개를 각각 추출하여 사용하였으며, INRIA 데이터셋은 512×512 크기의 학습 데이터셋 900개, 테스트 데이터셋 100개를 사용하였다. Fig. 6은WHU 데이터셋에 대한 실험 결과로 3장의 성능 평가 방법에 따라 각 모델별로 반복 학습을 50회 수행 한 후에 건물 형태가 직사각형 형태의 단순한 경우(Case 1, 첫 번째 행), 좁고 긴 형태의 건물들이 복잡하게 위치한 경우(Case 2, 두 번째 행), 상대적으로 건물의 크기가 큰 경우(Case 3, 세 번째 행)에 대한 각 모델 별 건물 검출 결과를 보여준다. 결과 영상에서 적색으로 표시된 화소들은 실제 건물에 속하지만 실험에서 검출되지 않은 미검출(False Negative) 화소를 나타내고 초록색으로 표시된 화소들은 실제 건물에 속하지 않으나 건물 화소로 검출된 오검출(False Positive) 화소를 나타낸다.

OGCSBN_2022_v38n6_1_1091_f0006.png 이미지

Fig. 6. Visual comparison of segmentation results by applying each deep learning model to WHU dataset.

건물 형태가 직사각형의 단순한 형태인 Case 1의 경우에는 네 가지 모델 모두 1~2개의 건물을 제외한 대부분의 건물들이 잘 검출되었다. 좁고 긴 형태의 건물들이 존재하는 Case 2의 경우에는 네 가지 모델 모두 미검출 화소들이 많이 발생하였다. 건물 크기가 큰 Case 3의 경우에는 Fig. 7과 같이 UNet, ResUNet, Deep ResUNet 모두 좌측 하단에 위치한 건물에서 미검출 화소들이 많이 발생한 반면에 제안한 모델의 경우 미검출 화소들이 거의 발생하지 않은 것을 볼 수 있다. 결과 영상 우측에 위치한 건물의 노란색 점선 내부에 위치한 화소들의 경우 Fig. 8과 같이 UNet의 경우 오검출 화소들이 많이 발생한 반면에 제안한 모델은 상대적으로 적은 수의 미검출 화소들이 발생하였다.

OGCSBN_2022_v38n6_1_1091_f0007.png 이미지

Fig. 7. Enlarged examples of the lower left area of the segmentation results in the third row of Figs. 6(a) UNet, (b) ResUNet, (c) DeepResUNet, (d) CBAM-DRUNet.

OGCSBN_2022_v38n6_1_1091_f0008.png 이미지

Fig. 8. Enlarged examples of the right area of the segmentation results in the third row of Figs. 6(a) UNet, (b) ResUNet, (c) DeepResUNet, (d) CBAM-DRUNet.

WHU 전체 테스트 영상에 대한 모델 별 건물 분할에 대한 정량적인 성능 평가 결과는 Table 3과 같다. 반복훈련 횟수 epoch=41부터 epoch=50까지의 F1 score의 평균값과 중앙값(F1 score 크기순으로 5번째 및 6번째 F1 score의 평균값으로 계산), 정확도, 정밀도, 재현율에서 모두 제안한 CBAM-DRUNet 모델이 나머지 모델들에 비해 상대적으로 높은 정확도를 보였다. 특히 재현율은 나머지 모델들의 경우 0.6935에서 0.7915의 범위의 성능을 보였으나 제안한 모델은 0.9702의 높은 값을 보였다. 이는 Fig. 7에서 확인한 바와 같이 제안한 모델이 다른 모델들 대비 미검출 화소 수가 적은 것과 연관이 되며 전체 테스트 영상에서 미검출 화소 수가 전반적으로 적음을 의미한다. IoU는 epoch=50일 때의 값으로 ResUNet과 제안한 모델이 비슷한 값을 보였고, 나머지 두 모델보다 높은 값을 보였다.

Table 3. Quantitative performance evaluation for each model on WHU dataset

OGCSBN_2022_v38n6_1_1091_t0003.png 이미지

Fig. 9는 INRIA 데이터셋에 대해 각 모델별로 반복학습을 50회 수행 한 후에 건물의 상대적 크기에 따라 소형(Case 4, 첫 번째 행), 중형(Case 5, 두 번째 행), 대형(Case 6, 세 번째 행)에 해당하는 테스트 영상에 대한 건물 검출 결과이다. 소형 건물(Case 4)의 경우에는 각 모델 별로 건물 검출 결과에 큰 차이를 보이지 않으나 중형 건물(Case 5)의 경우에는 UNet과 ResUNet 모델의 경우 원형 점선으로 표시된 영역 내부에서 미검출 건물 화소들이 다수 발생한 반면에 DeepResUNet 모델과 제안한 CBAM-DRUNet 모델의 경우 해당 영역 내부에 매우 적은 미검출 건물 화소들이 발생하였다. 대형 건물(Case 6)의 경우에는 UNet과 ResUNet 모델의 경우 원형 점선 영역 내부에서 다수의 미검출 건물 화소들이 발생하였다. 반면에 DepResUNet과 제안한 CBAM-DRUNet 모델은 현저히 적은 개수의 미검출 건물 화소들이 발생하였다. Fig. 9의 중앙과 우측 부분을 확대한 Fig. 10에서 DeepResUNet과 제안한 CBAM-DRUNet 모델의 결과를 비교해보면 원형 점선 영역 내부에서 제안한 모델이 DeepResUNet에 비해 미검출 화소의 수가 훨씬 적음을 알 수 있다.

OGCSBN_2022_v38n6_1_1091_f0009.png 이미지

Fig. 9. Visual comparison of segmentation results by applying each deep learning model to INRIA dataset.

OGCSBN_2022_v38n6_1_1091_f0010.png 이미지

Fig. 10. Enlarged examples of the left area of the segmentation results in the third row of Figs. 9(a) UNet, (b) ResUNet, (c) DeepResUNet, (d) CBAM-DRUNet.

INRIA 전체 테스트 영상에 대한 모델 별 건물 분할에 대한 정량적인 성능 평가 결과는 Table 4와 같다. F1 score의 평균값과 중앙값, 정확도, 재현율, IoU에서 제안한 CBAM-DRUNet 모델이 가장 높은 값을 보였으며, 정밀도의 경우 네 가지 모델이 거의 비슷한 값을 보였다. WHU 테스트 영상에는 INRIA 테스트 영상에 비해 상대적으로 작은 크기의 단순한 건물들이 분포하고 전체 건물의 개수도 비교적 적은 가운데 False Positive 화소수가 다른 모델에 비해 상대적으로 적어 결과적으로 정밀도가 높은 값이 얻어진 반면에, INRIA 테스트 영상의 경우에는 상대적으로 큰 건물들이 많고 건물의 개수도 상대적으로 많은 가운데 Fig. 9에서 볼 수 있듯이 False Negative 화소 수는 감소한 반면에 False Positive 화소 수는 다른 모델들과 유사하여 결과적으로 네 가지 모델의 정밀도가 유사한 값을 보이는 것으로 판단된다. 또한 두 데이터셋에서 소형 건물이 상대적으로 많은 WHU 데이터셋에서 제안한 모델의 정밀도가 다른 모델보다 높은 것은 소형 건물의 검출에서 우수한 성능을 보이는 것으로 알려진 DeepResUNet의 특성을 제안한 모델도 가지고 있고 추가적으로 CBAM 적용을 통해 채널과 화소위치의 상대적 중요도 반영이 중대형 건물에 비해 소형건물의 검출에 대해 보다 효과적임을 보여준다.

Table 4. Quantitative performance evaluation for each model on INRIA dataset

OGCSBN_2022_v38n6_1_1091_t0004.png 이미지

F1 score의 경우 제안한 모델에 뒤이어서DeepResUNet, UNet, ResUNet 순으로 높은 값을 보였다. Fig. 9와 Fig. 10에서 ResUNet이 상대적으로 미검출 화소 수가 많았으며 정량적인 성능 평가에서도 ResUNet의 재현율이 상대적으로 낮은 값인 0.8094로 다른 모델들이 0.8555 이상의 값을 가지는 것에 비해 대비된다. IoU는 epoch=50일 때의 값으로 제안한 모델이 나머지 모델들보다 근소하지만 보다 높은 값을 보였다.

5. 결론

본 논문에서는 건물 분할 딥러닝 모델 가운데 우수한 성능을 보이는 UNet 기반의 대표적인 모델들을 살펴보고 가장 우수한 성능을 보이는 모델 중 하나인 DeepResUNet의 성능을 개선시키는 방법을 제안하였다. 이를 위해서 DeepResUNet의 기존 ResBlock의 내부 구조에서 활성화 함수의 갯수를 줄이고 보다 많은 특징 정보 생성에 유리하도록 컨볼류션 레이어에 사용되는 채널의 수를 증가시키는 방법을 제안하였다. 이와 함께 모델에 사용되는 다수의 채널 가운데 채널의 상대적 중요도와 영상 화소 위치의 상대적 중요도를 각각 가중치로 계산하여 정제된 특징을 생성할 수 있는 channel attention module과 spatial attention module을 순차적으로 적용하는 CBAM 모듈을 모델의 최종 단계에 결합하였다.

제안한 모델의 성능을 평가하기 위하여 건물 분할에 널리 사용되는WHU 데이터셋과 INRIA 데이터셋을 이용한 정성적, 정량적 성능 비교에서 대표적인 영상 분할 딥러닝 모델인 UNet을 포함하여 ResUNet, DeepResUNet 대비 F1 score의 평균 및 중앙값, 정확도, 재현율에서 모두 우수한 성능을 보였다. 제안한 모델은 기존 DeepResUNet 대비 미검출 화소 수가 상대적으로 적었으며 특히 건물의 코너 영역 부근에서의 건물 검출 정확도가 기존 DeepResUNet보다 높음을 확인하였다.

본 연구에서는 항공영상으로 제작된 WHU 데이터셋과 INRIA 데이터셋을 이용하여 각 모델의 건물 분할 성능을 비교하였으며, 향후에는 아리랑위성영상과 국토위성영상 등 고해상도 위성영상을 이용한 제안한 모델의 성능 분석에 대한 연구가 필요하다.

사사

본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호: RS-2022-00155763).

References

  1. Deng, W., Q. Shi, and J. Li, 2021. Attention-gate-based encoder-decoder network for automatical building extraction, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 14: 2611-2620. https://doi.org/10.1109/JSTARS.2021.3058097
  2. Foivos, I.D., F. Waldner, P. Caccetta, and C. Wu, 2020. ResUNet-a: A deep learning framework for semantic segmentation of remotely sensed data, ISPRS Journal of Photogrammetry and Remote Sensing, 162: 94-114. https://doi.org/10.48550/arXiv.1904.00592
  3. Guo, M., H. Liu, Y. Xu, and Y. Huang, 2020. Building extraction based on U-Net with an attention block and multiple losses, Remote Sensing, 12(9): 1400. https://doi.org/10.3390/rs12091400
  4. Han, D., J. Kim, and J. Kim, 2017. Deep pyramidal residual networks, Proc. of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, Jul. 21-26, pp. 6307-6315. https://doi.org/10.1109/CVPR.2017.668
  5. Jin, Y., W. Xu, C. Zhang, X. Luo, and H. Jia, 2021. Boundary-aware refined network for automatic building extraction in very high-resolution urban aerial images, Remote Sensing, 13(4): 692. https://doi.org/10.3390/rs13040692
  6. Li, C., L. Fu, Q. Zhu, J. Zhu, Z. Fang, Y. Xie, Y. Guo, and Y. Gong, 2021. Attention enhanced U-Net for building extraction from farmland based on google and WorldView-2 remote sensing images, Remote Sensing, 13(21): 4411. https://doi.org/10.3390/rs13214411
  7. Ronneberger, O., P. Fischer, and T. Brox, 2015. U-Net: convolutional networks for biomedical image segmentation, arXiv preprint arXiv:1505.04597. https://doi.org/10.48550/arXiv.1505.04597
  8. Wang, H. and M. Fang, 2022. Building extraction from remote sensing images using deep residual U-Net, European Journal of Remote Sensing, 55(1): 71-85. https://doi.org/10.1080/22797254.2021.2018944
  9. Woo, S., J. Park, J.Y. Lee, and I.S. Kweon, 2018. CBAM: Convolutional Block Attention Module, In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds), Computer Vision - ECCV 2018, Springer, Cham, Switzerland, vol. 11211, pp. 3-19. https://doi.org/10.1007/978-3-030-01234-2_1
  10. Wu, T., Y. Hu, L. Peng, and R. Chen, 2020. Improved anchor-free instance segmentation for building extraction from high-resolution remote sensing images, Remote Sensing, 12(18): 2910. https://doi.org/10.3390/rs12182910
  11. Ye, C.S., Y.M. Ahn, T.W. Baek, and K.T. Kim, 2022. UNet-based deep learning model performance analysis for semantic building segmentation of remote sensing images, Proc. of 2022 Fall Conference of the Korean Society for Remote Sensing, Busan, Nov. 7-9, p. 29.
  12. Ye, Z., Y. Fu, M. Gan, J. Deng, A. Comber, and K. Wang, 2019. Building extraction from very high resolution aerial imagery using joint attention deep neural network, Remote Sensing, 11(24): 2970. https://doi.org/10.3390/rs11242970
  13. Yi, Y., Z. Zhang, W. Zhang, C. Zhang, W. Li, and T. Zhao, 2019. Semantic segmentation of urban buildings from VHR remote sensing imagery using a deep convolutional neural network, Remote Sensing, 11(15): 1774. https://doi.org/10.3390/rs11151774
  14. Zhang, Z., Q. Liu, and Y. Wang, 2018. Road extraction by deep residual U-Net, IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753. https://doi.org/10.1109/LGRS.2018.2802944