DOI QR코드

DOI QR Code

Automatic Building Extraction Using SpaceNet Building Dataset and Context-based ResU-Net

SpaceNet 건물 데이터셋과 Context-based ResU-Net을 이용한 건물 자동 추출

  • Yoo, Suhong (School of Civil and Environmental Engineering, Yonsei University) ;
  • Kim, Cheol Hwan (School of Civil and Environmental Engineering, Yonsei University) ;
  • Kwon, Youngmok (School of Civil and Environmental Engineering, Yonsei University) ;
  • Choi, Wonjun (School of Civil and Environmental Engineering, Yonsei University) ;
  • Sohn, Hong-Gyoo (School of Civil and Environmental Engineering, Yonsei University)
  • 유수홍 (연세대학교 건설환경공학과) ;
  • 김철환 (연세대학교 건설환경공학과) ;
  • 권영목 (연세대학교 건설환경공학과) ;
  • 최원준 (연세대학교 건설환경공학과) ;
  • 손홍규 (연세대학교 건설환경공학과)
  • Received : 2022.10.06
  • Accepted : 2022.10.21
  • Published : 2022.10.31

Abstract

Building information is essential for various urban spatial analyses. For this reason, continuous building monitoring is required, but it is a subject with many practical difficulties. To this end, research is being conducted to extract buildings from satellite images that can be continuously observed over a wide area. Recently, deep learning-based semantic segmentation techniques have been used. In this study, a part of the structure of the context-based ResU-Net was modified, and training was conducted to automatically extract a building from a 30 cm Worldview-3 RGB image using SpaceNet's building v2 free open data. As a result of the classification accuracy evaluation, the f1-score, which was higher than the classification accuracy of the 2nd SpaceNet competition winners. Therefore, if Worldview-3 satellite imagery can be continuously provided, it will be possible to use the building extraction results of this study to generate an automatic model of building around the world.

건물 정보는 다양한 도시 공간 분석에 활용되는 필수 정보 중 하나이기에 지속적인 모니터링이 필요하지만 현실적으로 어려움이 존재하고 있다. 이를 위해 광범위한 지역에 대해서도 지속적인 관찰이 가능한 위성영상으로부터 건물을 추출하기 위한 연구가 진행되고 있으며, 최근에는 딥러닝 기반의 시맨틱 세그멘테이션 기법들이 활용되고 있다. 본 연구에서는 SpaceNet의 건물 v2 무료 오픈 데이터를 이용하여 30 cm 급 Worldview-3 RGB 영상으로부터 건물을 자동으로 추출하기 위해, context-based ResU-Net의 일부 구조를 변경하여 학습을 진행하였다. 분류 정확도 평가 결과, f1-score가 2회차 SpaceNet 대회 수상작의 분류 정확도보다 높은 것으로 나타났다. 앞으로 지속적으로 Worldview-3 위성 영상을 확보할 수 있다면 본 연구의 성과를 활용하여 전세계 건물 자동 추출 모델을 제작하는 것도 가능할 것으로 판단된다.

Keywords

1. 서론

건물 정보는 도시 확장 및 인구 집계의 필수 지표 중 하나로(Xu et al., 2018), 원격 탐사 영상에서 추출한 건물 경계 정보는 도시 계획, 3차원 도심지 모델링, 재난 관리 등 다양한 응용 분야에 활용될 수 있는 중요한 정보이다(Guo et al., 2020; Lafarge et al., 2008; Tiwari et al., 2006). 건축공간연구원에서 발표한 국토교통부 조사에 의하면, 건물은 그 개수가 매년 변화가 잦은 지형지물 중 하나다(Architecture & Urban Research Institute, 2021). 따라서 주기적으로 광범위한 지역을 촬영할 수 있는 위성 영상을 활용하여 건물을 자동으로 추출하여 정보를 취득하는 것이 효율적이며, 이에 관한 연구가 지속적으로 이루어지고 있다. 특히, 작은 건물도 확인 가능한 고해상 위성 영상의 배포와 딥러닝 기반 시맨틱 세그멘테이션(Semantic segmentation) 신경망의 발전으로 인해(Jung et al., 2020), 최근 분류 정확도가 향상된 연구들이 다수 발표되고 있다(Jeong and Kim, 2021; Liu et al., 2019; Liu et al., 2020; Shao et al., 2020).한편, 원활히 신경망을 학습시키기 위해서는 다량의 학습 데이터가 필요한데, 최근에는 다양한 기관에서 학습 데이터를 제작하여 배포하고 있기에, 적합한 데이터를 선택하여 활용할 수 있다(Korea Aerospace Research Institute, 2022; National Information Society Agency, 2022; Rottensteiner et al., 2014; SpaceNet, 2022a).

본 연구에서는 SpaceNet의 건물 탐지 학습 데이터 버전 2를 활용하였다. 이 학습 데이터의 경우, 팬 샤프닝(pan-sharpening) 기법을 통해 제작된 30 cm 급의 고해상 Worldview-3 위성 영상이 제공되고 있다. 이는 위성 영상 기반의 기타 학습 데이터들에 비해 가장 고해상의 자료이며, 총 4개의 서로 다른 지역(미국의 라스베이거스, 중국의 상하이, 프랑스의 파리, 수단의 카르툼)에 대한 데이터도 함께 제공하고 있기에, 지역별 성능 비교 또는 글로벌 모델 개발에 활용할 수도 있다는 장점이 있다. 또한, SpaceNet의 학습 데이터를 활용하면, 현재 유상 판매 중인 Worldview-3 위성 영상을 무료로 확보함으로써 고해상의 위성 영상을 이용한 모델 개발 연구를 미리 진행해볼 수 있고, 향후 위성 영상을 더 확보하게 된다면 전이 학습(Transfer learning)을 통해 성능이 더 향상된 모델을 생성하는 것도 가능하기에 이 학습 데이터를 선정하였다.

2017년에 SpaceNet 건물 v2 학습 데이터를 이용하여 높은 성능의 모델을 제작하는 경진 대회가 진행되었는데(Lindenbaum, 2017), XD_XD, wleite, 그리고 nofto라는 모델이 상위 3위 이내의 분류 정확도를 가지는 것으로 발표되었다. XD_XD 모델은 세 개의 U-Net 모델에 대해 앙상블을 적용하여 분류 정확도 향상을 도모하고, 입력 자료로는 SpaceNet의 다중 분광 영상뿐만 아니라 오픈 스트리트 맵(OpenStreetMap)에 저장된 주거용 토지 이용, 농경지 이용, 산업용 토지 이용, 수역, 건물 및 도로 정보를 추가로 입력하여 분류 정확도를 더 향상시켰다. Wleite의 경우에는 딥러닝 기법에 의존하지 않고 건물의 경계 정보 자동 추출에 따른 폴리곤 기반 분류 기법과 랜덤 포레스트(random forest) 알고리즘을 융합하는 방법을 사용하였다. 입력 자료로는 팬 샤프닝을 적용하지 않은 다중 분광 영상을 사용하였다. Nofto의 경우에는 팬 샤프닝을 적용한 다중 분광 영상을 이용하여 랜덤 포레스트 기법을 사용하였다.

모델간 성능 비교에는 4개 도시에 대한 평균 f1-score(Barsi et al., 2018)가 사용되었는데, XD_XD가 0.693, wleite가 0.643, 그리고 nofto가 0.579의 분류 정확도를 가지는 것으로 발표되었다. 그중 타 지역에 비해 분류 정확도가 월등히 높은 것으로 나타난 라스베이거스의 경우, XD_XD가 0.885, wleite가 0.829, 그리고 nofto가 0.787의 분류 정확도를 가지는 것으로 발표되었다.

한편, SpaceNet 대회에서는 모델 제작에 활용할 수 있는 데이터에 제한을 두지 않았기 때문에, 분류 성능을 높이기 위해 SpaceNet 이외의 데이터를 사용하는 사례도 있었다. 그러나 분류 정확도가 향상되더라도 많고 다양한 종류의 입력 데이터가 요구되는 모델이라면 향후 해당 모델에 대한 활용성이 저하될 가능성이 높다. 예를 들어, 다중 분광 영상은 풍부한 정보를 제공하지만, 반드시 다중 분광 영상을 취득할 수 있는 센서를 활용해야 하지만, RGB 영상만을 사용한다면 RGB 정보를 취득할 수 있는 센서의 종류는 다양하기 때문에 상황에 따라 센서를 교체하는 것도 고려할 수 있다.

RGB 영상만을 사용하는 것으로 입력 데이터는 최소화하되, 분류 성능은 향상시킬 수 있는 방안에 관한 연구를 수행한 사례가 있었다. Wu et al. (2022)는 분류 성능이 높은 것으로 알려진 U-Net++ 신경망(Zhou et al., 2018)과 같이 다양한 해상도의 정보가 신경망 내에서 서로 융합될 수 있도록 신경망을 제작하였다. 또한, 건물에 비해 절대적으로 양이 많은 배경 정보를 학습하는데 치중되지 않도록 관련 가중치를 부여하는 Topography-Aware Loss (TAL)를 개발하여 건물을 분류하였다. 성능 비교 신경망으로는 Deeplab V3+ (Chen et al., 2018), PSPNet(Zhao et al., 2017), HRNet (Wang et al., 2020)이 활용되었는데, Wu et al. (2022)가 제안한 모델의 f1-score 수치는0.776으로 가장 높은 분류 성능을 가진 것으로 나타났다.

하지만 Wu et al. (2022)의 연구 결과에 의하면, RGB 영상만을 사용하였을 때 대회 수상작들에 비해 여전히 분류 성능이 낮기에, RGB 영상만으로 분류 정확도를 더 향상시킬 수 있다면 앞서 언급한 장점을 얻을 수 있다. 이에, 본 연구진은 SpaceNet의 RGB 영상만을 이용하여 건물의 분류 정확도 향상시키는 방안에 관한 연구를 수행하였다. 건물 자동 분류 방법으로는 일부 구조를 변경한 context-based ResU-Net을 사용하였다. 해당 신경망은 영상의 해상도를 향상시키는 초해상화(super-resolution)를 수행하는 동시에 Sentinel-2 위성 영상을 항공사진으로 변환하기 위한 목적으로 개발되었다. 그러나 일부 구조 변경을 통해 건물 분류 실험을 진행한 결과, 해당 신경망이 높은 분류 성능을 가짐을 확인하였다. 정확도 평가에는 f1-score 지표(Barsi et al., 2018)를 사용하였는데, 이는 SpaceNet 대회가 진행되었을 당시 선택된 유일한 평가 지표로서, 이를 이용하면 과거 우수 성능 모델로 선발된 모델들과 본 연구의 성과간 성능 비교가 가능하기 때문에 선정하였다. 실험 결과, 라스베이거스와 카르툼 지역 학습 데이터에 대해 context-based ResU-Net의 f1-score가 각각 0.894와 0.747로, 과거 발표된 모델들보다 더 나은 분류 성능을 가지는 것으로 나타났다.

2. 방법론

1) Context-based ResU-Net

본 연구진은 10 m, 20 m, 그리고 60 m 해상도로 다중 분광 영상을 제공하는 Sentinel-2 위성 영상을 이용하여 5 m 및 2.5 m 해상도의 항공정사영상을 제작하기 위해 context-based ResU-Net을 개발한바 있다(Yoo et al., 2021). 해당 신경망은 Sentinel-2 위성 영상을 항공정사영상으로 변환될 수 있도록 적절한 픽셀 값을 예측하는 동시에 초해상화도 수행할 수 있도록 구성된 것이다. 적절한 픽셀 값이 예측되기를 기대하며 ResU-Net 구조와 합성곱(convolution)과 깊이별 합성곱(depthwise convolutaion)을 융합하였고, 그 사이 영상 크기를 조절함으로써 초해상화 기능을 구현하였다.

한편, 본 연구에서는 초해상화 기능이 필요하지 않기에, 영상의 크기 조절에 영향을 미치는 마지막 합성곱 층의 스트라이드(stride) 값을 2에서 1로 변경하였다. 또한, 마지막 출력 부분에 위치한 활성화 함수(activation function)도 ReLU에서 Softmax로 변경하였다. 기존 연구에서는 항공정사영상으로 변환하기 위해 신경망이 0에서 255 사이로 픽셀 값을 예측할 수 있도록 제작하기 위해 ReLU를 사용하였지만, 이는 본 연구의 목적인 분류(classification)에 활용하기에는 적절하지 않기 때문이다. Fig. 1은 본 연구를 위해 앞서 언급한 파라미터들을 수정한 context-based ResU-Net의 구조를 나타낸 것이다.

OGCSBN_2022_v38n5_2_685_f0001.png 이미지

Fig. 1. Architecture of context-based ResU-Net.

2) 하이퍼 파라미터 및 학습 기법

학습 진행에 필요한 하이퍼 파라미터인 초기 학습률(initial learning rate)은 5×10–5을, 학습 횟수(epoch)는 60을 사용하였으며, 해당 수치는 본 연구를 위해 수정한 context-based ResU-Net을 학습시킬 때 많은 실험을 통해 도출한 수치이다. 또한, 과적합(overfitting)을 방지하기 위한 목적으로 조기 종료 기능(early stop scheduler)을 적용하였으며, 10회의 학습 횟수 동안 분류 정확도가 더이상 향상되지 않으면 학습이 종료되고, 그 중 정확도가 가장 높은 모델이 최종 모델로 선정된다. 추가적으로 학습률 감쇠(learning rate decay)도 적용하였는데, 이는 학습 횟수가 진행될수록 학습률 수치를 조금씩 줄이는 방법으로 학습 속도를 향상시키고 최적의 학습이 이루어질 수 있도록 도움을 준다(Yoo et al., 2022).

3) 정확도 평가

f1-score는 모델의 정확도 평가에 사용되는 기법 중 하나로(Barsi et al., 2018), 재현율(recall)과 정밀도(precision)의 조화 평균을 의미한다(식(1)). 재현율과 정밀도 중 수치가 더 낮은 인자에 영향을 많이 받도록 제작하기 위해 조화 평균이 채택되었으며, 0에서 1사이의 값을 가지며 1에 가까울수록 성능이 좋다는 의미를 가진다. 재현율은 생산자 정확도(producer’s accuracy)와 같은 의미로 수치가 높을수록 분류 모델이 정확히 예측하였음을 의미하고, 정밀도는 사용자 정확도(user’s accuracy)와 같은 의미로 수치가 높을 수록 예측된 결과가 참값과 같음을 의미한다.

\(\begin{aligned}f1\;-score =2 \times \frac{recall \times precision}{recall + precision}\end{aligned}\)       (1)

Where, \(\begin{aligned}precision = \frac{TP}{TP+FP}, \; recall = \frac{TP}{TP+FN}\end{aligned}\),

TP: True Positive, FP: False Positive, FN: False Negative

3. 실험 데이터

SpaceNet은 IQT Labs’ CosmiQ Works와 Maxar 사에 의해 설립된 기관으로, 지형공간정보를 활용한 기계 학습 연구 사례 증가 및 가속화를 최종 목표로, 다양한 학습 데이터를 제작하여 배포하고 있다(SpaceNet, 2022a). 본 연구에서는 SpaceNet의 건물 탐지 v2 데이터셋을 활용했는데, 미국의 라스베이거스, 중국의 상하이, 프랑스의 파리, 그리고 수단의 카르툼 지역에 대해 WorldView-3 위성영상과 건물 경계 참값(ground truth) 데이터가 제공되고 있다(Van Etten et al., 2018). 또한, 도시별로 학습 데이터(training dataset), 검증 데이터(validation dataset), 그리고 시험 데이터(test dataset)를 60%, 20%, 20%의 비율로 미리 구분하여 제공하고 있으며, 아마존 AWS 서비스를 통해 다운로드 받을 수 있다.

WorldView-3 위성영상의 경우, 1.3 m급 공간해상도를 가진 원본 영상뿐만 아니라, 팬 샤프닝 기법에 따라 30 cm급으로 공간해상도를 향상한 RGB 밴드 영상과 여덟 밴드의 다중 분광 영상이 함께 제공된다. 학습 데이터는 650×650픽셀 크기로 분할되어 제공되며 총 24,586장의 분할 영상에 모두 302,701채의 건물 레이블(label) 정보가 저장되어 있다(Table 1).

Table 1. Area and the number of buildings for each city (Van Etten et al., 2018)

OGCSBN_2022_v38n5_2_685_t0001.png 이미지

본 연구에서는 라스베이거스와 카르툼 지역을 연구 대상지로 선정하였으며, Fig. 2는 라스베이거스 지역에 대한 학습 데이터와 시험 데이터를 예시로 도시한 것이다. 선행 연구 결과에 의하면, 라스베이거스 지역에 대한 분류 정확도가 타 지역에 비해 매우 높아, 개발한 신경망이 이를 능가할 수 있다면 성능을 비교 평가함에 있어 도전적인 실험 지역이기 때문에 선정하였다. 반대로, 카르툼 지역은 타 지역에 비해 분류 정확도가 매우 낮은 지역으로, 분류 난이도가 높기에 이보다 분류 정확도를 더 향상시킬 수 있다면, 개발한 신경망의 우수성을 평가할 수 있기에 선정하였다.

OGCSBN_2022_v38n5_2_685_f0002.png 이미지

Fig. 2. Example of Las Vegas area: (a) Training dataset and (b) test dataset.

SpaceNet 학습 데이터에는 다중 분광 영상도 포함되어 있지만, 본 연구에서는 pan-sharpening 기법에 따라 30 cm로 공간해상도가 향상된 RGB 영상만을 활용하여 연구를 진행하였다. 이는 향후 UAV 혹은 항공기를 통해 촬영된 영상에 대해서도 적용 가능성을 염두에 두고, 별도의 센서를 사용하지 않음에 따른 데이터 취득 비용을 절감할 수 있기 때문이다(Temenos et al., 2021; Temenos et al., 2022). 한편, 검증 데이터는 모델 학습에 있어 과적합을 방지하는데 반드시 필요한 요소인데, 현재 SpaceNet에서는 훈련 데이터와 시험 데이터만 제공하고 있다(SpaceNet, 2022b). 이에, 본 연구에서는 학습 데이터 중 20%를 무작위 선정하여 검증 데이터로 활용하였다. 또한, U-Net 구조 기반의 신경망 특성상, 총 4번의 다운 샘플링과 업 샘플링으로 인해 특징 맵(feature map)의 크기가 지속적으로 변화하는데, 650×650픽셀 크기를 그대로 사용하게 되면 정수로 나눌 수 없는 구간이 발생하여 신경망을 구성할 수 없게 된다. 이에, 본 연구에서는 학습 데이터의 크기를 600×600픽셀로 이중선형 보간(Bilinear interpolation) 기법을 적용하여 사용하였다.

4. 실험 결과

모든 프로그래밍은 Tensorflow 2 딥러닝 프레임워크와 파이썬을 통해 진행되었고, 2개의 NVIDIA GeForce RTX-3090 24GB 그래픽 카드가 병렬로 사용되었으며, 학습 종료 후 시험 데이터를 이용하여 f1-score를 Table 2에 나열하였다. 서론에서 언급한 바와 같이, Table 2에 나열된 신경망 모델 중 XD_XD, Wleite 그리고 Nofto은 SpaceNet 대회에서 수상한 상위 3위 이내의 모델들이고, 기타는 대회 이후 논문으로 발표된 모델들의 결과를 나열한 것이다.

Table 2. f1-score for each model

OGCSBN_2022_v38n5_2_685_t0002.png 이미지

실험 결과, 본 연구진이 제안한 context-based ResU-Net이 라스베이거스 지역에 대해 0.894를 카르툼 지역에 대해 0.747로 선행 연구들의 모델 중 가장 높은 분류 성능을 보였는데, 이는 SpaceNet 대회 당시 1위를 달성한 XD_XD 모델보다도 분류 정확도가 더 높다. 특히, 주목해야할 점은 XD_XD의 경우, 8 채널의 다중 분광 영상과 오픈 스트리트 맵의 다양한 정보를 함께 입력 자료로 사용하여 도출된 결과이지만, 제안한 신경망은 RGB 영상만을 사용했음에도 분류 성능이 더 높았다는 점이다. 기타 RGB만을 사용한 모델들의 성능과 비교해 보아도 월등한 성능 차이를 보였다.

Fig. 3와 Fig. 4는 가장 높은 분류 성능을 보인 context-based ResU-Net 모델을 활용하여 시험 데이터에 대한 건물 추출 결과를 도시한 것이다. Fig. 3를 참조하면, 크기가 작은 건물들이나 복잡한 모양의 아파트도 잘 추출해낸 모습을 확인할 수 있다. 그러나 검정박스로 표시한 사례와 같이 부분적으로 예측에 실패한 사례도 있었다. Fig. 4에서는 면적이 넓은 단독 건물에 대한 추출 결과를 확인할 수 있는데, 해당 건물의 경우에도 부분적으로 예측이 잘 되지 않았다. 또한, 건물의 그림자로 인해 분리된 건물을 하나로 인식하여 추출한 사례도 있음을 확인할 수 있다. 마지막으로 건물 일부가 아닌 전체에 대해 추출에 실패한 건물도 발견하였는데, 해당 또는 특정 건물에 대한 학습이 제대로 이루어지지 않았기 때문인 것으로 판단된다.

OGCSBN_2022_v38n5_2_685_f0003.png 이미지

Fig. 3. Results of extracting buildings with context-based ResU-Net (Case1).

OGCSBN_2022_v38n5_2_685_f0004.png 이미지

Fig. 4. Results of extracting buildings with context-based ResU-Net (Case2).

5. 결론

본 연구에서는 SpaceNet의 건물 v2 학습Ffig 데이터 중 라스베이거스와 카르툼 지역에 대해 팬 샤프닝이 적용된 Worldview-3 위성 영상으로부터 건물을 자동으로 추출하기 위한 연구를 수행하였다. 이를 위해 context-based ResU-Net의 일부 구조와 매개변수를 변경하였으며, 그 결과 context-based ResU-Net을 활용하면 선행 연구들의 모델보다도 더 우수한 분류 성능을 확보할 수 있음을 실험을 통해 확인하였다. 또한, 3개 채널의 영상 정보(RGB)만을 사용하더라도 활용하는 딥러닝 모델에 따라 더 높은 분류 정확도를 확보할 수 있음도 확인하였다. 그러나 분류 정확도는 향상되었지만, 여전히 건물이 부분적으로 추출되는 현상이 발견되었다. 딥러닝 기반의 시맨틱 세그멘테이션 기법이 픽셀 기반의 분류 기법이기 때문인데, 향후 연구에서는 이를 영역 기반으로 추출할 수 있는 방안에 관한 연구가 필요할 것으로 사료된다. 본 연구 성과를 바탕으로 기타 지역에 대해서도 성능 검증 연구를 추진할 계획이며, 향후, Worldview-3 영상을 지속적으로 확보할 수 있다면 전세계 건물 자동추출 모델도 제작할 수 있을 것으로 판단된다.

사사

본 과제는 행정안전부 재난안전 부처협력 기술개발사업의 지원을 받아 수행된 연구임(20009742).

References

  1. Architecture & Urban Research Institute, 2021. Ministry of Land, Infrastructure and Transport Announces Nationwide Survey on the Same Number of Buildings and Total Floor Area Change Compared to the Previous Year, http://www.aurum.re.kr/Research/PostView.aspx?mm=1&ss=1&pid=21930#.YnHQ7uhByUk, Accessed on Sep. 30, 2022.
  2. Barsi, A., Z. Kugler, I. Laszlo, G. Szabo, and H. Abdulmutalib. 2018. Accuracy Dimensions in Remote Sensing, International Archives of the Photogrammetry, Remote Sensing & Spatial Information Sciences, 42(3): 61-67. https://doi.org/10.5194/isprs-archives-XLII-3-61-2018
  3. Chen, L.-C., Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation, Proc. of the European Conference on Computer Vision (ECCV), Munich, Germany, Sep. 8-14, pp. 833-851. https://doi.org/10.1007/978-3-030-01234-2_49
  4. Guo, H., Q. Shi, B. Du, L. Zhang, D. Wang, and H. Ding, 2020. Scene-driven multitask parallel attention network for building extraction in high-resolution remote sensing images, IEEE Transactions on Geoscience and Remote Sensing, 59(5): 4287-4306. https://doi.org/10.1109/TGRS.2020.3014312
  5. Jeong, D. and Y. Kim, 2021. Keypoint-based Deep Learning Approach for Building Footprint Extraction Using Aerial Images, Korean Journal of Remote Sensing, 37(1): 111-122. https://doi.org/10.7780/kjrs.2021.37.1.9
  6. Jung, S., J. Park, W.H. Lee, and Y. Han, 2020. Objectbased building change detection using azimuth and elevation angles of sun and platform in the multi-sensor images, Korean Journal of Remote Sensing, 36(5-2): 989-1006. https://doi.org/10.7780/kjrs.2020.36.5.2.12
  7. Korea Aerospace Research Institute, 2022. Arirang satellite AI training data, https://niasatellitedata.imweb.me/, Accessed on Sep. 30, 2022.
  8. Lafarge, F., X. Descombes, J. Zerubia, and M. PierrotDeseilligny, 2008. Automatic building extraction from DEMs using an object approach and application to the 3D-city modeling, ISPRS Journal of Photogrammetry and Remote Sensing, 63(3): 365-381. https://doi.org/10.1016/j.isprsjprs.2007.09.003
  9. Lindenbaum, D., 2017. 2nd SpaceNet Competition Winners Code Release, https://medium.com/the-downlinq/2nd-spacenet-competition-winnerscode-release-c7473eea7c11, Accessed on Sep. 30, 2022.
  10. Liu, Y., L. Gross, Z. Li, X. Li, X. Fan, and W. Qi, 2019. Automatic building extraction on high-resolution remote sensing imagery using deep convolutional encoder-decoder with spatial pyramid pooling, IEEE Access, 7: 128774-128786. https://doi.org/10.1109/ACCESS.2019.2940527
  11. Liu, Y., J. Zhou, W. Qi, X. Li, L. Gross, Q. Shao, Z. Zhao, L. Ni, X. Fan, and Z. Li, 2020. ARC-Net: An efficient network for building extraction from high-resolution aerial images, IEEE Access, 8: 154997-155010. https://doi.org/10.1109/ACCESS.2020.3015701
  12. National Information Society Agency, 2022. Aihub, https://aihub.or.kr/, Accessed on Sep. 30, 2022.
  13. Rottensteiner, F., G. Sohn, M. Gerke, and J.D. Wegner, 2014. ISPRS semantic labeling contest, ISPRS: Leopoldshohe, Germany, 1: 4.
  14. Shao, Z., P. Tang, Z. Wang, N. Saleem, S. Yam, and C. Sommai, 2020. BRRNet: A fully convolutional neural network for automatic building extraction from high-resolution remote sensing images, Remote Sensing, 12(6): 1050. https://doi.org/10.3390/rs12061050
  15. SpaceNet, 2022a. SpaceNet, https://spacenet.ai/, Accessed on Sep. 30, 2022.
  16. SpaceNet, 2022b. SpaceNet 2: Building Detection v2, https://spacenet.ai/spacenet-buildings-dataset-v2/, Accessed on Sep. 30, 2022.
  17. Temenos, A., E. Protopapadakis, A. Doulamis, and N. Temenos, 2021. Building Extraction from RGB Satellite Images using Deep Learning: A U-Net Approach, Proc. of the 14th PErvasive Technologies Related to Assistive Environments Conference, Corfu, Greece, Jun. 29-Jul. 2, pp. 391-395. https://doi.org/10.1145/3453892.3461320
  18. Temenos, A., N. Temenos, A. Doulamis, and N. Doulamis, 2022. On the Exploration of Automatic Building Extraction from RGB Satellite Images Using Deep Learning Architectures Based on U-Net, Technologies, 10(1): 19. https://doi.org/10.3390/technologies10010019
  19. Tiwari, P.S., H. Pande, and B.N. Nanda, 2006. Building footprint extraction from ikonos imagery based on multi-scale object oriented fuzzy classification for urban disaster management, International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 34: 1-7.
  20. Van Etten, A., D. Lindenbaum, and T.M. Bacastow, 2018. Spacenet: A remote sensing dataset and challenge series, arXiv preprint arXiv:1807.01232. https://doi.org/10.48550/arXiv.1807.01232
  21. Wang, J., K. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D. Liu, Y. Mu, M. Tan, and X. Wang, 2020. Deep high-resolution representation learning for visual recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(10): 3349-3364. https://doi.org/10.1109/TPAMI.2020.2983686
  22. Wu, Y., L. Xu, Y. Chen, A. Wong, and D.A. Clausi, 2022. TAL: Topography-Aware Multi-Resolution Fusion Learning for Enhanced Building Footprint Extraction, IEEE Geoscience and Remote Sensing Letters, 19: 1-5. https://doi.org/10.1109/LGRS.2022.3149709
  23. Xu, S., X. Pan, E. Li, B. Wu, S. Bu, W. Dong, S. Xiang, and X. Zhang, 2018. Automatic building rooftop extraction from aerial images via hierarchical RGB-D priors, IEEE Transactions on Geoscience and Remote Sensing, 56(12): 7369-7387. https://doi.org/10.1109/TGRS.2018.2850972
  24. Yoo, S., J. Lee, J. Bae, H. Jang, and H.-G. Sohn, 2021. Automatic generation of aerial orthoimages using sentinel-2 satellite imagery with a context-based deep learning approach, Applied Sciences, 11(3):1089. https://doi.org/10.3390/app11031089
  25. Yoo, S., J. Lee, M.G. Farkoushi, E. Lee, and H.-G. Sohn, 2022. Automatic generation of land use maps using aerial orthoimages and building floor data with a Conv-Depth Block (CDB) ResU-Net architecture, International Journal of Applied Earth Observation and Geoinformation, 107: 102678. https://doi.org/10.1016/j.jag.2022.102678
  26. Zhao, H., J. Shi, X. Qi, X. Wang, and J. Jia, 2017. Pyramid scene parsing network, Proc. of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, Jul. 21-26, pp. 2881-2890. https://10.1109/CVPR.2017.660
  27. Zhou, Z., M.M. Rahman Siddiquee, N. Tajbakhsh, and J. Liang, 2018. 'Unet++: A nested u-net architecture for medical image segmentation, In: Danail, S. et al. (eds), Deep learning in medical image analysis and multimodal learning for clinical decision support, Springer, Cham, Switzerland, pp. 3-11.