The Performance Improvement of U-Net Model for Landcover Semantic Segmentation through Data Augmentation

Baek, Won-Kyung;Lee, Moung-Jin;Jung, Hyung-Sup;

doi:10.7780/kjrs.2022.38.6.2.8

Korean Journal of Remote Sensing (대한원격탐사학회지)

Volume 38 Issue 6_2
/
Pages.1663-1676
/
2022
/
1225-6161(pISSN)
/
2287-9307(eISSN)

Korean Society of Remote Sensing (대한원격탐사학회)

DOI QR Code

The Performance Improvement of U-Net Model for Landcover Semantic Segmentation through Data Augmentation

데이터 확장을 통한 토지피복분류 U-Net 모델의 성능 개선

Baek, Won-Kyung (Department of Geoinformatics, University of Seoul) ;
Lee, Moung-Jin (Center for Environmental Data Strategy, Korea Environment Institute) ;
Jung, Hyung-Sup (Department of Geoinformatics, University of Seoul)

백원경 (서울시립대학교 공간정보공학과) ;
이명진 (한국환경연구원 환경데이터전략센터) ;
정형섭 (서울시립대학교 공간정보공학과)

Received : 2022.11.30
Accepted : 2022.12.19
Published : 2022.12.31

https://doi.org/10.7780/kjrs.2022.38.6.2.8 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Recently, a number of deep-learning based land cover segmentation studies have been introduced. Some studies denoted that the performance of land cover segmentation deteriorated due to insufficient training data. In this study, we verified the improvement of land cover segmentation performance through data augmentation. U-Net was implemented for the segmentation model. And 2020 satellite-derived landcover dataset was utilized for the study data. The pixel accuracies were 0.905 and 0.923 for U-Net trained by original and augmented data respectively. And the mean F1 scores of those models were 0.720 and 0.775 respectively, indicating the better performance of data augmentation. In addition, F1 scores for building, road, paddy field, upland field, forest, and unclassified area class were 0.770, 0.568, 0.433, 0.455, 0.964, and 0.830 for the U-Net trained by original data. It is verified that data augmentation is effective in that the F1 scores of every class were improved to 0.838, 0.660, 0.791, 0.530, 0.969, and 0.860 respectively. Although, we applied data augmentation without considering class balances, we find that data augmentation can mitigate biased segmentation performance caused by data imbalance problems from the comparisons between the performances of two models. It is expected that this study would help to prove the importance and effectiveness of data augmentation in various image processing fields.

최근 딥러닝을 활용한 토지피복분류 기법 연구가 다수 수행되고 있다. 그런데 양질의 토지피복 학습데이터를 충분하게 구축되지 못하여 성능이 저하되는 양상이 확인되었다. 이에 따라 본 연구에서는 데이터 확장 기법의 적용을 통한 토지피복분류 성능의 향상을 확인하였다. 분류 모델로는 U-Net이 활용되었으며 AI Hub에서 제공하는 토지피복 위성 이미지 자료를 연구자료로 활용하였다. 원본 데이터로 학습한 모델과 데이터 확장 기법이 적용된 데이터로 학습한 모델의 픽셀 정확도는 각각 0.905와 0.923이었으며 평균 F1 스코어는 각각 0.720과 0.775로 데이터 확장 기법을 적용하였을 때가 보다 우수한 성능을 나타내는 사실을 확인할 수 있었다. 또한 원본 학습데이터를 활용하여 학습한 모델의 경우 건물, 도로, 논, 밭, 산림, 비대상 지역 클래스에 대한 F1 스코어가 0.770, 0.568, 0.733, 0.455, 0.964 그리고 0.830이었으며, 데이터 확장을 적용하였을 때에 각 클래스에 대한 F1 스코어는 각각 0.838, 0.660, 0.791, 0.530, 0.969 그리고 0.860으로 모든 클래스에 대해 데이터 확장이 성능향상에 유효하다는 사실을 확인하였다. 또한, 클래스 균형에 대한 고려없이 데이터 확장을 적용했음에도 불구하고 데이터 불균형에 의한 클래스별 성능 왜곡을 완화할 수 있다는 사실을 확인할 수 있었다. 이는 절대적인 학습데이터의 양이 증가했기 때문이라 판단된다. 본 연구 결과는 다양한 영상 처리 분야에서 데이터 확장 기법의 중요성과 효과를 증명하는 기반 자료의 역할을 수행할 것으로 기대한다.

Keywords

1. 서론

토지피복지도는 지구표면의 지형지물을 정해진 기준에 따라서 분류한 주제도를 나타낸다. 우리나라의 경우 환경부에서 2022년 현재 전국을 대상으로 대(7항목)–중(22항목)–세(41항목)분류 항목의 토지피복지도를 제공한다. 토지피복지도는 환경, 농업, 산림 등 우리나라 국토 관리와 관련된 전 분야에서 정책 수립 및 교육을 위한 기초자료로 활용된다. 해당 분야에 대한 정확한 분석을 위해서 토지피복지도의 정확성과 갱신의 적시성이 매우 중요하다. 이에 따라 우리나라 토지피복지도는 1998년부터 현재까지 항공, 위성자료와 구축된 수치 지도, 임상도의 육안판독을 기반으로 하여 지속적으로 갱신되고 있다.

그런데, 이와 같이 육안판독을 기반으로 한 토지피복지도 구축 방법은 작업자의 판단에 영향을 받으며 비효율적이므로 기술적으로 토지피복을 분류하기 위한 연구가 다수 수행되어 왔다(Baek et al., 2017; Vali et al., 2020;Liu et al., 2021; Yuan et al., 2021; Stoian et al., 2019; Lee and Lee, 2020; 2021; Yu et al., 2021). 또한 최근 딥러닝 기법은 새로운 모델 구조의 개발과 컴퓨터의 연산 능력 확대 그리고 빅데이터에 대한 접근성 확대에 따라 계속해서 그 성능이 개선되고 있다(Shorten and Khoshgoftaar, 2019). Zhang et al. (2018)은 고해상 위성영상을 활용하여 서포트벡터머신(support vector machine)과 U-Net 기반의 딥러닝 모델의 토지피복분류 성능을 비교하였으며 테스트 데이터에 대한 픽셀 정확도가 71.4%에서 85.2%만큼 향상되는 사실을 확인하였다.

학습데이터의 양과 클래스별 균형은 딥러닝 모델의 성능을 결정하는 중요한 요소이다. Lee and Lee (2022)는 항공영상 데이터 49,700장과 위성영상 데이터 300장을 활용하여 토지피복분류를 위한 모델의 성능을 각각 비교하였다. 해당 연구에서 활용한 항공영상 데이터와 위성영상 데이터에서 각각 가장 낮은 비율을 차지하는 클래스는 가로수와 밭이었으며, 해당 클래스에 대해 각각 0%와 2.4%의 낮은 분류 성능을 나타냈다. 해당 연구에서는 이러한 성능 저하의 주요 원인은 해당 클래스에 대한 학습데이터의 부족과 불균형에 따른 결과라 분석한 바 있다(Lee and Lee, 2022).

이처럼 학습데이터의 수가 부족한 경우 다양한 사례를 반영할 수 있는 일반화된 딥러닝 모델을 생성하는 데에 어려움이 있다. 이와 같은 문제를 해결하기 위하여 최근 제한된 학습데이터 샘플에 대해 데이터 확장기법이 적용된다(Kim et al., 2018). 이러한 데이터 확장은 보유하고 있는 학습데이터에 대해 인위적인 변화를 적용함으로써 학습모델의 일반성을 확보하는 데에 도움을 주어 과적합을 방지할 수 있으며 최종적인 딥러닝 모델의 성능을 향상할 수 있다.

일반적으로 영상 기반 딥러닝에서 적용되는 데이터 확장기법은 필터링, 기하왜곡, 임의삭제, 색상 왜곡 등이 존재한다(Shorten and Khoshgoftaar, 2019). 필터링은 일반적인 영상 처리 분야에서 널리 사용되는 기술이다. 블러링(blurring) 및 샤프닝(sharpening)을 위한 필터를 입력데이터에 적용함에 따라 입력데이터의 특성에 대한일반성을 증대할 수 있다. 기하왜곡은 다시 영상 반전, 회전, 크롭(cropping), 아핀(affine) 변환 등으로 구분할 수 있으며 학습데이터에 존재하는 위치 편향(positional bias)을 완화하는 데에 효과적인 것으로 알려져 있다. 임의 삭제는 드롭아웃(drop-out)의 접근 방법과 유사하게 영상 데이터를 지역적으로 임의로 삭제함으로써 딥러닝 모델이 학습데이터에 과적합되는 것을 방지한다. 색상에 의한 편향은 영상 인식 분야에서 가장 흔하게 발생하는 문제이다. 특히 광학위성은 촬영 시기에 따라 태양광의 특성과 대기의 특성이 달라지므로 다양한 조건에 의한 색상 변화 양상을 고려할 필요가 있다. 색상의 대비 변화, 화이트 밸런스 변화, 히스토그램 스트래칭(histogram stretching) 등의 방법 등 다양한 방법으로 적용된다(Shorten and Khoshgoftaar, 2019; Wu et al., 2015).

본 연구에서는 이에 따라 데이터 확장기법에 따른 위성영상을 활용한 토지피복분류 성능을 향상 효과를 확인하였다. 성능 비교를 위하여 기존 연구에서 활용한 자료와 동일한 2020 토지피복 위성 AI 데이터를 활용하였다(Ai Hub, 2020), 또한 해당 모델 중 가장 우수한 성능을 나타낸 U-Net 구조에 원 데이터를 활용한 학습 모델과 데이터 확장을 적용한 학습모델의 성능을 비교하였다. 본 연구에서 활용한 데이터 확장방법은 향후 위성영상을 활용하여 우리나라 전체의 토지피복을 분류할 때 분류 정확도 향상에 기여할 수 있을 것이라 기대한다.

2. 연구 자료

Table 1은 본 연구에서 활용한 연구 데이터에 대한 주요 정보를 나타낸다. 본 연구에서는 2020년 Sentinel-2 위성영상을 활용하여 구축된 토지피복 인공지능 학습데이터를 활용하였다(AI Hub, 2020; Lee and Lee, 2021).2020년에 구축된 자료는 총 300쌍의 입력 영상과 라벨 데이터로 구성되어 있다, 입력 영상은 512 × 512의 패치형태로 생성되어 있으며, 각 입력영상 패치는 Blue, Green, Red 그리고 Near infrared (NIR) 밴드를 포함하고 있다. 입력영상의 공간 해상도는 Sentinel-2의 가시광선 및 근적외선(VNIR) 밴드의 해상도를 따라 10 m로 구성되어 있다. 라벨데이터는 건물, 도로, 논, 밭, 산림 그리고 비대상 지역의 클래스를 포함하여 총 6개로 분류되어 있다. 각 클래스를 분류하기 위하여 정해진 최소 면적 기준은 도로, 건물, 논/밭 그리고 산림에 대해 각각 폭 36 m, 면적 10,000 m², 50,000 m², 100,000 m²로 정해져 있다. 이에 따라 잘 훈련된 딥러닝 모델은 라벨 데이터에서 비대상지로 분류되어 있는 영역을 실제 클래스로 탐지할 수 있으며, 이는 최종 분할 성능에 영향을 미칠수 있다. 또한 클래스의 픽셀 비율은 건물, 도로, 논, 밭, 산림 그리고 비대상지에 각각 5.4%, 1.4%, 2.6%, 0.8%, 63.8% 그리고 26.0%로 산림 클래스에 대해 크게 치우쳐 있었다. 이와 같이 불균형한 데이터는 학습한 모델의 성능에 편향을 야기할 수 있다(Baek et al., 2022b; Johnson and Khoshgoftaar, 2019). 보다 자세한 학습데이터에 대한 정보는 Lee and Lee (2021) 및 AI Hub (2020)에서 확인할 수 있다.

Table 1. Principal information of study data

OGCSBN_2022_v38n6_2_1663_t0001.png 이미지

3. 연구 방법

전체적인 연구 절차는 크게 다음의 4단계로 구분할 수 있다(Fig. 1). 1) 학습데이터 샘플링, 2) 학습데이터에 대해 데이터 확장기법 적용, 3) 딥러닝 모델 결정 및 학습, 4) 성능 비교(U-Net). 가장 먼저 랜덤 샘플링을 통하여 학습데이터와 검증 데이터 그리고 시험 데이터로 구분하였다. 이들 데이터는 비교를 위한 모델에 모두 동일하게 적용된다. 학습데이터에 대해 데이터 확장기법을 적용하였으며, 원본 학습데이터만을 활용하여 학습한 딥러닝 모델 그리고 해당 학습데이터에 대해 데이터 확장기법을 적용한 이후 학습한 딥러닝 모델의 성능을 비교하였다. 각 절차에 대한 보다 자세한 설명은 다음과 같다.

OGCSBN_2022_v38n6_2_1663_f0001.png 이미지

Fig. 1. Overall data flow.

1) 데이터 확장 기법(Data Augmentation)

일반적으로 다양한 사례의 학습데이터를 활용하여 딥러닝 모델을 학습한다면 더 우수하고 일반적인 모델을 생성할 수 있는 것으로 알려져 있다(Halevy et al., 2009; Chen et al., 2017). 하지만 실제 상황에 대해 다양한 상황의 데이터를 수집하고 수동으로 라벨링을 하여 충분한 양의 데이터를 구축하는 것은 현실적으로 어려움이 많다(Shorten and Khoshgoftaar, 2019). 이에 따라 본 연구에서는 구축된 학습데이터에 대해 임의의 기하 왜곡(geometric distortion), 색상 왜곡, 임의 회전 그리고 임의 영역 삭제(cut-off)의 데이터 확장 기법을 적용하였다.

Fig. 2는 본 연구에서 데이터 확장기법을 적용한 순서를 나타낸다. 가장 먼저 전체 학습데이터에 대하여 N배 오버샘플링을 수행한다. 오버샘플링이 수행된 자료는 동일한 데이터가 N번 반복된다. N개의 데이터에 대해 서로 다른 각도의 회전변환을 적용한다. 이때 유사한 회전각이 발생하는 것을 방지하기 위하여 각도를 점진적으로 증가하였으며, 특정 편차를 가지는 임의 각도를 함께 입력하였다. 회전이 적용된 학습데이터에 대해 아핀변환을 적용하였다. 아핀 변환은 임의이동, 임의회전, 임의 전단 변형, 임의 스케일 변화를 적용하였으며, 각 변화량의 표준편차를 결정하여 변환량을 결정하였다. 색상 확장은 패치별, 밴드별로 임의의 선형변환 계수를 결정하고 적용하였다. 또한 다시 한번 상하 반전, 좌우 반전, 90도 회전, 180도 회전 그리고 270도 회전을 적용하였다. 마지막으로 패치 내에 임의 크기 및 위치의 직사각형 영역을 결정하고 해당 영역을 삭제하는 임의 삭제를 적용하였다. 이 과정을 통하여 학습모델이 다양한 사례에 대해 정보를 추출할 수 있는 능력을 확보하고 과적합을 방지하도록 하였다.

OGCSBN_2022_v38n6_2_1663_f0002.png 이미지

Fig. 2. Data augmentation procedure adopted in this study.

2) U-Net

데이터 확장기법의 효과를 확인하기 위하여 가장 일반적으로 활용되는 영상 분할 모델인 U-Net 구조를 활용하였다(Ronneberger et al., 2015). U-Net은 입력데이터로부터 정보를 추출하는 인코더(encoder)와 추출된 정보를 활용하여 최종 분할 맵을 생성하는 디코더(decoder)가 대칭하는 형태를 가지는 모델이다. 인코더에서는 합성곱레이어와 활성화 함수를 두 번 적용한 뒤 맥스풀링(maxpooling)을 통하여 특성맵의 크기를 감소하는 과정을 반복한다. 한편 디코더에서는 역시 합성곱레이어와 활성화 함수를 두 번 적용한 뒤 업샙플링을 통하여 크기를 감소하는 과정을 반복한다. 일반적인 U-Net 구조에서는 맥스풀링을 적용할 때마다 필터의 수를 두배로 증가시켜 특성맵의 수를 두 배로 증가시킨다. 반면, 업샘플링을 적용할 때마다 필터의 수를 반으로 줄여 특성맵의 수를 줄인다. 이에 따라 인코더와 디코더는 업샘플링과 맥스풀링을 제외하고 서로 구조적으로 대칭이다. 또한, U-Net의 핵심은 깊은 층에서 생성된 특성맵(feature map)과 상대적으로 얕은 층에서 생성된 특성 맵을 스킵연결(skip connection) 구조로 결합하는 것이다. 일반적인 합성곱신경망 구조에서는 반복되는 합성곱연산에 의하여 입력층에 가까운 정보들은 소실이 된다. 이에 따라 학습을 수행할 때에 출력층에서 멀어질수록 가중치 업데이트를 위한 기울기가 작아져 해당 레이어의 가중치를 적절하게 업데이트하는 것이 어려워진다. 이를 가중치 소실(gradient vanishing)이라 한다. 스킵 연결 구조를 통하여 정보의 소실을 완화함으로써 기울기 소실 역시 방지할 수 있다. 이를 통하여 학습의 효율성을 증대할 수 있다. 또한 깊은 계층에서 획득된 고급 정보와 얕은 계층의 경계 정보를 함께 고려할 수 있다(Ronneberger et al., 2015). 이를 통해 패치가 가지고 있는 문맥 정보를 충분히 추출함과 동시에 원본과 거의 유사한 해상도의 분류 맵을 생성할 수 있다(Baek, 2022; Ronnenberger et al., 2016; Olivia, 2019).

Table 2는 본 연구에서 적용한 U-Net의 구조를 나타낸다. 512 × 512 크기의 4개 채널의 영상이 그대로 입력 데이터로써 사용된다. 하나의 인코딩 블록과 디코딩 블록은 각각 3 × 3 컨볼루션 연산–배치 정규화–활성화 함수–드롭아웃(30%) – 3 × 3 컨볼루션 연산–배치 정규화–활성화 함수로 구성되어 있다. 인코딩 블록이 적용된 이후 2 × 2 맥스풀링 연산이 적용된다. 맥스풀링이 적용될 때마다 특성맵의 크기는 가로와 세로 방향으로 각각 절반으로 줄어든다. 그리고 각 맥스풀링 연산이 적용될 때 마다 필터의 수는 두 배가 되도록 하였다(Baek, 2022; Ronnenberger et al., 2016; Olivia, 2019). 디코딩 블록이 적용되기 전에 인코더의 특성맵에 대한 스킵 연결이 진행되며 업샘플링 과정 역시 함께 적용된다.

Table 2. U-Net structure used in this study

OGCSBN_2022_v38n6_2_1663_t0002.png 이미지

3) 성능 평가 지표

데이터 확장에 의한 성능 향상 효과를 비교하기 위하여 픽셀 정확도(pixel accuracy), 정밀도(precision), 재현율(recall), F1 스코어(F1 score)의 성능평가 지표를 활용하였다(Yu et al., 2021; Baek et al., 2021a; 2021b; Lee et al., 2020). 픽셀 정확도는 영상 내에서 정확하게 분류한 픽셀과 전체 픽셀에 대한 비율을 활용하여 계산한다. 픽셀 정확도는 매우 일반적이고 직관적으로 성능을 평가할 수 있지만 데이터 불균형 사례에서 편향되는 경향이 있다(Baek et al., 2021b). 정밀도, 재현율 그리고 F1 스코어는 이러한 픽셀 정확도의 단점을 보완할 수 있다. 정밀도는 특정 클래스로 분류한 결과 중 실제로 올바르게 분류한 픽셀의 비율을 나타낸다. 특정 클래스를 정확하게 분류한 픽셀의 수를 실제 라벨데이터의 해당 클래스 픽셀 수로 나누어 재현율을 나타낼 수 있다. 그리고 F1 스코어는 정밀도와 재현율의 조화 평균이다. 정밀도, 재현율 및 F1 스코어는 불균형 데이터 세트에 대해서도 정량적인 성능 평가가 가능하며 각 클래스에 대한 성능평가에도 적합하다(Baek et al., 2020). 또한, 모델 자체의 성능을 평가하기 위해 Precision-recall 곡선과 평균 정밀도(Average Precision)를 활용하였다. Precision-recall 곡선은 서로 다른 임계값에 대한 정밀도와 재현율 사이의 관계를 시각적으로 표현할 수 있다(Baek et al., 2021b). 그리고 평균 정밀도는 Precision-recall 곡선 아래의 영역으로, 정밀도와 재현율 사이의 관계를 정량화 할 수 있다. 평균 정밀도는 0에서 1 사이의 값으로 나타나며 평균 정밀도가 1에 가까울수록 더 우수한 분류 성능을 나타낸다고 할 수 있다.

4. 연구 결과

딥러닝 모델의 일반적인 성능을 평가하기 위해서는 학습데이터와 시험데이터의 분할이 중요하다. 또한 모델의 전체적인 성능을 향상시키기 위하여 하이퍼파라미터(hyperparameter) 미세조정 과정을 거치는데, 이 과정에서 시험 데이터를 그대로 활용하면 시험데이터에 대한 과적합을 판단하기가 어렵다. 이를 방지하기 위하여 학습데이터 중 일부를 선정하여 검증 데이터를 생성하였다. 일반적으로 데이터의 수가 많지 않은 경우 학습데이터와 시험데이터는 8:2의 비율로 샘플링 하며, 검증데이터는 학습데이터에 대해 다시 8:2로 분할하여 구축한다. 이에 따라 300쌍의 입력영상과 라벨 데이터에 대하여 서로 중복되지 않게 랜덤샘플링을 통하여 학습데이터 64%(192쌍)와 검증데이터 16%(49쌍) 그리고 시험데이터 20%(59쌍)를 구분하였다. 데이터 확장은 192쌍의 학습데이터에 대해서만 적용하였다. 192장의 영상에 대하여 임의 회전, 기하 왜곡, 임의 회전 및 반전, 색상 왜곡 그리고 임의 영역 삭제를 적용했다. 가장 먼저 19배의 데이터 오버샘플링을 적용했다. 데이터 오버 샘플링이 적용된 데이터에 대하여 –45°에서 5° 간격으로 최대 ±2.5°의 편차를 가지는 임의 각도를 생성하였으며 결정된 각도로 임의 회전을 적용하였다. 19배 확장된 학습데이터에 대하여 아핀 변환을 적용하였다. 이때 전단 변형과 회전각은 각각 3°와 0.3°의 편차를 가지도록 하였다. 또한, 스케일 변화는 최대 ±20%까지, 위치이동은 최대 ±20 픽셀의 편차를 가지도록 설정하였다. 색상 변환은 각 밴드별로 ±5%의 편차로 임의 선형변환을 적용하였으며, 영상 내에서 최소 20 × 30, 최대 40 × 50의 크기를 가지는 직사각형 영역을 임의 삭제하였다. 또한 전체 학습데이터 중 10%에 대해서는 임의 삭제가 적용되지 않도록 하였다. 임의 회전이나 기하왜곡 그리고 임의 삭제에 의하여 원본 영상이 존재하지 않는 영역에 대해서는 비대상 지역으로 간주하였다. Fig. 3은 본 연구에서 활용한 원본 학습데이터(Fig. 3(a1-c1))와 데이터 확장을 통하여 생성된 학습데이터(Fig. 3(a2-c4))를 나타낸다. Fig. 3(a1-a4)와 Fig. 3(b1-b4), 그리고 Fig. 3(c1-c4)는 각각 RGB 영상, Color infrared (CIR) 영상 그리고 라벨 데이터를 나타낸다. 이들 데이터는 모두 임의의 데이터 확장 기법을 통하여 산출되었다. Fig. 3(a2-c2)는 학습데이터에 대해 임의 반전이 적용된 예시이며, Fig. 3(a3-c3)은 약 90°의 회전과 임의 삭제가 적용된 자료이다. 그리고 Fig. 4(a4-c4)는 약 180°의 회전이 적용된 자료이다. 영상의 회전 및 위치 변환을 통하여 특정 위치에 대한 과적합 발생을 방지할 수 있으며 색상 변환을 통하여 색상에 대한 과적합을 방지할 수 있다. 동일한 학습데이터를 활용하여 생성한 데이터임에도 불구하고 데이터 변환을 통하여 입력데이터의 색상이 변화된 것을 확인할 수 있었다. 데이터 변환을 통하여 다양한 속성을 가진 학습데이터를 재생산하였으나 데이터확장을 통하여 생성된 학습데이터는 여전히 검증데이터와 시험데이터에 대해 독립적이며, 확장된 학습데이터로 학습한 모델과 원본 학습데이터로 학습한 모델의 성능을 비교함으로써 데이터 확장 기법의 성능 개선 영향을 평가할 수 있다.

OGCSBN_2022_v38n6_2_1663_f0003.png 이미지

Fig. 3. The examples of training data: original (a1-c1) and augmented training data (a2-a4, b1-b4, c1-c4), (a1-a4) RGB image, (b1-b4) color infrared image, and (c1-c4) label data.

Table 3은 딥러닝 모델의 학습을 위하여 활용한 주요 하이퍼파라미터를 나타낸다. 두 모델에 대해 커널(kernel) 초기화, 손실함수, 최적화 함수, 미니 배치 크기, 에포크(epoch) 그리고 학습률까지 모두 동일하게 적용되었다. 활용한 딥러닝 모델이 모두 rectified linear unit(ReLU)을 활용하였으므로 커널 초기화를 위하여 He Normal을 활용하였다. 손실함수로는 일반적으로 U-Net을 활용한 영상 분할 모델에서 적용되는 교차 엔트로피를 활용하였다. 최적화 함수는 경험적으로 가장 우수한 성능을 나타낸 Adam 함수를 활용하였다(Choi et al.,2019; Joo et al., 2020). 미니 배치 크기와 에포크 수는 각각 10 그리고 800회를 적용하였다. 학습률은 다수의 적용에 따라 원본 학습데이터로 학습한 경우 0.0001을 적용하였다. 800회의 학습 이후 검증데이터에 대한 두 모델의 픽셀 정확도는 각각 0.905 그리고 0.923으로 소수점 아래 세 번째 자리에서 수렴하였다. 비교를 위한 최종 딥러닝 모델은 전체 에포크의 검증 데이터에 대한 픽셀 정확도가 가장 높은 모델을 각각 선정하였다.

Table 3. The principal hyperparameters of U-Net trained by original and augmented data

OGCSBN_2022_v38n6_2_1663_t0003.png 이미지

Fig. 4는 시험데이터에 대한 분류 결과를 나타난다. Fig. 4의 a1-d1과 a2-d2는 각각 시험 데이터의 RGB 및 CIR 영상의 예시를 나타내며 Fig. 4(a3-d3)은 해당 데이터에 대한 라벨 데이터를 나타낸다. 그리고 Fig. 4의 a4-d4와 a5-d5는 각각 원본 데이터를 활용하여 학습한 U-Net 모델과 데이터 확장을 적용한 U-Net 모델을 활용한 토지피복 예측 결과를 나타낸다. 동일한 구조의 모델을 활용했음에도 불구하고 활용한 학습데이터에 따라 세부적인 분류 결과의 정확도가 데이터 확장기법의 적용 유무에 따라 크게 달라지는 사실을 확인할 수 있었다. Fig. 4(a, d)의 하얀색 박스는 실제로 도로가 존재하는 지역이지만 도로 어노테이션(annotation) 기준에 부합하지 않는 지역으로 어노테이션이 되지 않은 도로 영역에 대해서 데이터 확장을 적용했을 때 더 잘 구분하는 것을 확인할 수 있었다. 또한 해당 영역에서 비대상지역에 대해서도 데이터 확장을 적용하였을 때 보다 명확하게 분류하는 것을 확인할 수 있었다. Fig. 4(b-c)는 6개의 클래스가 모두 확인되는 자료이다. Fig. 4(b-c)의 하얀색 실선박스에서 데이터 확장을 적용했을 때 선형적이거나 각진 패턴의 토지피복이 잘 분류되는 것을 확인할 수 있었다. 또한 Fig. 4(b)의 우측 상단에서 논 지역에 대해서 데이터 확장을 적용하였을 때 라벨데이터의 형태를 잘 복원하는 사실을 확인할 수 있었다. 이와 유사하게 Fig.4(c)의 하얀색 큰 하얀색 실선 박스에서 선형적인 형태를 나타내는 도로 지역에 대해 데이터 확장을 적용한 모델이 보다 명확하게 분류하는 양상을 확인할 수 있었다.여기서 데이터 확장을 적용한 모델이 토지피복을 분류할 때에 경계 부에서 명확하게 분류할 수 있다는 사실을 확인할 수 있었다. 또한 Fig. 4(b-c)의 하얀색 점선 박스는 밭 지역을 표현한 것으로 데이터 확장을 적용했을 때에 밭 지역의 탐지할 수 있었다. 이를 바탕으로 데이터 확장을 적용한 모델이 경계 부를 명확하게 구분하는 것뿐만 아니라 활용한 패치 내의 문맥 정보를 정확하게 파악할 수 있다는 사실을 확인할 수 있었다.

OGCSBN_2022_v38n6_2_1663_f0004.png 이미지

Fig. 4. Predicted landcover maps: (a1-d1) RGB maps, (a2-d2) CIR maps, (a3-d3) label data, (a4-d4) predicted landcover maps using U-Net, and (a5-d5) predicted landcover maps using U-Net trained by augmented data.

Table 4는 토지피복분류를 위한 두 딥러닝 모델의 픽셀 정확도, 정밀도, 재현율, F1 스코어 등 정량적인 성능을 나타낸다. 두 모델의 픽셀 정확도는 각각 0.905와0.923으로 데이터 확장을 적용하였을 때에 약 0.018 높은 성능을 나타냈다. 원본 학습데이터를 활용하여 학습한 모델의 경우 건물, 도로, 논, 밭, 산림, 비대상 지역 클래스에 대한 F1 스코어가 0.770, 0.568, 0.733, 0.455, 0.964 그리고 0.830으로 확인되었다. 한편, 데이터 확장을 적용하였을 때에 각 클래스에 대한 F1 스코어는 각각 0.838, 0.660, 0.791, 0.530, 0.969 그리고 0.860으로 확인되어 모든 클래스에 대해 데이터 확장을 적용하였을 때 보다 우수한 분류 성능을 확인할 수 있었다. 특히, 본 연구에서 활용한 학습데이터는 각 클래스에 대한 불균형이 매우 심한 데이터로, 가장 비율이 적은 밭 지역과 산림지역에 대한 분류 성능의 편향이 클 것으로 예상되었다. 원본 학습데이터를 그대로 활용하였을 때 밭과 산림의 F1 스코어 차이는 0.509였으며, 데이터 확장을 적용하였을 때에는 그 차이가 0.439로 확인되었다. 본 연구에서는 각 클래스별 비율을 고려하지 않고 데이터 확장을 적용했음에도 불구하고 데이터 확장을 적용하였을 때 데이터 불균형에 의한 클래스별 분류 성능 편향이 완화되는 양상을 확인할 수 있었다. 이러한 사실을 바탕으로 볼 때에 토지피복분류에 대해서도 데이터 확장은 성능 향상에 유효한 접근 방법이라 판단된다(Shi et al., 2022; Nazi and Abir, 2018; Jin et al., 2020).

Table 4. Performance evaluation indices of the U-Net models trained by original and augmented data

OGCSBN_2022_v38n6_2_1663_t0004.png 이미지

Fig. 5(a, b)는 시험 데이터에 대한 두 딥러닝 모델의 Precision-recall 곡선과 평균 정밀도를 나타낸다. 높은 평균 정밀도를 나타낼수록 해당 클래스에 대한 이분화 성능이 우수하다는 사실을 나타낸다. 또한 Fig. 5(c)는 각 클래스의 픽셀 비율에 따른 AP 성능 분포를 나타낸다. 두 모델에 대한 mean average precision (mAP)은 각각 0.970과 0.974로 거의 유사한 수준을 나타냈다. 하지만 산림을 제외한 모든 클래스에 대하여 평균 정밀도가 약 0.02–0.09만큼 우수한 성능을 나타내는 것을 확인할 수 있었다. 보다 자세하게 건물, 도로, 논, 밭, 산림 그리고 비대상지역에 대한 클래스별 평균 정밀도 차이가 0.018, 0.091, 0.042, 0.087, 0.001 그리고 0.019로 픽셀 비율이 가장 낮은 밭과 도로 클래스에 대하여 가장 성능 향상의 폭이 컸다. 이는 데이터 확장을 통하여 픽셀 비율이 낮은 클래스의 학습데이터 양이 증가되었기 때문이다. 반면 픽셀 비율이 많은 산림 클래스의 경우 이미 다양한 사례를 포함하고 있으므로 그 향상 수준이 미미한 것으로 보인다. 이에 따라 데이터 확장기법을 적용하면 토지피복분류를 위한 딥러닝 모델의 데이터 불균형 문제를 완화할 수 있다는 사실을 확인할 수 있다. 또한 데이터 확장을 통하여 성능이 개선되었음에도 불구하고 각 클래스에 대한 학습데이터의 수가 클래스별 분류 성능에 주요한 영향을 미쳤다. 이에 따라 클래스 균형을 고려한 데이터 확장에 대한 추가적인 연구가 필요할 것으로 보인다.

OGCSBN_2022_v38n6_2_1663_f0005.png 이미지

Fig. 5. Precision-recall curves of U-net models trained by original (a) and augmented (b) data, (c) AP of two models according to the pixelwise class proportion.

5. 결론

최근 딥러닝을 활용하여 항공 및 위성영상으로부터 토지피복분류를 하기 위한 연구가 다수 수행되고 있다. 그런데 딥러닝 모델이 일반적인 성능을 도출하기 위한 양질의 토지피복 학습데이터를 충분하게 구축하는 것은 시간과 노동 비용 소모가 크며, 부족한 학습데이터에 따라 성능이 저하되는 양상이 확인되었다. 최근 데이터 확장 기법의 적용을 통하여 영상 분할 모델의 성능 향상 연구가 진행된 바 있으며 토지피복지도 분류에 대해서도 데이터 확장기법이 잘 적용된다면 보다 효율적으로 토지피복지도를 생산할 수 있다.

본 연구에서는 데이터 확장기법의 적용을 통한 토지피복분류 성능의 향상을 확인하였다. 토지피복분류 성능에 대한 데이터 확장 기법의 효과를 확인하기 위하여 기존에 토지피복분류에 가장 우수한 성능을 낸 것으로 확인된 U-Net 모델을 활용하였다. U-Net 구조에 대하여 원본 학습데이터로 학습한 모델과 동일한 원본 데이터에 대해 데이터 확장기법을 적용한 학습데이터를 활용하여 학습한 모델의 성능을 비교하였다. 육안 분석에 따라 데이터 확장 기법을 적용한 모델이 경계부의 탐지 성능이나 문맥정보를 도출하는 데에 보다 우수한 성능을 가지고 있다는 사실을 확인할 수 있었다. 또한 정량적으로 두 모델의 픽셀 정확도는 각각 0.905와 0.923이었으며 평균 F1 스코어는 각각 0.720과 0.775로 데이터 확장기법을 적용하였을 때가 보다 우수한 성능을 나타내는 사실을 확인할 수 있었다. 보다 자세하게 각 클래스별 성능을 비교하였을 때에 원본 학습데이터를 활용하여 학습한 모델의 경우 건물, 도로, 논, 밭, 산림, 비대상지역 클래스에 대한 F1 스코어가 0.770, 0.568, 0.733, 0.455, 0.964 그리고 0.830으로 확인되었다. 한편, 데이터 확장을 적용하였을 때에 각 클래스에 대한 F1 스코어는 각각 0.838, 0.660, 0.791, 0.530, 0.969 그리고 0.860으로 확인되어 모든 클래스에 대해 데이터 확장을 적용하였을 때 보다 우수한 분류 성능을 확인할 수 있었다. 또한, 데이터 불균형에 대한 추가적인 고려없이 데이터 확장기법을 적용하였음에도 불구하고 두 모델의 건물, 도로, 논, 밭, 산림 그리고 비대상지역에 대한 클래스별 평균 정밀도 차이가 0.018, 0.091, 0.042, 0.087, 0.001 그리고 0.019로 픽셀 비율이 가장 낮은 밭과 도로 클래스에 대하여 가장 성능 향상의 폭이 컸다. 이에 따라 데이터 확장을 적용하였을 때에 데이터 불균형에 의한 클래스별 성능 왜곡을 완화할 수 있다는 사실을 확인할 수 있었다. 아직까지 추가적인 연구가 필요하지만 이는 데이터 확장을 통하여 픽셀 비율이 낮은 클래스에 대한 학습데이터의 절대적인 양이 증가했기 때문이라 판단된다. 반면 픽셀 비율이 많은 산림 클래스의 경우 밭이나 도로 클래스보다 다양한 사례를 반영하고 있으므로 그 향상 수준이 미미한 것으로 보인다. 그럼에도 불구하고 일반적으로 데이터 불균형이 클래스별 분류 성능에 가장 큰 영향을 미친다. 따라서 추후 데이터 불균형을 고려하여 데이터 확장을 적용하였을 때 도로나 밭 클래스에 대한 추가적인 성능향상이 기대된다. 본 연구에서 확인한 데이터 확장기법의 토지피복분류 성능 향상 효과는 단순히 토지피복분류 연구에서 적용될 뿐만 아니라 다양한 영상 처리 분야에서 데이터 확장 기법의 중요성과 효과를 증명하는 기반 자료의 역할을 수행할 것으로 기대한다.

사사

본 연구는 대한민국 정부의 재원으로 민군협력진흥원에서 수행하는 민군겸용기술개발사업(과제명: SAR 영상기반 정밀 지상기준점 생성 시스템 개발 사업(’22–’26))의 연구비 지원으로 수행되었습니다(No. 22-CM-EO-02). 또한, 행정안전부 자연재난 정책연계형 기술개발사업(2020-MOIS35-001)의 지원을 받아 한국환경연구원이 수행한 (2022-02(R)) 사업의 연구결과로 작성되었으며, 본 연구에 활용한 자료는 과학기술정보통신부의 재원으로 한국지능정보사회진흥원의 지원을 받아 구축된 토지피복지도 항공위성 이미지입니다. 해당 데이터는 AI 허브(aihub.or.kr)에서 다운로드 받으실 수 있습니다.

References

AI Hub, 2020. 2020 Satellite-derived landcover dataset, https://www.aihub.or.kr/aihubdata/data/list.do?pageIndex=1&currMenu=115&topMenu=100&dataSetSn=&srchdataClCode=DATACL001&srchOrder=&SrchdataClCode=DATACL002&searchKeyword=%ED%86%A0%EC%A7%80%ED%94%BC%EB%B3%B5, Accessed on Nov. 30, 2022.
Baek, W.-K. and H.-S. Jung, 2021a. Performance comparison of oil spill and ship classification from x-band dual-and single-polarized SAR image using support vector machine, random forest, and deep neural network, Remote Sensing, 13(16): 3203. https://doi.org/10.3390/rs13163203
Baek, W.-K., 2022, Phase Unwrapping Using Modified U-Net Regression Model: Focusing on Network Structure and Training Data Optimization, University of Seoul, Seoul, Korea (in Korean with English abstract).
Baek, W.-K., H.-S. Jung, and D. Kim, 2020. Oil spill detection of Kerch strait in November 2007 from dual-polarized TerraSAR-X image using artificial and convolutional neural network regression models, Journal of Coastal Research, 102(SI): 137-144. https://doi.org/10.2112/SI102-017.1
Baek, W.-K., S.-H. Park, N.-K. Jeong, S. Kwon, W.-J. Jin, and H.-S. Jung, 2017. A study for the techniques and applications of NIR remote sensing based on statical analyses of NIR-related papers, Korean Journal of Remote Sensing, 33(5-3): 889-900 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2017.33.5.3.11
Baek, W.-K., Y.-S. Lee, S.-H. Park, and H.-S. Jung, 2021b. Classification of Natural and Artificial Forests from KOMPSAT-3/3A/5 Images Using Deep Neural Network, Korean Journal of Remote Sensing, 37(6-3): 1965-1974 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2021.37.6.3.5
Chen, S., S. Abhinav, S. Saurabh, and G. Abhinav, 2017. Revisting unreasonable effectiveness of data in deep learning era, Proc. of the IEEE International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 22-29, pp. 843-852. https://doi.org/10.48550/arXiv.1707.02968
Choi, D., C.J. Shallue, Z. Nado, J. Lee, C.J. Maddison, and G.E. Dahl, 2019. On empirical comparisons of optimizers for deep learning, arXiv preprint arXiv:1910.05446. https://doi.org/10.48550/arXiv.1910.05446
Halevy, A., P. Norvig, and F. Pereira, 2009. The unreasonable effectiveness of data, IEEE Intelligent Systems, 24: 8-12. https://doi.org/10.1109/MIS.2009.36
Jin, Y.W., S. Jia, A.B. Ashraf, and P. Hu, 2020. Integrative data augmentation with U-Net segmentation masks improves detection of lymph node metastases in breast cancer patients, Cancers, 12(10): 2934. https://doi.org/10.3390/cancers12102934
Johnson, J.M. and T.M. Khoshgoftaar, 2019. Survey on deep learning with class imbalance, Journal of Big Data, 6(1): 1-54. https://doi.org/10.1186/s40537-019-0192-5
Joo, G., C. Park, and H. Im, 2020. Performance evaluation of machine learning optimizers, Institute of Korean Electrical and Electronics Engineers, 24(3): 766-776. https://doi.org/10.7471/ikeee.2020.24.3.766
Kim, M.J., S.M. Lee, J.C. Park, H.W. Lee, C.M. Kwon, and I.Y. Won, 2018. A Poisonous Plants Classification System Using Data Augmentation And Transfer Learning, Proc. of the Korea Information Processing Society Conference, Busan, Korea, Nov. 2-3, pp. 660-663.
Lee, S., W.-K. Baek, H.-S. Jung, and S. Lee, 2020. Susceptibility Mapping on Urban Landslides Using Deep Learning Approaches in Mt. Umyeon, Applied Sciences, 10(22): 8189. https://doi.org/10.3390/app10228189
Lee, S.H. and M.J. Lee, 2020. A study on deep learning optimization by land cover classification item using satellite imagery, Korean Journal of Remote Sensing, 36(6-2): 1591-1604 (in Korean with English abstract). https://dx.doi.org/10.7780/kjrs.2020.36.6.2.9
Lee, S.H. and M.J. Lee, 2021. A Study of Establishment and application Algorithm of Artificial Intelligence Training Data on Land use/cover Using Aerial Photograph and Satellite Images, Korean Journal of Remote Sensing, 37(5-1): 871-884 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2021.37.5.1.4
Lee, S.H. and M.J. Lee, 2022. Comparisons of Multi Resolution Based AI Training Data and Algorithms Using Remote Sensing Focus on Landcover, Frontiers in Remote Sensing, 8: 832753. https://doi.org/10.3389/frsen.2022.832753
Liu, M., B. Fu, S. Xie, H. He, F. Lan, Y. Li, P. Lou, and D. Fan, 2021. Comparison of multi-source satellite images for classifying marsh vegetation using DeepLabV3 Plus deep learning algorithm, Ecological Indicators, 125: 107562. https://doi.org/10.1016/j.ecolind.2021.107562
Nazi, Z.A. and T. A. Abir, 2020. Automatic skin lesion segmentation and melanoma detection: Transfer learning approach with u-net and dcnn-svm, Proc. of International Joint Conference on Computational Intelligence. Budapest, Hungary, Nov. 2-4, pp. 371-381.
Oliveira, G.L., 2019. Encoder-decoder Methods for Semantic Segmentation: Efficiency and Robustness Aspects, Albert-Ludwigs-Universitat Freiburg, Freiburg, Germany.
Ronneberger, O., P. Fischer, and T. Brox, 2015. U-net: Convolutional networks for biomedical image segmentation, Proc. of 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, Oct. 5-9, pp. 234-241.
Shi, P., M. Duan, L. Yang, W. Feng, L. Ding, and L. Jiang, 2022. An improved U-net image segmentation method and its application for metallic grain size statistics, Materials, 15(13): 4417. https://doi.org/10.3390/ma15134417
Shorten, C. and T.M. Khoshgoftaar, 2019. A survey on image data augmentation for deep learning, Journal of Big Data, 6(1): 1-48. https://doi.org/10.1186/s40537-019-0197-0
Stoian, A., V. Poulain, J. Inglada, V. Poughon, and D. Derksen, 2019. Land cover maps production with high resolution satellite image time series and convolutional neural networks: Adaptations and limits for operational systems, Remote Sensing, 11(17): 1986. https://doi.org/10.3390/rs11171986
Vali, A., S. Comai, and M. Matteucci, 2020. Deep learning for land use and land cover classification based on hyperspectral and multispectral earth observation data: A review, Remote Sensing, 12(15): 2495. https://doi.org/10.3390/rs12152495
Wu, R., S. Yan, Y. Shan, Q. Dang, and G. Sun, 2015. Deep image: Scaling up image recognition, arXiv preprint arXiv:1501.02876. https://doi.org/10.48550/arXiv.1501.02876
Yu, J.-W., Y.-W. Yoon, W.-K. Baek, and H.S. Jung, 2021. Forest Vertical Structure Mapping Using Two-Seasonal Optic Images and LiDAR DSM Acquired from UAV Platform through Random Forest, XGBoost, and Support Vector Machine Approaches, Remote Sensing, 13(21): 4282. https://doi.org/10.3390/rs13214282
Yuan, K., X. Zhuang, G. Schaefer, J. Feng, L. Guan, and H. Fang, 2021. Deep-Learning-Based Multispectral Satellite Image Segmentation for Water Body Detection, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 14: 7422-7434. https://doi.org/10.1109/JSTARS.2021.3098678
Zhang, P., Y. Ke, Z. Zhang, M. Wang, P. Li, and S. Zhang, 2018. Urban land use and land cover classification using novel deep learning models based on high spatial resolution satellite imagery, Sensors, 18(11): 3717. https://doi.org/10.3390/s18113717

Korean Journal of Remote Sensing (대한원격탐사학회지)

The Performance Improvement of U-Net Model for Landcover Semantic Segmentation through Data Augmentation

데이터 확장을 통한 토지피복분류 U-Net 모델의 성능 개선

Abstract

Keywords

1. 서론

2. 연구 자료

3. 연구 방법

1) 데이터 확장 기법(Data Augmentation)

2) U-Net

3) 성능 평가 지표

4. 연구 결과

5. 결론

사사

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)