DOI QR코드

DOI QR Code

Performance Evaluation of Machine Learning Algorithms for Cloud Removal of Optical Imagery: A Case Study in Cropland

광학 영상의 구름 제거를 위한 기계학습 알고리즘의 예측 성능 평가: 농경지 사례 연구

  • Soyeon Park (Department of Geoinformatic Engineering, Inha University) ;
  • Geun-Ho Kwak (Korea Ocean Satellite Center, Korea Institute of Ocean Science and Technology) ;
  • Ho-Yong Ahn (Climate Change Assessment Division, National Institute of Agricultural Sciences, Rural Development Administration) ;
  • No-Wook Park (Department of Geoinformatic Engineering, Inha University)
  • 박소연 (인하대학교 공간정보공학과) ;
  • 곽근호 (한국해양과학기술원 해양위성센터) ;
  • 안호용 (농촌진흥청 국립농업과학원 기후변화평가과) ;
  • 박노욱 (인하대학교 공간정보공학과)
  • Received : 2023.08.31
  • Accepted : 2023.10.06
  • Published : 2023.10.31

Abstract

Multi-temporal optical images have been utilized for time-series monitoring of croplands. However, the presence of clouds imposes limitations on image availability, often requiring a cloud removal procedure. This study assesses the applicability of various machine learning algorithms for effective cloud removal in optical imagery. We conducted comparative experiments by focusing on two key variables that significantly influence the predictive performance of machine learning algorithms: (1) land-cover types of training data and (2) temporal variability of land-cover types. Three machine learning algorithms, including Gaussian process regression (GPR), support vector machine (SVM), and random forest (RF), were employed for the experiments using simulated cloudy images in paddy fields of Gunsan. GPR and SVM exhibited superior prediction accuracy when the training data had the same land-cover types as the cloud region, and GPR showed the best stability with respect to sampling fluctuations. In addition, RF was the least affected by the land-cover types and temporal variations of training data. These results indicate that GPR is recommended when the land-cover type and spectral characteristics of the training data are the same as those of the cloud region. On the other hand, RF should be applied when it is difficult to obtain training data with the same land-cover types as the cloud region. Therefore, the land-cover types in cloud areas should be taken into account for extracting informative training data along with selecting the optimal machine learning algorithm.

Keywords

1. 서론

농작물은 기후, 토지 상태, 주변 환경 등 자연조건에 의해 매년 생산량 변화가 발생하기 때문에 농경지 재배면적 및 생산량 파악은 곡물 수급을 위해 매우 중요하다(Na et al., 2021). 특히 우리나라 주식인 쌀은 자급률이 매우 높아 매년 과잉 문제를 겪고 있는데, 이를 조절하기 위해 지속적인 작황 모니터링이 필요하다(Shin et al., 2021). 작황정보 구축과 관련해서 광학 위성영상은 벼를 대규모로 재배하는 농경지를 모니터링하기에 시간과 비용 측면에서 효율적이고, 작물의 시기별 생장 상태 등에 대한 정보를 제공할 수 있다. 그러나 우리나라에서 벼의 생장이 증가하고 정점에 다다르는 여름철과 가을철에는 장마와 태풍으로 인해 광학 위성영상에 구름이 포함된 시기가 많아 시계열 정보의 획득이 쉽지 않다. 따라서 광학 위성영상의 가용성을 높이기 위해 구름 결측 지역을 복원하는 구름 제거(cloud removal) 기술이 유용하게 적용될 수 있다.

이 연구에서는 구름 제거를 구름이 존재하는 영역의 반사율 값을 예측하여 구름이 포함된 영상을 구름이 없는 영상으로 복원하는 과정으로 정의한다. 광학 위성영상의 구름 제거는 구름이 아닌 영역에서의 정보를 이용하여 구름 영역의 값을 예측하기 때문에 부가 자료와 관계성을 정량화할 수 있는 회귀 모형이 주로 적용되어 왔다(Chen et al., 2016; Xu et al., 2014). 회귀 기반 구름 제거는 동일한 지역에서 다른 시기에 획득된 영상을 부가자료로 사용하여 두 영상의 구름이 아닌 영역에서 모델을 학습시킨 후 구름 영역을 예측하는 방식이다(Park and Park, 2022). 회귀 기반 구름 제거는 부가자료가 획득된 시기인 참조 시기(reference date)와 예측 시기(prediction date) 사이의 시간에 따른 관계성을 모델링할 수 있어 구름 제거에 효과적이며 구름의 크기나 위치 등에 제약을 받지 않는 장점이 있다(Kwak et al., 2022). 특히 비선형 회귀는 입력자료 사이에서 복잡한 시공간 변화가 존재하거나 넓은 규모에 다양한 토지피복을 갖는 지역에 유용하다(McRoberts et al., 2013). 따라서 시군 단위의 넓은 지역이나 대규모 농경지를 대상으로 구름 제거를 수행할 경우 시공간적 변화 정보를 반영할 수 있는 비선형 회귀의 적용이 적합하다.

구름 제거를 위한 서로 다른 시기에 획득된 영상들의 비선형 관계성의 정량화에는 기계학습 알고리즘이 효과적으로 적용될 수 있다(Liu et al., 2018). 기계학습 알고리즘은 주어진 데이터로부터 특징을 추출하거나 비선형관계를 학습하여 새로운 데이터에 대한 예측 성능을 향상시킬 수 있다(Verrelst et al., 2012b). 이러한 장점으로 최근까지 구름 제거 및 결측 지역을 복원하는 gapfilling 분야에서 다양한 기계학습 알고리즘이 적용되어 왔다. Hu et al. (2014)은 support vector machine (SVM)을 적용하여 다중 위성영상 간 구름 영역 중첩 및 복사 차이에 따른 문제를 효과적으로 해결함으로써 구름 제거를 수행하였다. Pipia et al. (2021)은 Sentinel-2 영상의 엽면적 지수 추정을 위한 구름 제거에 Gaussian process regression (GPR)를 적용하였다. 또한 Wang et al. (2022)은 random forest (RF)를 기반으로 공간 및 분광 정보를 이용하여 구름 제거를 수행하였는데, 특히 구름 크기와 영상 시기 차이에 따른 영향을 분석하였다.

그동안 기계학습 알고리즘이 구름 제거에 효과적으로 적용될 수 있음을 확인한 연구들이 많이 수행되었지만, 기계학습 알고리즘을 적용하는 데 있어 가장 중요한 요소 중 하나인 훈련자료의 특성과 품질에 따라 예측 성능과 결과가 달라질 수 있다(Cracknell and Reading, 2014). 특히 다양한 토지피복이 포함되는 위성영상에서 관심 대상의 예측에 유용한 훈련자료 선택이 필수적이다. 그러나 훈련자료 추출과 관련하여 구름 영역이 아닌 훈련 자료와 구름 영역인 검증자료의 토지피복 구성에 따른 영향을 분석한 사례나 기계학습 알고리즘을 이용한 구름 제거에 유용한 훈련자료 추출의 기준 제공과 관련된 연구는 없는 상황이다.

이 연구에서는 광학 위성영상을 이용한 구름 제거에서 기계학습 알고리즘의 예측 성능에 영향을 미치는 요인들 중 훈련자료 추출에 따른 영향을 정량적으로 분석하였다. 훈련자료 추출은 토지피복 구성과 시기에 따른 분광학적 변화에 따라 경우를 나누었고, 기계학습 알고리즘으로는 GPR, SVM 및 RF를 적용하였다. 훈련자료의 영향에 대한 강인함(robustness), 예측 정확도(accuracy) 그리고 모델 안정성(stability)의 세 가지 기준으로 기계학습 알고리즘의 예측 성능을 평가하였다. 이러한 평가를 위해 농경지 모니터링을 목적으로 구름이 없는 영상에 구름 마스크를 추가하여 제작한 모의 Sentinel-2 영상을 사용하는 구름 제거 사례 연구를 수행하였다.

2. 연구자료 및 방법

2.1. 연구 지역 및 사용 자료

구름 제거 사례연구를 수행할 대상 지역으로 전라북도 군산시 일부에 위치한 벼 재배지를 선정하였다(Fig. 1). 벼는 주로 5월부터 이앙을 시작하여 7~8월에 생장이 정점에 다다르고 9월 말과 10월 초에 수확된다. 군산시의 벼 재배지는 여름 장마철에 벼의 식생 활력이 가장 높기 때문에 광학 영상을 이용한 생육 모니터링을 위해 구름제거 기법이 유용하게 적용될 수 있는 지역이다. 연구 지역에는 논이 약 42%의 비율을 차지하며, 그 외 내륙수, 산림, 초지, 시가지 등 다양한 토지피복을 포함한다.

OGCSBN_2023_v39n5_1_507_f0001.png 이미지

Fig. 1. Location of the study area with a land-cover map.

연구 지역의 시공간적 규모를 고려하여 공간해상도 10 m/20 m를 갖고 5일 주기로 획득되어 다중 시기 영상구축이 용이한 Sentinel-2 영상을 사용하였다(Table 1). 실험에 사용한 Sentinel-2 영상은 지표면 반사율로 제공되는 Level-2A 자료의 green, red, red-edge, near-infrared(NIR) 밴드 4개를 포함한다. 공간해상도 20 m의 red-edge 밴드는 bilinear resampling 방법으로 10 m로 변환한 후 사용하였다. 또한 Sentinel-2 영상의 공간적 범위는 1,000×1,000 화소이며 구름이 없는 4개 시기에 획득한 영상을 실험에 사용하였다.

Table 1. Summary of Sentinel-2 images used in this study

OGCSBN_2023_v39n5_1_507_t0001.png 이미지

4개의 영상 중에서 벼의 생장이 가장 활발한 2021년 8월 15일에 획득한 영상을 예측 시기 영상으로, 다른 시기에 획득한 3개 영상을 참조 시기 영상으로 사용하였다(Fig. 2). 참조 시기 영상과 예측 시기 영상의 식생지수(normalized difference vegetation index, NDVI)를 계산하여 상관성을 살펴본 결과, 개별 참조 시기 영상은 논 재배지에서 각기 다른 분광학적 특성이 나타났다. 2020년 8월 25일은 예측 시기와 약 1년의 시기 차이가 나지만 예측 시기와의 식생지수 상관성이 0.9로 높아 벼의 생장상태가 가장 유사하다. 2021년 5월 12일과 2021년 10월 24일은 같은 연도의 2~3개월의 시기 차이가 나지만, 예측 시기와의 식생지수 상관성은 0.6과 0.5로 각각 벼 이앙 시기 전과 수확 후 시기로써 논에서 시계열 변화가 두드러진다. 이렇게 서로 다른 시기에 획득된 영상을 사용하여 훈련자료의 시간적 변동성에 따른 영향을 살펴보고자 하였다.

OGCSBN_2023_v39n5_1_507_f0002.png 이미지

Fig. 2. True color time-series Sentinel-2 images and a simulated cloud mask in the study area.

구름이 실제 존재하는 Sentinel-2 영상을 사용하면 구름 영역에 대한 참값을 얻을 수 없기 때문에 구름 영역을 복원한 후 기계학습 알고리즘에 대한 예측 성능 평가가 불가능하다(Kwak et al., 2022). 이 연구의 목적은 기계학습 알고리즘의 예측 성능 평가이기 때문에 구름이 없는 Sentinel-2 영상에 임의의 구름 마스크를 합성한 모의 구름 영상을 예측 시기의 영상으로 사용하였다. 여기서 구름 마스크의 화소 수는 전체 영상의 약 10 %이며, 농경지에서의 예측 성능을 비교하기 위해 주로 논에 배치하였다. 또한 이 연구에서 적용한 모의 구름은 예측 시기 영상의 구름 영역에서 지표면에 대한 정보 획득이 불가능한 두꺼운 구름이 분포하는 경우로 간주하였다.

2.2. 방법론

회귀기반 구름 제거를 위한 회귀 모형으로는 기존 구름 제거 및 gap-filling 연구에서 적용된 GPR과 대표적인 기계학습 알고리즘인 SVM과 RF를 선정하였다.

이 연구에서는 기계학습 알고리즘을 이용한 구름 제거의 입력으로 모의 구름이 존재하는 예측 시기 영상과 구름이 없는 참조 시기 영상을 사용한다(Fig. 3). 합성 구름 마스크 내부를 구름 영역으로 정의하고 구름 마스크 외부인 구름이 아닌 영역에서 두 시기 영상으로부터 훈련자료를 추출한다. 이 때 훈련자료를 구름 영역의 토지피복과 동일하거나 서로 다른 토지피복으로 다양하게 구성하여 실험에 적용하였다. 추출된 훈련자료를 이용하여 세 기계학습 알고리즘을 통해 모델을 학습한 후, 참조 시기의 구름 영역에 포함되는 화소들을 새로운 변수로 입력하여 예측 시기의 구름 영역에 포함되는 반사율 값을 예측한다. 최종 구름 결측 지역이 복원된 영상은 예측한 구름 영역과 예측 시기의 구름이 아닌 영역을 합성하여 생성한다. 이후 실제 예측 시기의 구름 영역에 포함된 반사율 값을 참값으로 간주하여 예측된 구름 영역의 반사율 값과의 정량적인 정확도 검증을 수행한다.

OGCSBN_2023_v39n5_1_507_f0003.png 이미지

Fig. 3. Schematic diagram for the cloud removal experiment using machine learning algorithms.

2.2.1. Gaussian Process Regression

Gaussian process (GP)는 다변량 정규 분포를 따르는 유한 확률변수의 집합을 일반화한 개념으로 함수들의 확률 분포를 모델링한다(Rasmussen and Williams, 2006). GP는 주어진 훈련자료 D={x,y}에 대하여 관측된 데이터 x로 사전(prior) 분포를 정의하고, 베이즈 정리를 기반으로 우도(likelihood) 함수를 통해 사후(posterior) 분포를 추정한다.

\(\begin{aligned}P(f \mid D)=\frac{P(f) P(D \mid f)}{P(D)}\end{aligned}\)       (1)

P(f) = f(x) ~ 𝒢𝒫(m, k)       (2)

y = f(x) + ε, ε ~ N(0, σ2n)       (3)

여기서 f는 확률변수로 간주하는 모델링 대상인 함수를, ε은 가우시안 노이즈를 나타낸다.

GP는 f에 대한 분포를 나타내며, 평균 함수 m과 공분산 함수 k로 정의된다(식 2). GP를 정의하는데 필요한 공분산 함수로는 radial basis function (RBF) 커널이 일반적으로 많이 적용된다. 사전 분포에서 평균 함수는 0으로 가정하고, k는 확률변수 사이의 유사성을 측정하는 커널 함수에 의해 결정된다. k 값이 클수록 두 확률변수 사이의 상관성이 더 크다는 것을 의미한다. GP의 하이퍼파라미터(hyper-parameter)는 노이즈의 분산인 σ2n과 k의 커널 함수의 파라미터인 두 가지 거리 스케일(length scale)이 있다(Rasmussen and Williams, 2006). 하이퍼파라미터에 대해 초기값을 지정해주면 GP는 모델 훈련 과정에서 marginal log-likelihood를 최대화하도록 자체 최적화를 수행하여 하이퍼파라미터 값을 업데이트한다. GPR에서는 최종 조정된 하이퍼파라미터를 기반으로 우도 함수를 계산함으로써 사후 분포를 구하고, 이로부터 새로운 입력에 대한 예측 값의 해석해를 계산한다.

2.2.2. Support Vector Machine

SVM은 결정 경계에 가장 가까이 위치한 훈련자료인 서포트 벡터(support vector)와 결정 경계까지의 거리인 마진(margin)이 최대가 되는 초평면(hyperplane)을 찾는 모델로 보통 분류에 주로 적용되어 왔다(Smola and Schölkopf, 2004; Kim et al., 2018). 비선형 관계에 있는 훈련자료를 다루기 위해 SVM은 커널 트릭(kernel trick)을 이용한다. 커널 트릭을 이용하여 훈련자료의 차원을 다차원 공간으로 투영하여 고차원으로 변환하는 효과를 부여함으로써 비선형 관계의 훈련자료들을 선형으로 표현한다.

SVM 기반 회귀분석에서도 분류와 마찬가지로 모델에서 허용되는 마진의 개념을 도입하여 마진을 최대화하는 초평면을 찾아 관계성을 모델링한다. SVM의 하이퍼파라미터는 규제 매개변수(C)와 커널 폭의 역수로 계산되는 gamma가 있다. C는 훈련자료의 과적합을 방지하기 위해 오차의 여지를 남기도록 규제하는 파라미터이다. C 값이 클수록 결정 경계가 비선형에 가깝게 되며 gamma 값이 클수록 커널 폭이 좁아지면서 보다 복잡한 모델을 생성한다. 이 연구에서는 SVM의 C와 gamma는 0.001부터 100까지 범위로 설정하여 grid search 방식을 통해 최적의 파라미터를 선택하였으며, GPR과 동일하게 RBF 커널을 사용하였다.

2.2.3. Random Forest

RF는 다중 의사결정 나무로 구성된 앙상블 모델로 다수의 나무들을 랜덤하게 구성하고 훈련자료를 여러번 복원 추출하여 다양한 샘플 데이터를 만든 후 모델을 학습한다(Breiman, 2001). 각 의사결정 나무에서 가지를 분할하는 기준은 훈련자료의 불순도가 최소화되도록 하며 회귀에서 불순도는 평균 제곱근 오차 혹은 평균 절대 오차를 이용하여 모델 분산을 계산한다. RF를 이용한 회귀는 학습된 다수의 나무들로부터 예측된 결과를 평균하여 최종 예측 값을 산출한다. 단일 의사결정 나무는 훈련자료 변화에 따라 예측 성능에 영향을 미치므로 모델 강인성이 저하될 수 있다. 이러한 한계를 극복하기 위해 RF의 앙상블 기법은 다양한 특징을 추출할 수 있어 훈련자료의 과적합 문제를 해결할 수 있고 단일 의사결정 나무보다 높은 예측성능을 보이는 것으로 알려져 있다(Amirruddin et al., 2020). RF를 적용할 때 정의해야 하는 하이퍼파라미터는 의사결정 나무 개수와 최대 깊이 등이 있다. 이 연구에서는 의사결정 나무 개수는 50에서 500까지, 의사결정 나무의 최대 깊이는 10에서 80까지 설정하여 grid search 방식을 통해 최적의 값을 결정하였다.

2.3. 실험 설계 및 평가

이 연구에서는 농경지에서의 광학 영상의 구름 제거를 목적으로 기계학습 알고리즘의 예측 결과에 영향을 미칠 수 있는 훈련자료의 토지피복 유형과 토지피복의 시간적 변동성을 고려한 비교 실험을 수행하였다. Sentinel-2 영상의 4개 밴드마다 구름 제거 실험을 적용하여 각 밴드별 결과를 비교 분석하였다.

이 실험에서는 작물 모니터링을 목적으로 구름 제거를 수행하기 때문에 이 연구의 주요 목표는 논 재배지에서 구름에 의한 결측 지역을 복원하는 것이다. 이 때, 두 가지 가정에 따라 구름에 가려진 논 재배지의 화소를 복원하는 것을 고려하였다(Table 2). 두 가지 가정은 (1) 논에 구름이 일부만 존재하여 논에서 훈련자료를 추출할 수 있는 경우와 (2) 논에 구름이 모두 존재하여 논에서 훈련자료를 추출할 수 없는 경우로 구분하였다. 이 연구에서 정의한 두 가정을 모두 고려하여 세 가지 실험 경우를 구성하였다: (1) 구름을 제외한 논에서만 훈련자료 추출, (2) 구름을 제외한 모든 토지피복에서 훈련자료 추출 그리고 (3) 논이 아닌 토지피복에서만 훈련자료 추출. 즉 예측하고자 하는 대상인 검증자료의 토지피복은 논으로 고정하였고, 훈련자료의 토지피복은 논이거나 논을 포함한 다른 토지피복이거나 논을 제외한 다른 토지피복인 경우를 고려하였다.

Table 2. Experimental cases of training data extraction

OGCSBN_2023_v39n5_1_507_t0002.png 이미지

훈련자료와 검증자료의 토지피복이 모두 논이더라도 시기에 따라 논에서의 분광학적 특성이 달라질 수 있다. 예를 들어, 벼 이앙시기 전인 2021년 5월의 경우 논이 정리되어 있지 않아 일부 초지가 존재하거나 흙이 드러난 상태로 광학 영상에서 짙은 자갈색과 녹색이 혼합되어 나타난다(Fig. 2). 반면 벼의 생장이 정점을 이르는 시기인 2020년과 2021년 8월에는 밝은 녹색을, 벼 수확시기 이후인 2021년 10월에 논은 나지 상태로 밝은 황갈색을 나타낸다. 이를 고려하여 참조 시기와 예측 시기의 차이에 따른 분광학적 변화를 갖는 훈련자료와 검증자료를 이용할 경우에 기계학습 알고리즘의 성능을 살펴보았다.

위에서 언급한 구름 제거 실험에서 훈련자료는 각 경우별로 총 100개 화소를 추출하였으며, 검증자료로는 예측 시기의 구름 마스크 영역에 해당되는 논 지역의 화소들을 추출하였다. 대부분의 기계학습 알고리즘은 훈련자료 개수가 많을수록 예측 성능이 증가하기 때문에 훈련자료 영향에 따른 성능 비교를 위해서 훈련자료 수를 적게 설정하였다.

기계학습 알고리즘의 성능 평가에는 모델 안정성, 예측 정확도 및 강인성을 고려하였다. 먼저 모델 최적화 및 하이퍼파라미터 결정이 훈련자료의 임의 추출에 달라질 수 있기 때문에 각 알고리즘마다 총 100번의 반복 예측을 수행하였다. 100개의 예측 결과를 종합하여 임의로 추출되는 훈련자료에 따른 모델 안정성을 비교하였다.

예측 정확도의 경우, 모의 구름 영상을 이용한 예측 결과에 대한 정량적인 평가를 위해 예측 시기의 구름 영역에 해당되는 화소들을 참값으로 간주하여 평균 제곱근 오차(root mean square error, RMSE)를 계산하였다. 이 때, 각 분광 밴드들은 반사율 범위가 다르기 때문에 밴드별로 상대적인 오차(relative RMSE, rRMSE)를 추가로 계산하였다.

\(\begin{aligned}R M S E=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(y_{i}-y_{i}^{\prime}\right)^{2}}\end{aligned}\)       (4)

\(\begin{aligned}r R M S E=\frac{R M S E}{\mu}\end{aligned}\)       (5)

여기서 n은 구름 영역에 포함된 화소 개수를 의미하고 y와 y′는 각각 참값과 예측값을 나타낸다. 그리고 μ는 참값의 평균을 의미한다. RMSE와 rRMSE는 모두 0에 가까울수록 예측 오차가 낮음을 의미한다.

비교를 목적으로 100번의 예측 결과 중 예측 성능이 가장 뛰어난 알고리즘의 횟수를 계산하여 비교하였다. 또한 훈련자료 추출에 따른 모델 강인성을 평가하기 위해 100번 반복 수행된 예측 결과의 rRMSE에 대한 분포를 비교하였다. 이를 위해 히스토그램에 비해 실제 분포와 경향성을 파악하기 용이하다고 알려진 커널 밀도추정(kernel density estimator) 기반 곡선을 사용하였다.

3. 연구결과 및 토의

3.1. 훈련자료 분포 분석

기계학습 알고리즘을 이용한 구름 제거 실험에서 훈련자료의 영향을 분석하기 위해 우선 훈련자료와 검증자료의 반사율 분포를 비교하였다. Table 2의 세 가지 경우에 대한 red와 NIR 밴드의 훈련자료와 검증자료 분포를 대표적으로 살펴보았다(Fig. 4). Fig. 4에서 X와 Y는 각각 참조 시기와 예측 시기에 구름이 아닌 영역의 반사율 값을, X′와 Y′는 각각 참조 시기와 예측 시기에 구름 영역의 반사율 값을 나타내기 때문에 X와 Y는 훈련자료이고 Y′는 검증자료를 의미한다. 따라서 예측 시기의 값인 Y와 Y′는 밴드별로 시기마다 동일한 분포를 나타낸다.

OGCSBN_2023_v39n5_1_507_f0004.png 이미지

Fig. 4. Comparison of training and test data distributions for three cases at three reference dates: (a-c) distributions of red band and (d-f) distributions of NIR band. The numbers after X and Y represent three experimental cases.

먼저 예측 시기와 가장 유사한 토지피복 상태를 보였던 2020년 8월의 경우, red 밴드에서는 X와 Y가 서로 매우 유사한 반사율 범위를 갖고 있다(Fig. 4a). 이는 참조시기와 예측 시기의 반사율 패턴이 모든 토지피복에서 서로 유사함을 나타낸다. NIR 밴드에서도 중앙값의 차이가 약 0.1 미만으로 낮게 나타나 시기에 따른 반사율 차이가 크지 않음을 의미한다. 반면 2021년 5월과 10월은 예측 시기인 8월과의 반사율 패턴이 다르기 때문에 참조 시기와 예측 시기의 반사율 분포가 상이하게 나타난다. 5월의 NIR 밴드의 경우 수분함량이 높은 논 필지와 일부 초지가 존재하는 필지의 영향으로 검증자료와 Case 1의 훈련자료에서 반사율 범위가 넓게 나타난다(Fig. 4e). 10월은 논 필지가 나지가 되어 상대적으로 NIR 밴드에 비해 red 밴드에서 밝게 나타나는 영향으로 반사율 범위가 넓고 값은 높게 나타난다(Fig. 4c, f)). 공통적으로 Case 1에서는 유사한 생장 상태를 보이는 논에서 추출되었기 때문에 훈련자료와 검증자료의 분포가 거의 동일함을 알 수 있다. Case 2와 Case 3은 훈련자료에 논이 일부 포함되거나 포함되지 않기 때문에 논에 위치한 구름 영역의 검증자료와 다른 양상을 보인다. 다양한 토지피복이 포함되기 때문에 5월의 NIR 밴드를 제외하고 대부분 검증자료에 비해 훈련자료의 반사율 분포가 더 넓게 나타난다. 이렇게 시기와 경우에 따라 훈련자료와 검증자료의 분포가 매우 상이할 수 있기 때문에 훈련자료의 영향이 예측 성능에 영향을 미칠 것으로 예상된다.

3.2. 훈련자료 영향에 따른 비교 분석

세 기계학습 알고리즘의 반복 수행에서 모델의 예측 안정성과 훈련자료에 따른 강인성을 평가하기 위해 100번 예측된 결과에 대한 rRMSE의 밀도 곡선 그래프를 작성하였다. Fig. 5는 2020년 8월을 참조 시기로 사용하였을 때 밴드와 경우별 구름 제거 결과의 rRMSE 값 분포를 나타낸다. 세 알고리즘의 예측 결과는 대부분 양으로 뒤틀린 분포(positively skewed distribution)을 보였다. 전반적으로 GPR은 rRMSE가 가장 낮은 범위로 분포하고 있는 반면, SVM은 GPR과 유사하거나 혹은 rRMSE가 더 높거나 일부 오차가 매우 큰 부분이 존재하여 긴 꼬리가 존재한다. RF는 rRMSE가 전반적으로 넓게 분포하고 긴 꼬리를 갖는 형태를 보이면서 예측 오차가 가장 크게 나타났다. 그러나 Case 3의 NIR 밴드에서는 상대적으로 GPR과 SVM의 예측 오차가 증가하여 RF의 예측 정확도가 가장 좋게 나타났다. Case 3에서의 RF가 우수한 예측 성능을 보이는 양상은 다른 시기에서도 나타났다(Fig. 6).

OGCSBN_2023_v39n5_1_507_f0005.png 이미지

Fig. 5. Comparison of 100 rRMSE values of three machine learning algorithms for three spectral bands (row) per each experimental case (column) in August.

OGCSBN_2023_v39n5_1_507_f0006.png 이미지

Fig. 6. Comparison of 100 rRMSE values in NIR band of three machine learning algorithms for three reference dates (row) per each experimental case (column).

Fig. 6은 세 개의 참조 시기에 획득된 영상을 사용하여 각 경우별 구름 제거 결과의 NIR 밴드에서 rRMSE 값 분포를 나타낸다. 세 기계학습 알고리즘 모두 참조시기가 달라짐에 따라 rRMSE의 범위가 유지되면서 훈련자료에서 시간에 따른 변화에는 강인함을 보였다. 특히 RF는 2020년 8월뿐만 아니라 2021년 5월에서도 Case 1에 비해 Case 2와 Case 3에서 rRMSE가 작은 범위로 유지되는 양상을 보여 훈련자료의 토지피복 다양성에 대한 강인성을 보였다. GPR은 SVM와 RF에 비해 각 경우별로 예측 오차 분포가 유지되면서 안정적인 예측 결과를 생성하였다. SVM은 Case 1과 Case 3을 비교했을 때, 상대적으로 GPR에 비해 rRMSE 값 범위가 커지는 양상을 보여 훈련자료의 영향을 더 많이 받는 것으로 나타났다. 이를 종합하면 훈련자료의 특성이 변함에 따라 rRMSE 분포의 형태가 유지되는 알고리즘은 GPR이고 rRMSE의 값 범위가 유지되는 알고리즘은 RF이다. 이는 GPR이 100번의 반복 수행 동안 안정적인 예측 결과를 생성하였고, RF는 다양한 토지피복을 갖는 훈련자료의 영향에 강인하다는 것을 의미한다. 따라서 논 재배지에 구름이 존재하여 논에서 훈련자료를 획득하는데 제약이 큰 경우에는 RF를, 논이 나지가 되어 다른 토지피복과의 분광학적 차이가 두드러지지 않는 10월이나 논에서 훈련자료를 추출할 수 있는 경우에는 GPR을 적용할 필요가 있음을 지시한다.

참조시기가 2020년 8월인 Case 1의 예측 결과를 시각적으로 살펴보면(Fig. 7), 세 알고리즘 모두 NIR 밴드에서의 반사율 값을 낮게 예측하여 참값에 비해 어둡게 나타나고 있다. GPR과 SVM은 A 지역에서 구름 내부에 포함된 필지의 형태와 전반적인 반사율 패턴을 잘 반영하고 있다. 반면 RF는 잡음 효과가 일부 나타나고 필지 경계가 명확하지 않게 예측이 되었는데 이러한 현상은 이전 연구 결과에서도 나타났던 양상이다(Park and Park, 2022). 세부적으로 구름 경계에 위치한 B 지역을 보면 세 알고리즘 모두 예측된 구름 영역과 참값인 구름이 아닌 영역 사이의 반사율 차이로 인해 불연속이 나타나고 있다. 또한 B 지역의 우하단에서 SVM은 붉은색을 보여야 하는 부분이 노란색을 띄면서 잘못 예측된 양상을 보였다. 또한 세 알고리즘 모두 구름 영역에서 세부적인 반사율의 변동성은 반영하지 못한 것으로 나타났다.

OGCSBN_2023_v39n5_1_507_f0007.png 이미지

Fig. 7. Visual comparison of three prediction results with true images in two subareas (A and B) for three machine learning algorithms (NIR-red-green bands as R-G-B).

100번의 예측 결과 중 가장 우수한 예측 성능을 보인 알고리즘의 횟수를 비교하면(Fig. 8), 대부분의 경우에서 GPR이 가장 높은 예측 성능을 보였으나 Case 1에서 Case 3으로 갈수록 예측 성능이 가장 높았던 횟수가 줄어들었다. SVM은 훈련자료에 일부 논과 다른 토지피복이 포함된 Case 2에서, RF는 훈련자료에 논이 포함되어 있지 않은 Case 3에서의 예측 성능이 가장 우수한 경우가 많았다(Fig. 8a). SVM과 GPR은 상대적으로 2020년 8월과 2021년 5월에 비해 2021년 10월에 예측 정확도가 낮아진 반면, RF는 변함없는 양상을 보여 훈련자료의 시기 차이의 영향에 SVM와 GPR에 비해 더 강인함을 보였다(Fig. 8b). 또한 GPR은 4개의 분광 밴드에 대한 예측에서 뛰어난 예측 성능을 보였으며 NIR 밴드에서 SVM은 낮은 예측 성능을, RF는 높은 예측 성능을 보였다(Fig. 8c).

OGCSBN_2023_v39n5_1_507_f0008.png 이미지

Fig. 8. The proportion of best prediction results for three machine learning algorithms: (a) comparison for three cases, (b) comparison for three reference dates, and (c) comparison for four spectral bands.

3.3. 기계학습 알고리즘 평가

방법론적 측면에서 GPR은 예측에 대한 불확실성 정보 제공이 가능하며 파라미터를 자체적으로 추정하여 모델 최적화가 용이하다는 장점이 있다(Schulz et al., 2018). 또한 훈련자료 수가 적을 때 혹은 낮은 차원의 데이터를 사용할 때 유용하다고 알려져 있다(Verrelst et al., 2012a). 이 연구의 구름 제거 실험에서는 연구 지역의 전체 화소 개수의 0.01%만큼 훈련자료를 추출하였으며 이는 훈련자료 개수가 매우 적은 경우에 해당한다. 이 실험에서는 GPR이 세 알고리즘 중 가장 처리시간이 빨랐으나, 추가로 훈련자료 수를 증가시켰을 경우 함수 추정을 위한 계산량의 증가로 RF와 SVM에 비해 처리시간이 큰 폭으로 증가하였다. 그러나 GPR은 적은 수의 훈련자료로도 데이터 간 유사도를 통해 함수 분포를 추정할 수 있으며, 이를 통해 높은 예측 정확도를 갖는 결과를 생성할 수 있어 부가자료 획득이 제한된 구름 제거에 매우 유용할 것으로 생각된다.

SVM은 고차원 상의 특징을 추출하거나 비선형 관계에 있는 데이터를 다루는 경우 유용하게 적용하는 것으로 알려져 있다(Tuia et al., 2011). 이 연구에서는 GPR보다는 떨어지지만 RF보다 높은 예측 정확도를 보였다. 그러나 SVM은 모델 훈련 시 파라미터의 영향이 크기 때문에 모델 최적화 및 구축이 어렵고 상대적으로 처리 시간도 오래 걸리는 단점이 있다(Karamizadeh et al., 2014). 특히 이 연구에서 다양한 토지피복을 갖는 훈련자료를 추출할 경우 SVM은 훈련자료 영향에 대한 강인성이 가장 낮게 나타났다. 따라서 장기간 작물 모니터링을 위해 주기적으로 구름 제거가 적용되어야 하는 경우에는 다른 두 모델에 비해 적용성이 낮을 수 있다.

RF는 상대적으로 적용이 간편하고 대체로 예측 성능이 우수한 대표적인 기계학습 알고리즘 중 하나이다. 모델 훈련 시 파라미터 조정이 용이하고 처리시간이 짧으며 훈련자료에 대한 과적합을 방지할 수 있다는 장점이 있다(Lingjun et al., 2018). 그러나 임의로 추출된 많은 수의 트리들로 구성되어 다양한 특징 정보를 추출할 수 있는 만큼 이 연구에서는 다른 알고리즘에 비해 무작위성(randomness)에 취약한 것으로 나타났다. 즉 여러 번의 반복 예측마다 서로 다른 예측 성능을 보이며 가장 낮은 모델 안정성을 나타냈고, green, red, red-edge 밴드에서 예측 정확도 또한 가장 낮았다. 이는 적은 수의 훈련자료 영향으로 판단되는데, 그럼에도 불구하고 RF는 서로 다른 토지피복을 갖는 훈련자료와 검증자료를 사용할 때 뛰어난 예측 성능을 보였다. 훈련자료의 토지 피복 다양성에 대한 영향에 가장 강인하였으며 충분한 훈련자료로부터 다양한 특징 정보가 요구되는 경우에는 RF가 효과적으로 적용될 수 있을 것이라 생각된다.

결론적으로 농경지의 특성을 고려할 때 시기마다 달라지는 훈련자료의 특성에 강인하여 모델 훈련 및 최적화가 용이하고 적은 수의 훈련자료로도 충분히 높은 예측 성능을 보일 수 있는 GPR이 예측 모델로 가장 적합한 것으로 판단된다(Table 3). 그러나 세 기계학습 알고리즘은 각각의 장단점이 뚜렷하기 때문에 각 장점을 부각시킬 수 있는 경우에 대해 적용하거나, 단점을 보완하는 추가적인 처리 과정이 필요하다. 또한 이 연구에서 적용한 다중 시기 영상 간의 시간적 관계성을 기반으로 한 구름 제거 방법은 참조 시기에서 구름 영역과 동일한 토지피복의 반사율 값을 이용할 수 있기 때문에 농경지와 같이 상대적으로 토지피복이 단순한 지역에서는 효과적으로 적용될 수 있다. 그러나 세 알고리즘을 이용하여 추정된 시간적인 관계성으로는 구름 영역의 세부적인 공간 특징을 완전히 반영할 수 없기 때문에 실제 영상과 유사한 구름 제거를 위해 구름 영역에 대한 초기 예측 결과를 보정하는 후처리 과정이 필요할 것으로 판단된다.

Table 3. Summary of the characteristics of three machine learning algorithms through comparison of three performance evaluation criteria

OGCSBN_2023_v39n5_1_507_t0003.png 이미지

4. 결론

이 연구에서는 광학 영상의 구름 제거를 위해 세 가지 기계학습 알고리즘의 예측 성능을 비교하였다. 이를 위해 토지피복을 고려한 훈련자료 추출의 영향과 시기에 따른 변동성에 따른 영향을 종합적으로 분석하였다. 우리나라 대표적인 벼 재배지인 전라북도 군산시 일부 농경지를 대상으로 모의 영상을 이용하여 구름 제거 실험을 수행한 결과, GPR이 가장 높은 예측 정확도와 훈련자료의 임의 추출에 가장 높은 모델 안정성을 보였다. SVM은 GPR과 유사한 예측 정확도를 보였지만 NIR 밴드에서 훈련자료 토지피복 유형이 달라짐에 따라 낮은 예측 정확도를 보였다. 반면 훈련자료의 토지피복 유형과 시기에 따른 변동성의 영향에 가장 강인함을 보인 기계학습 알고리즘은 RF로 나타났다. 따라서 논 재배지의 모니터링을 목적으로 논에서 소수의 훈련자료를 추출할 수 있다면 구름 제거에서 높은 예측 성능을 보인 GPR을 적용하는 것이 적합하다. 반면 논에 모두 구름이 존재하여 논에서 훈련자료를 추출할 수 없는 경우에는 RF를 적용할 수 있다. 그러나 세 알고리즘은 정량적인 평가에서는 뛰어난 예측 성능을 보였지만, 정성적인 평가에서는 구름 영역의 세부적인 패턴을 반영하지 못하는 한계점을 보였다. 향후 이러한 한계점을 보완하기 위해 초기 구름 제거 결과에 대하여 구름 영역의 예측 오차를 감소시키고 구름 경계 부근의 불연속 현상을 완화시킬 수 있는 절차를 추가할 예정이다. 

사사

이 논문은 농촌진흥청 공동연구사업(과제번호: PJ01478703)의 지원을 받았으며, 이에 감사드립니다. 논문 수정에 도움을 주신 익명의 심사자분들께도 감사드립니다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. Amirruddin, A. D., Muharam, F. M., Ismail, M. H., Ismail, M. F., Tan, N. P., and Karam, D. S., 2020. Hyperspectral remote sensing for assessment of chlorophyll sufficiency levels in mature oil palm (Elaeis guineensis) based on frond numbers: Analysis of decision tree and random forest. Computers and Electronics in Agriculture, 169, 105221. https://doi.org/10.1016/j.compag.2020.105221 
  2. Breiman, L., 2001. Random forests. Machine Learning, 45, 5-32. https://doi.org/10.1023/A:1010933404324 
  3. Chen, B., Huang, B., Chen, L., and Xu, B., 2016. Spatially and temporally weighted regression: A novel method to produce continuous cloud-free Landsat imagery. IEEE Transactions on Geoscience and Remote Sensing, 55(1), 27-37. https://doi.org/10.1109/TGRS.2016.2580576 
  4. Cracknell, M. J., and Reading, A. M., 2014. Geological mapping using remote sensing data: A comparison of five machine learning algorithms, their response to variations in the spatial distribution of training data and the use of explicit spatial information. Computers & Geosciences, 63, 22-33. https://doi.org/10.1016/j.cageo.2013.10.008 
  5. Hu, G., Sun, X., Liang, D., and Sun, Y., 2014. Cloud removal of remote sensing image based on multioutput support vector regression. Journal of Systems Engineering and Electronics, 25(6), 1082-1088. https://doi.org/10.1109/JSEE.2014.00124 
  6. Karamizadeh, S., Abdullah, S. M., Halimi, M., Shayan, J., and Rajabi, M. J., 2014. Advantage and drawback of support vector machine functionality. In Proceedings of the 2014 International Conference on Computer, Communications, and Control Technology (I4CT), Langkawi, Malaysia, Sept. 2-4, pp. 63-65. https://doi.org/10.1109/I4CT.2014.6914146 
  7. Kim, Y., Kwak, G.-H., Lee, K. D., Na, S. I., Park, C. W., and Park, N.-W., 2018. Performance evaluation of machine learning and deep learning algorithms in crop classification: Impact of hyper-parameters and training sample size. Korean Journal of Remote Sensing, 34(5), 811-827. https://doi.org/10.7780/kjrs.2018.34.5.9 
  8. Kwak, G.-H., Park, S., and Park, N.-W., 2022. Combining conditional generative adversarial network and regression-based calibration for cloud removal of optical imagery. Korean Journal of Remote Sensing, 38(6-1), 1357-1369. https://doi.org/10.7780/kjrs.2022.38.6.1.28 
  9. Lingjun, H., Levine, R. A., Fan, J., Beemer, J., and Stronach, J., 2018. Random forest as a predictive analytics alternative to regression in institutional research. Practical Assessment, Research, and Evaluation, 23(1), 1. https://doi.org/10.7275/1wprm024 
  10. Liu, H., Liu, Z., Liu, S., Liu, Y., Bin, J., Shi, F., and Dong, H., 2018. A nonlinear regression application via machine learning techniques for geomagnetic data reconstruction processing. IEEE Transactions on Geoscience and Remote Sensing, 57(1), 128-140. https://doi.org/10.1109/TGRS.2018.2852632 
  11. McRoberts, R. E., Naesset, E., and Gobakken, T., 2013. Accuracy and precision for remote sensing applications of nonlinear model-based inference. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 6(1), 27-34. https://doi.org/10.1109/JSTARS.2012.2227299 
  12. Na, S. I., Hong, S. Y., Ahn H. Y., Park, C. W., So, K. H., and Lee, K. D., 2021. Detrending crop yield data for improving MODIS NDVI and meteorological data based rice yield estimation model. Korean Journal of Remote Sensing, 37(2), 199-209. https://doi.org/10.7780/kjrs.2021.37.2.2 
  13. Park, S., and Park, N.-W., 2022. Cloud removal using Gaussian process regression for optical image reconstruction. Korean Journal of Remote Sensing, 38(4), 327-341. https://doi.org/10.7780/kjrs.2022.38.4.1 
  14. Pipia, L., Amin, E., Belda, S., Salinero-Delgado, M., and Verrelst, J., 2021. Green LAI mapping and cloud gap-filling using Gaussian process regression in Google Earth Engine. Remote Sensing, 13(3), 403. https://doi.org/10.3390/rs13030403 
  15. Rasmussen, C. E., and Williams, C. K. I., 2006. Gaussian processes in machine learning. MIT Press. 
  16. Schulz, E., Speekenbrink, M., and Krause, A., 2018. A tutorial on Gaussian process regression: Modelling, exploring, and exploiting functions. Journal of Mathematical Psychology, 85, 1-16. https://doi.org/10.1016/j.jmp.2018.03.001 
  17. Shin, H. S., Song, S. H., Lee, D. H., and Park, J. H., 2021. Application and evaluation of the attention U-Net using UAV imagery for corn cultivation field extraction. Ecology and Resilient Infrastructure, 8(4), 253-265. https://doi.org/10.17820/eri.2021.8.4.253 
  18. Smola, A. J., and Scholkopf, B., 2004. A tutorial on support vector regression. Statistics and Computing, 14, 199-222. https://doi.org/10.1023/B:STCO.0000035301.49549.88 
  19. Tuia, D., Verrelst, J., Alonso, L., Perez-Cruz, F., and Camps-Valls, G., 2011. Multioutput support vector regression for remote sensing biophysical parameter estimation. IEEE Geoscience and Remote Sensing Letters, 8(4), 804-808. https://doi.org/10.1109/LGRS.2011.2109934 
  20. Verrelst, J., Alonso, L., Caicedo, J. P. R., Moreno, J., and Camps-Valls, G., 2012a Gaussian process retrieval of chlorophyll content from imaging spectroscopy data. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 6(2), 867-874. https://doi.org/10.1109/JSTARS.2012.2222356 
  21. Verrelst, J., Munoz, J., Alonso, L., Delegido, J., Rivera, J. P., Camps-Valls, G., and Moreno, J., 2012b. Machine learning regression algorithms for biophysical parameter retrieval: Opportunities for Sentinel-2 and -3. Remote Sensing of Environment, 118, 127-139. https://doi.org/10.1016/j.rse.2011.11.002 
  22. Wang, Q., Wang, L., Zhu, X., Ge, Y., Tong, X., and Atkinson, P. M., 2022. Remote sensing image gap filling based on spatial-spectral random forests. Science of Remote Sensing, 5, 100048. https://doi.org/10.1016/j.srs.2022.100048 
  23. Xu, M., Jia, X., and Pickering, M., 2014. Automatic cloud removal for Landsat 8 OLI images using cirrus band. In Proceedings of the 2014 IEEE Geoscience and Remote Sensing Symposium, Quebec City, QC, Canada, July 13-18, pp. 2511-2514. https://doi.org/10.1109/IGARSS.2014.6946983