DOI QR코드

DOI QR Code

A Study on Training Dataset Configuration for Deep Learning Based Image Matching of Multi-sensor VHR Satellite Images

다중센서 고해상도 위성영상의 딥러닝 기반 영상매칭을 위한 학습자료 구성에 관한 연구

  • Kang, Wonbin (Department of Civil and Environmental Engineering, Seoul National University) ;
  • Jung, Minyoung (Institute of Engineering Research, Seoul National University) ;
  • Kim, Yongil (Department of Civil and Environmental Engineering, Seoul National University)
  • Received : 2022.12.12
  • Accepted : 2022.12.20
  • Published : 2022.12.31

Abstract

Image matching is a crucial preprocessing step for effective utilization of multi-temporal and multi-sensor very high resolution (VHR) satellite images. Deep learning (DL) method which is attracting widespread interest has proven to be an efficient approach to measure the similarity between image pairs in quick and accurate manner by extracting complex and detailed features from satellite images. However, Image matching of VHR satellite images remains challenging due to limitations of DL models in which the results are depending on the quantity and quality of training dataset, as well as the difficulty of creating training dataset with VHR satellite images. Therefore, this study examines the feasibility of DL-based method in matching pair extraction which is the most time-consuming process during image registration. This paper also aims to analyze factors that affect the accuracy based on the configuration of training dataset, when developing training dataset from existing multi-sensor VHR image database with bias for DL-based image matching. For this purpose, the generated training dataset were composed of correct matching pairs and incorrect matching pairs by assigning true and false labels to image pairs extracted using a grid-based Scale Invariant Feature Transform (SIFT) algorithm for a total of 12 multi-temporal and multi-sensor VHR images. The Siamese convolutional neural network (SCNN), proposed for matching pair extraction on constructed training dataset, proceeds with model learning and measures similarities by passing two images in parallel to the two identical convolutional neural network structures. The results from this study confirm that data acquired from VHR satellite image database can be used as DL training dataset and indicate the potential to improve efficiency of the matching process by appropriate configuration of multi-sensor images. DL-based image matching techniques using multi-sensor VHR satellite images are expected to replace existing manual-based feature extraction methods based on its stable performance, thus further develop into an integrated DL-based image registration framework.

영상정합은 다시기 및 다중센서 고해상도 위성영상을 효과적으로 활용하기 위해 필수적으로 선행되는 중요한 과정이다. 널리 각광받고 있는 딥러닝 기법은 위성영상에서 복잡하고 세밀한 특징을 추출하여 영상 간 빠르고 정확한 유사도 판별에 사용될 수 있음에도 불구하고, 학습자료의 양과 질이 결과에 영향을 미치는 딥러닝 모델의 한계와 고해상도 위성영상 기반 학습자료 구축의 어려움에 따라 고해상도 위성영상의 정합에는 제한적으로 적용되어 왔다. 이에 본 연구는 영상정합에서 가장 많은 시간을 소요하는 정합쌍 추출 과정에서 딥러닝 기반 기법의 적용성을 확인하기 위하여, 편향성이 존재하는 고해상도 위성영상 데이터베이스로부터 딥러닝 영상매칭 학습자료를 구축하고 학습자료의 구성이 정합쌍 추출 정확도에 미치는 영향을 분석하였다. 학습자료는 12장의 다시기 및 다중센서 고해상도 위성영상에 대하여 격자 기반의 Scale Invariant Feature Transform(SIFT) 알고리즘을 이용하여 추출한 영상쌍에 참과 거짓의 레이블(label)을 할당한 정합쌍과 오정합쌍의 집합으로 구축되도록 하였다. 구축된 학습자료로부터 정합쌍 추출을 위해 제안된 Siamese convolutional neural network (SCNN) 모델은 동일한 두 개의 합성곱 신경망 구조에 한 쌍을 이루는 두 영상을 하나씩 통과시킴으로써 학습을 진행하고 추출된 특징의 비교를 통해 유사도를 판별한다. 본 연구를 통해 고해상도 위성영상 데이터 베이스로부터 취득된 자료를 딥러닝 학습자료로 활용 가능하며 이종센서 영상을 적절히 조합하여 영상매칭 과정의 효율을 높일 수 있음을 확인하였다. 다중센서 고해상도 위성영상을 활용한 딥러닝 기반 영상매칭 기법은 안정적인 성능을 바탕으로 기존 수작업 기반의 특징 추출 방법을 대체하고, 나아가 통합적인 딥러닝 기반 영상정합 프레임워크로 발전될 것으로 기대한다.

Keywords

1. 서론

최근 우주 및 위성산업의 발전에 따라 전 세계적으로 수많은 위성의 개발 및 운용이 추진되어 국내외 활용 가능한 위성영상자원이 증가하고 있으며 위성영상의 활용 여건 역시 개선되고 있다. 이에 따라 서로 다른 시기에 다양한 센서로부터 취득된 위성영상자원을 복합적으로 활용함으로써 각각의 장점을 극대화하는 방안이 요구된다(Blum and Liu, 2018; Saha et al., 2019). 이중고해상도 위성은 세밀한 지상관측을 가능케 하여 고해상도 위성영상자원으로부터 객체 추출, 변화 탐지, 도심지 3D 모델링 등을 통한 고부가가치 정보 산출이 가능할 것으로 기대되고 있다. 그러나 다시기 및 다중센서 위성영상으로부터 구축된 대다수의 고해상도 위성영상 자원은 상대적인 기하불일치성을 내포하여(Feng et al., 2021) 실질적인 활용에 큰 한계가 존재한다.

고해상도 위성영상자원의 기하불일치성은 위성영상 취득 환경의 다양성과 위성운용기관 간의 상이한 후처리 과정에 의해 발생한다. 대표적인 기하불일치성의 예로 영상 내에 존재하는 건물 높이에 의한 기복변위가 있으며, 위성영상 촬영각에 따라 서로 다른 방향 및 크기로 발생하는 기복변위에 의해 동일한 건물의 형상 및 위치가 달라지게 된다(Sedaghat and Ebadi, 2015). 기하 불일치성이 잔존하는 위성영상 활용 시 누적된 오차가 분석 결과에 악영향을 야기할 수 있다(Jabari and Zhang, 2016). 따라서 지속적으로 취득되고 있는 대규모 고해상도 위성영상자원을 효율적으로 활용하기 위해서는 다시기 및 다중센서 위성영상의 기하일치성을 확보하는 영상정합 과정이 필수적으로 선행되어야 한다.

영상정합은 동일한 지역을 대상으로 서로 다른 시점(viewpoints), 시기(acquisition time) 및 센서로부터 촬영된 두 개 이상의 영상을 기하학적으로 정렬하는 과정으로, 이를 통해 센서의 특성, 궤도 및 자세 등에 의한 오차를 제거하고 영상 간 좌표를 일치시킨다(Zitova and Flusser, 2003). 일반적으로 영상정합은 특징요소 추출, 특징요소의 정합, 변환모델 구성, 그리고 영상변환의 네 단계로 진행된다(Zitova and Flusser, 2003). 이 중 정합쌍 추출은 특징요소 추출 및 정합을 포함한 과정으로 영상정합 과정에서 가장 많은 시간과 비용을 소요하는 과정으로 지적되었다(Bentoutou et al., 2005; Blum and Liu, 2018; Kennedy and Cohen, 2003).

영상정합에 널리 사용되는 Scale Invariant Feature Transform (SIFT) 기법(Lowe, 2004)은 컴퓨터비전 분야에서 개발되어 위성영상 간 특징점 및 정합쌍을 추출을 목적으로 사용된다. 그러나 고해상도 위성영상은 일반 영상(natural image)과 다른 광역의 복잡한 정보를 포함하므로, 기존 SIFT 기법을 고해상도 위성영상에 적용할 경우 영상정합 정확도 하락이 발생하며 오정합쌍에 대한 추가적 제거가 요구된다(Li et al., 2009; Sedaghat et al., 2011). 이에 따라 개선된 SIFT 기반 기법들이 제시되었으나, 특정 연구 지역이나 센서에 국한됨에 따라 범용성 측면의 한계를 갖거나(Goncalves et al., 2011; Huo et al., 2011) 저수준(low-level)의 국소적 특징을 추출하여 고해상도 위성영상의 정밀한 정합에 적합하지 않은 문제가 있다(Zhao et al., 2021).

딥러닝 기반의 영상정합은 대량의 데이터로부터 고차원 특징을 추출할 수 있으며(Zhang et al., 2018), 이질적이고 복잡한 데이터에서도 정확도나 연산량, 속도 면에서 개선된 결과를 산출함에 따라 SIFT와 같은 기존 유사도 판별 방식의 대안으로 제시되었다(Yang et al., 2018; Zheng et al., 2017). 그러나 딥러닝 기반 모델을 사용하여 SIFT 기법을 적용한 결과보다 향상된 결과를 제시한 많은 연구에서 Landsat 위성영상 등 중저해상도 영상을 사용하였으며(Wang et al., 2018; Zhao et al., 2021), 광학 위성영상 외 SAR 위성영상 등을 함께 사용하는 다종(multi-modal) 위성영상자료의 정합을 목적으로 하여(He et al., 2018; Zhang et al., 2021) 이러한 모델을 고해상도 위성영상에 적용하기 위해서는 검증이 더 필요하다. 이처럼 딥러닝 기반 접근을 통해 영상 간 유사도를 빠르고 정확하게 판별할 수 있음에도 불구하고, 고해상도 위성영상을 활용한 딥러닝 기반 영상정합 연구는 미흡한 실정이다.

한편, 딥러닝 기반 영상정합 기법의 성능을 향상시키기 위해서는 양질의 학습자료가 요구된다(Ma et al., 2021; Melekhov et al., 2016). 딥러닝 기법을 영상정합에 적용한 최근 연구들은 기존 알려진 특징 추출 기법에 딥러닝 네트워크를 결합하는 통합 학습(integrated learning) 방식과 영상으로부터 곧바로 변환 파라미터(transformation parameters)를 예측하는 end-to-end 방식으로 분류할 수 있는데, 각각 연산 비용에 비해 성능 향상 효과가 크지 않은 문제와 고품질 학습자료를 생성하기 위해 상당한 시간과 비용이 소요되는 문제가 여전히 지적되고 있다(Ma et al., 2019; Ye et al., 2022). 이는 영상정합의 소요시간을 단축하고 정확도를 향상시키려는 딥러닝 기법 적용 목적과 상충되는 어려움으로 작용한다.

또한 다시기 다중센서 고해상도 위성영상자원의 영상정합을 위한 딥러닝 기반 정합쌍 추출 기술의 개발에는 학습을 위한 다중 센서 고해상도 위성영상의 활용이 불가피하다. 그러나 고해상도 위성영상은 일반적으로 요청에 따라 영상을 취득하므로 기축적된 영상 데이터 베이스가 특정 센서로부터 취득된 영상의 비중이 크도록 구성될 수 있다. 이처럼 편향성을 갖는 대규모 위성 영상 자료는 딥러닝 학습자료로 사용하기에 적합하지 않다.

따라서 본 연구에서는 편향성이 존재하는 다시기 다중센서 고해상도 위성영상 데이터베이스로부터 영상 정합을 위한 딥러닝 학습자료를 생성하여 사용할 수 있다면, 영상정합에서 가장 많은 시간을 소요하는 정합쌍 추출 단계에 딥러닝 모델이 효과적으로 사용될 수 있을 것으로 보고, 고해상도 위성영상 자료의 영상정합을 위한 정합쌍 추출 과정에서 딥러닝 기반 기법의 활용성을 확인하고자 하였다. 이를 위해 다시기 다중센서 고해상도 위성영상을 기반으로 딥러닝 학습자료를 생성하고 Siamese 네트워크에 합성곱 신경망을 결합한 딥러닝 기반 영상매칭 모델을 제안하였으며, 다중센서 영상이 다양한 조합으로 구성된 학습자료를 사용하여 정합쌍 추출을 수행하고 결과를 비교함으로써 학습자료의 구성이 영상정합을 위한 정합쌍 추출 정확도에 미치는 영향에 대하여 분석하였다.

2. 학습자료 구축 및 모델

1) 연구 자료

본 연구는 대전 동일 지역에 대해 5개의 고해상도 위성으로 취득된 다시기 다중센서 영상을 활용한다(Table 1). 2009년부터 2020년까지 구축된 GeoEye (GE), World-View 2 (WV2), KOMPSAT-3 (K3), KOMPSAT-3A (K3A), Pléiades (PHR) 위성영상자원 중 구름에 의한 폐색이 존재하지 않는 영상이 활용되었다. 총 12장의 영상 중 K3A 센서로 취득된 영상은 5장으로 고해상도 광학 위성영상 데이터베이스의 편향성을 확인할 수 있다. 전체 영상의 공간해상도는 0.5 m에서 0.79 m까지 다양하게 구성되었으며, 동종 센서 내에서도 공간 해상도 및 촬영 각도 등에서 서로 다른 특성을 보인다.

Table 1. List of VHR satellite images used in this study and their specifications

OGCSBN_2022_v38n6_1_1505_t0001.png 이미지

2) 학습자료 구축

12장의 시계열 고해상도 위성영상으로부터 딥러닝 모델을 위한 학습자료를 생성하기 위해 격자 기반의 SIFT 알고리즘(Jung et al., 2020)을 이용하여 영상간 초기 정합점을 추출하였다. 추출 과정에서 정합행렬(matching matrix; Jung, 2021)을 이용하여 다중 영상간 공통된 정합점을 추출하였으며 그 과정에서 오추출된 정합점을 제거하고 누락된 정합점을 복원하여 충분한 수의 정합쌍을 확보하고자 하였다. 보다 정확도 높은 학습자료를 생성하고자 각 위성영상의 Rational Function Model (RFM)을 이용하여 지상좌표를 추정하고 이를 통해 오정합쌍을 제거하였다. 학습에 필요한 오정합쌍은 추출된 정합점을 기준으로 두 영상 간 변환모델을 구성하고 이를 기반으로 임의적으로 생성하였다. 최종적으로 학습자료는 Fig. 1(a)와 같이 총 14,305장의 정합쌍과 8,695장의 오정합쌍으로 구성되었다. Fig. 1(b)와 Fig. 1(c)는 GE와 WV2로부터 생성된 정합쌍과 오정합쌍의 예시이며, 대부분의 오정합쌍이 Fig. 1에서와 같이 차이를 육안으로 구분할 수 있는 수준에서 생성되었다. 최종적으로 학습 자료의 정합쌍과 오정합쌍으로 구분되는 영상쌍의 집합에 대하여 참(positive)과 거짓(negative)의 레이블(label)을 할당하여 딥러닝용 학습자료를 구축하였다.

OGCSBN_2022_v38n6_1_1505_f0001.png 이미지

Fig. 1. Extracted training samples. (a) 14,305 positive image pairs and 8,695 negative image pairs are generated within the entire training dataset. As an example, (b) correct matching pair and (c) incorrect matching pair extracted from GE and WV2 are presented.

3) Siamese 합성곱 신경망 모델

Siamese 합성곱 신경망(Siamese convolutional neural network, SCNN)은 영상간 유사도 판별에 적합한 구조로 널리 알려진 Siamese 네트워크에 합성곱 신경망을 적용한 모델로서, 두 이미지 간의 유사성을 결정하는 데 효과적이다. 일반적인 Siamese 네트워크는 자매 신경망(sister networks)이라 불리는 두 개의 동일한 하위 네트워크(subnetwork)로 이루어지며, 한 쌍을 이루는 두 개의 입력영상이 하나씩 각 하위 네트워크로 나뉘어 들어가 처리된다. SCNN은 두 개의 순방향 퍼셉트론(feedforward perceptron)으로 구성된 스트림(stream) 네트워크 구조를 기반으로 이러한 하위 네트워크를 입력 영상으로부터 특징을 추출하는 단순한 CNN 네트워크로 구성되도록 하였으며, 추출된 특징을 비교함으로써 유사도를 결정할 수 있다(Fig. 2). 두 하위 네트워크는 가중치(weight)를 공유하고, 후속되는 완전연결층(fully-connected layers)을 통해 각 하위 네트워크를 통과하여 추출된 특징으로부터 유사성 수준을 결정한다. 최종 단계에서 모델은 손실 함수(loss function)를 기반으로 학습을 통해 두 이미지 간의 유사성에 따라 0과 1 사이의 값을 출력한다. 출력값은 1에 가까울수록 두 영상 간의 유사성이 높게 나타남을 의미한다.

OGCSBN_2022_v38n6_1_1505_f0002.png 이미지

Fig. 2. Structure of SCNN.

3. 연구 방법

1) 실험 설계

실험은 학습자료 내 다종센서 영상 구성에 따른 성능을 확인하기 위한 총 5개의 실험으로 설계되었다. 실험 목적에 따라 서로 다른 학습자료와 시험자료 구성을 갖도록 하였으며 각각의 실험은 독립적으로 수행되었다(Table 2). 실험 1에서는 모델의 성능을 확인하기 위하여 Table 1에 나열한 12개 위성영상 전체를 사용하여 생성한 전체 학습자료를 사용하였다. 실험 2와 실험 3은 동종의 영상으로 구성된 학습 및 시험자료를 사용함에 따른 차이를 분석하기 위해 가장 큰 비중을 차지하는 K3A 영상만을 사용하여 학습한 후, 시험자료로는 K3A 영상만을 사용하거나 전체 영상 중 K3A 영상을 제외한 영상을 사용하였다. 실험 4에서는 K3A 영상을 배제한 자료로 학습시킨 모델을 K3A 영상으로 시험하였고, 실험 5에서는 다중센서 학습자료 내 센서별 비율을 정제하여 사용하였다. 이 때, 각 실험별 조건에 따라 사용되는 학습자료 및 시험자료를 8:2 비율로 임의적으로 분리하여 구성하였으며, 모든 실험에서 학습에 사용된 자료가 시험에 다시 사용되지 않도록 하였다.

Table 2. Dataset configuration for each of the five experiments

OGCSBN_2022_v38n6_1_1505_t0002.png 이미지

Data not used in the training process were used to test the model.

2) 실험 환경 및 하이퍼파라미터 설계

모델은 Python 3.8 환경에서 PyTorch를 통해 구현하였으며, 각 입력영상은 256 × 256 픽셀 크기의 영상이 쌍을 이루어 모델로 입력되었다. 학습을 위한 하이퍼파라미터는 Table 3과 같이, 에폭(epoch)은 200, 배치 크기(batch size)는 256, 학습률(learning rate)은 0.0001로 설정하고 Adam 최적화함수(optimizer)를 사용하여 학습을 진행하였다. 손실함수(loss function)는 널리 사용되는 이진 교차 엔트로피 손실(Binary cross-entropy loss) 함수에 시그모이드(Sigmoid) 함수를 결합하여, 모델을 통한 최종값은 식(1)에서와 같이 두 영상의 유사성이 높으면 1, 다른 지역을 나타내면 0으로 산출되도록 하였다.

Table 3. Implementation details in experiments

OGCSBN_2022_v38n6_1_1505_t0003.png 이미지

Loss = – ylogp + (1 – y) log(1 – p)       (1)

where L = Calculated loss

y = Ground truth label

p = Predicted value of label

3) 정확도 평가

정확도 평가를 위해 전체 시험자료에 대하여 정합쌍과 오정합쌍의 분류결과가 실제와 부합하는 경우를 집계하고, 전체 시험 영상쌍의 수에 대해 레이블(label)을 정확하게 예측한 영상쌍의 비율로써 정확도를 정의하였다(식(2)).

\(\begin{aligned}Accuracy\;=\frac{N_{c}}{N_{t}}\end{aligned}\)       (2)

where Nc = Number of image pairs that correctly

correspond with ground truth labels

Nt = Total number of input pairs

매 실험에 앞서 해당 실험에 사용될 학습자료 및 시험자료에 포함되는 영상쌍들을 새롭게 임의로 구성하고 실험을 반복적으로 수행한 결과의 평균 정확도를 바탕으로 모델의 성능을 평가하였다.

4. 결과 및 분석

각 실험의 정확도 평가 결과는 Table 4와 같이 요약될 수 있다. 12개 위성영상 전체를 활용하여 생성된 자료를 사용한 실험 1에서 0.758의 정확도를 기록하였으므로 SCNN 모델이 상이한 조건의 다중센서 영상이 혼재된 자료에서도 높은 정확도를 획득할 수 있음을 확인하였다. 이러한 모델 안정성을 바탕으로 모델이 자료로부터 고수준의 특징을 효과적으로 추출하여 활용할 수 있는 지가 정확도 차이에 주요하게 작용하였을 것으로 보고, 이어지는 실험 결과로부터 학습자료와 시험자료 구성이 정확도 결과에 미치는 영향을 분석하였다

Table 4. Experimental results

OGCSBN_2022_v38n6_1_1505_t0004.png 이미지

실험 2의 결과에서 학습자료와 시험자료가 단일 센서의 영상(K3A)으로 구성된 경우에 가장 높은 정확도를 제시함으로써, 동종 센서 영상을 활용한 모델 학습이 정확도 향상에 유리한 조건일 것으로 판단된다. 이때, K3A 영상 간에도 영상 취득 계절, 공간 해상도, 입사각 등에서 차이가 있으며 학습에 사용된 자료가 시험에 다시 사용되지 않도록 분리한 점을 고려하였을 때, 과적합은 발생하지 않았을 것으로 분석된다. 실험 2와 비교하여 실험 3에서도 상당한 정확도 결과가 산출됨에 따라, 특정 센서영상의 구성이 높게 구성된 고해상도 위성영상자원을 고려하여 다종센서 영상을 포함하지 않는 학습자료를 구축하여 사용하여도 유의미한 학습이 가능함을 확인할 수 있다. 또한, 실험 3과 반대로 실험 4에서 K3A 영상이 아닌 서로 다른 4가지 다종센서 영상을 사용한 자료로 학습시킨 후 K3A 영상으로 시험하였을 때, 앞선 실험들과 정확도 측면에서 큰 차이를 보이지 않는 결과를 도출하여 전이학습의 적용 가능성을 확인할 수 있었다. 실험 5는 딥러닝 모델 학습에 다중센서 학습자료 사용 시 편향된 자료의 영향을 고려하여 개별 센서별 영상 비율을 정제하여 학습에 사용하였으며, 영상 비율이 정제되지 않은 실험 4보다 향상된 결과를 도출하였다.

정확도는 실험 2, 실험 1, 실험 5, 실험 3, 실험 4 순으로 높은 값을 나타냈으며, 동종센서 영상 활용 시 가장 높은 정확도를 획득하였고, 정제되지 않은 다종센서 영상 자료로부터 학습을 수행하고 학습에 사용하지 않은 센서 영상(K3A)에 적용 시 가장 낮은 정확도가 도출되었다. 그러나 가장 많은 비율을 차지하는 K3A 영상에 대하여 K3A 영상을 포함하지 않는 이종센서 영상들로 구성된 자료를 통해 학습하거나 시험한 결과에서도 상당한 정확도가 산출되었으며, 이종센서 영상의 구성 비율을 균일하게 하는 단순한 자료 정제만으로도 영상매칭 정확도를 향상시킬 수 있었다. 이러한 결과는 높은 영상매칭 정확도를 얻기 위해 센서별 영상 특성에 따른 최적의 영상정합 기술을 개발하여 동종센서 간 개별적 정합을 수행하는 대신 이종센서 영상들을 적절히 함께 활용함으로써 안정적인 정확도를 산출함과 동시에 영상매칭 과정의 효율을 높일 수 있음을 보여준다. 또한 동종센서로 구성된 학습자료를 사용한 결과에서도 과적합이 발생하지 않음에 따라 전이학습을 통해 적은 수의 영상을 사용하여 구축된 고해상도 위성영상 기반 딥러닝 학습자료의 활용이 가능할 것으로 사료된다.

5. 결론

본 연구는 다시기 및 다중센서 고해상도 위성영상에 대하여 딥러닝 기반 영상매칭 기법의 활용성을 확인하고 고해상도 위성영상 데이터베이스로부터 구축한 딥러닝 학습자료의 구성이 정합쌍 추출 결과에 미치는 영향을 분석하고자 하였다. 이를 위해 국내 대전 지역에 대한 12개의 다시기 다중센서 고해상도 위성영상을 기반으로 영상정합을 위한 딥러닝 영상매칭 학습자료를 생성하고, 다양한 구성의 학습자료에 대하여 영상쌍 간 유사도 판별에 효율적인 Siamese 구조에 CNN 네트워크를 결합한 SCNN을 적용하여 정합쌍 추출 결과를 비교하였다. 실험결과, 모델은 단일 센서 자료 사용 시 가장 높은 정확도를 기록하였으나 다중센서 자료를 통한 결과에서도 안정적인 정확도를 획득하여 고해상도 위성영상 데이터베이스로부터 취득된 자료를 딥러닝 학습자료로 활용 가능함을 확인하였다.

고해상도 위성영상은 방대한 정보를 포함하므로 영상정합 시 고수준의 특징을 추출하여 활용하기 어렵고 정합쌍 추출 과정에서 많은 시간이 소요되는 문제가 있으며, 전통적인 영상정합 방법 적용 시 자료 전처리 과정에 RFM 정보를 참고하기 어려운 경우나 동일 지역에 대해 비슷한 시기 혹은 동종의 고해상도 위성영상을 얻기 어려운 경우에 신속하고 정확도 높은 정합쌍 추출에 한계가 있었다. 본 모델의 학습 효율 및 안정적인 정확도를 고려하였을 때, 고해상도 위성영상 데이터베이스를 활용한 SCNN 기반 영상매칭 기법은 이종센서 영상 활용 시에도 간단한 영상 비율 정제를 통한 정확도 향상이 가능하여 영상매칭 효율을 증진시킴으로써 기존 수작업 기반의 특징 추출 방법의 한계를 극복할 수 있을 것으로 보인다. 또한 다중센서 고해상도 위성영상 자원의 활용이 불가피한 환경에서 다중센서 영상으로 구성된 영상매칭 학습자료의 높은 활용성을 확인할 수 있었다.

본 연구는 고해상도 위성영상을 활용한 딥러닝 기반 영상정합 프레임워크 구축을 위해 영상정합에서 가장 많은 시간을 소요하는 정합쌍 추출 단계에 딥러닝 기법을 적용한 기초연구로서, 후속연구를 통해 K3A 영상 외 영상의 수 및 영상쌍 집합의 조건을 다양화하는 등 확장된 자료를 활용하여 더욱 많은 변수를 고려하면서도 안정적으로 향상된 정확도를 얻을 수 있도록 할 예정이다. 특히 제안된 모델은 딥러닝 모델의 적용성을 확인하기 위한 기본적인 CNN 구조를 기반으로 하여 모델 개선의 여지가 크며 트랜스포머(transformer) 모델 등 최신 기법을 적용하여 전체 정확도를 향상시킬 수 있을 것으로 보인다. 따라서 후속 연구에서는 발전된 딥러닝 기반 정합쌍 추출 모델로부터 추출된 정합쌍을 이용하여 최종적으로 고해상도 위성영상의 정합 결과를 도출할 필요가 있다. 이러한 과정을 통해 다시기 및 다중센서 고해상도 위성영상자원을 효과적으로 활용할 수 있도록 다양한 학습자료 환경에서 범용적인 딥러닝 기반 영상정합 프레임워크로의 발전이 기대된다.

사사

이 논문은 국토교통부/국토교통과학기술진흥원(과제번호 RS-2022-00155763), 국토교통부의 스마트시티 혁신인재육성사업의 지원을 받아 수행되었으며, 이에 감사드립니다.

References

  1. Bentoutou, Y., N. Taleb, K. Kpalma, and J. Ronsin, 2005. An automatic image registration for applications in remote sensing, IEEE Transactions on Geoscience and Remote Sensing, 43(9): 2127-2137. https://doi.org/10.1109/TGRS.2005.853187
  2. Feng, R., H. Shen, J. Bai, and X. Li, 2021. Advances and opportunities in remote sensing image geometric registration: A systematic review of state-of-the-art approaches and future research directions, IEEE Geoscience and Remote Sensing Magazine, 9(4): 120-142. https://doi.org/10.1109/MGRS.2021.3081763
  3. Goncalves, H., L. Corte-Real, and J.A. Goncalves, 2011. Automatic image registration through image segmentation and SIFT, IEEE Transactions on Geoscience and Remote Sensing, 49(7): 2589-2600. https://doi.org/10.1109/TGRS.2011.2109389
  4. He, H., M. Chen, T. Chen, and D. Li, 2018. Matching of remote sensing images with complex background variations via Siamese convolutional neural network, Remote Sensing, 10(2): 355. https://doi.org/10.3390/rs10020355
  5. Huo, C., C. Pan, L. Huo, and Z. Zhou, 2011. Multilevel SIFT matching for large-size VHR image registration, IEEE Geoscience and Remote Sensing Letters, 9(2): 171-175. https://doi.org/10.1109/LGRS.2011.2163491
  6. Jabari, S. and Y. Zhang, 2016. RPC-based coregistration of VHR imagery for urban change detection, Photogrammetric Engineering & Remote Sensing, 82(7): 521-534. https://doi.org/10.14358/PERS.82.7.521
  7. Jung, M.Y., 2021. Improving Geometric Consistency of VHR Satellite Imagery Using Persistent Tie Points, Seoul National University, Seoul, Korea.
  8. Jung, M.Y., W.B. Kang, A.R. Song, and Y.I. Kim, 2020. A Study on the Improvement of Geometric Quality of KOMPSAT-3/3A Imagery Using Planetscope Imagery, Korean Journal of Remote Sensing, 38(4): 327-343 (in Korean with English abstract). https://doi.org/10.7848/ksgpc.2020.38.4.327
  9. Kennedy, R.E. and W.B. Cohen, 2003. Automated designation of tie-points for image-to-image coregistration, International Journal of Remote Sensing, 24(17): 3467-3490. https://doi.org/10.1080/0143116021000024249
  10. Li, Q., G. Wang, J. Liu, and S. Chen, 2009. Robust scale-invariant feature matching for remote sensing image registration, IEEE Geoscience and Remote Sensing Letters, 6(2): 287-291. https://doi.org/10.1109/LGRS.2008.2011751
  11. Lowe, D.G., 2004. Distinctive image features from scale-invariant keypoints, International Journal of Computer Vision, 60(2): 91-110. https://doi.org/10.1023/B:VISI.0000029664.99615.94
  12. Ma, J., X. Jiang, A. Fan, J. Jiang, and J. Yan, 2021. Image matching from handcrafted to deep features: A survey, International Journal of Computer Vision, 129(1): 23-79. https://doi.org/10.1007/s11263-020-01359-2
  13. Ma, L., Y. Liu, X. Zhang, Y. Ye, G. Yin, and B. A. Johnson, 2019. Deep learning in remote sensing applications: A meta-analysis and review, ISPRS Journal of Photogrammetry and Remote Sensing, 152: 166-177. https://doi.org/10.1016/j.isprsjprs.2019.04.015
  14. Melekhov, I., J. Kannala, and E. Rahtu, 2016. Siamese network features for image matching, Proc. of 2016 23rd International Conference on Pattern Recognition (ICPR), Cancun, Mexico, Dec. 4-8, pp. 378-383. https://doi.org/10.1109/ICPR.2016.7899663
  15. Moigne, J.L. and R.D. Eastmen, 2018. Multisensor Registration for Earth Remotely Sensed Imagery, In: Blum, R.S., Liu, Z. (eds), Multi-sensor image fusion and its applications, CRC press, Boca Raton, FL, USA, pp. 324-325
  16. Saha, S., F. Bovolo, and L. Bruzzone, 2019. Unsupervised multiple-change detection in VHR multisensor images via deep-learning based adaptation. Proc. of 2019 IEEE International Geoscience and Remote Sensing Symposium, Yokohama, Japan, Jul. 28-Aug. 2, pp. 5033-5036. https://doi.org/10.1109/IGARSS.2019.8900173
  17. Sedaghat, A. and H. Ebadi, 2015. Very high resolution image matching based on local features and kmeans clustering, The Photogrammetric Record, 30(150): 166-186. https://doi.org/10.1111/phor.12101
  18. Sedaghat, A., M. Mokhtarzade, and H. Ebadi, 2011. Uniform robust scale-invariant feature matching for optical remote sensing images, IEEE Transactions on Geoscience and Remote Sensing, 49(11): 4516-4527. https://doi.org/10.1109/TGRS.2011.2144607
  19. Wang, S., D. Quan, X. Liang, M. Ning, Y. Guo, and L. Jiao, 2018. A deep learning framework for remote sensing image registration, ISPRS Journal of Photogrammetry and Remote Sensing, 145: 148-164. https://doi.org/10.1016/j.isprsjprs.2017.12.012
  20. Yang, Z., T. Dan, and Y. Yang, 2018. Multi-temporal remote sensing image registration using deep convolutional features, IEEE Access, 6: 38544-38555. https://doi.org/10.1109/ACCESS.2018.2853100
  21. Ye, Y., T. Tang, B. Zhu, C. Yang, B. Li, and S. Hao, 2022. A multiscale framework with unsupervised learning for remote sensing image registration, IEEE Transactions on Geoscience and Remote Sensing, 60: 1-15. https://doi.org/10.1109/TGRS.2022.3167644
  22. Zhao, X., H. Li, P. Wang, and L. Jing, 2021. An Image Registration Method Using Deep Residual Network Features for Multisource High-Resolution Remote Sensing Images, Remote Sensing, 13(17): 3425. https://doi.org/10.3390/rs13173425
  23. Zhang, X., C. Leng, Y. Hong, Z. Pei, I. Cheng, and A. Basu, 2021. Multimodal Remote Sensing Image Registration Methods and Advancements: A Survey, Remote Sensing, 13(24): 5128. https://doi.org/10.3390/rs13245128
  24. Zhang, Q., L.T. Yang, Z. Chen, and P. Li, 2018. A survey on deep learning for big data, Information Fusion, 42: 146-157. https://doi.org/10.1016/j.inffus.2017.10.006
  25. Zheng, L., Y. Yang, and Q. Tian, 2017. SIFT meets CNN: A decade survey of instance retrieval, IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5): 1224-1244. https://doi.org/10.1109/TPAMI.2017.2709749
  26. Zitova, B. and J. Flusser, 2003. Image registration methods: a survey, Image and Vision Computing, 21(11): 977-1000. https://doi.org/10.1016/S0262-8856(03)00137-9