DOI QR코드

DOI QR Code

Image Matching for Orthophotos by Using HRNet Model

HRNet 모델을 이용한 항공정사영상간 영상 매칭

  • Seong, Seonkyeong (Department of Civil Engineering, Chungbuk National University) ;
  • Choi, Jaewan (Department of Civil Engineering, Chungbuk National University)
  • Received : 2022.10.05
  • Accepted : 2022.10.24
  • Published : 2022.10.31

Abstract

Remotely sensed data have been used in various fields, such as disasters, agriculture, urban planning, and the military. Recently, the demand for the multitemporal dataset with the high-spatial-resolution has increased. This manuscript proposed an automatic image matching algorithm using a deep learning technique to utilize a multitemporal remotely sensed dataset. The proposed deep learning model was based on High Resolution Net (HRNet), widely used in image segmentation. In this manuscript, denseblock was added to calculate the correlation map between images effectively and to increase learning efficiency. The training of the proposed model was performed using the multitemporal orthophotos of the National Geographic Information Institute (NGII). In order to evaluate the performance of image matching using a deep learning model, a comparative evaluation was performed. As a result of the experiment, the average horizontal error of the proposed algorithm based on 80% of the image matching rate was 3 pixels. At the same time, that of the Zero Normalized Cross-Correlation (ZNCC) was 25 pixels. In particular, it was confirmed that the proposed method is effective even in mountainous and farmland areas where the image changes according to vegetation growth. Therefore, it is expected that the proposed deep learning algorithm can perform relative image registration and image matching of a multitemporal remote sensed dataset.

원격탐사 자료는 재난, 농업, 도시계획 및 군사 등 다양한 분야에서 활용되며, 최근 다양한 고해상도 센서에서 취득된 시계열 자료의 활용에 대한 요구가 증대되고 있다. 본 연구에서는 시계열 원격탐사 자료의 활용을 위해 딥러닝 기법을 이용한 영상 매칭 방법을 제안하였다. 본 연구에서 적용한 딥러닝 모델은 영상분할 영역에서 많이 사용되고 있는 HRNet을 기반으로 하였다. 특히, 기본영상과 목표영상 간 상관도 맵을 효과적으로 계산하고, 학습의 효율을 높이기 위하여 denseblock을 추가하였다. 국토지리정보원의 다시기 항공정사영상을 이용하여 제안된 모델의 학습을 수행하였으며, 학습에 사용하지 않은 자료를 이용하여 평가를 하고자 하였다. 딥러닝 모델을 이용한 영상매칭 성능을 평가하기 위해 영상 매칭결과와의 비교평가를 수행하였다. 실험 결과, 제안기법을 통한 영상 매칭률이 80%일 때의 평균 오차는 3화소로 ZNCC에 의한 결과인 25화소에 비해 더 높은 정확도를 보였다. 제안된 기법은 식생의 생장에 따라 영상의 변화가 심한 산지 및 농지 지역에 대해서도 효과적임을 확인하였다. 이를 통해 딥러닝을 이용한 기준영상과 목표영상의 매칭을 수행할 수 있을 것으로 판단되며, 위성영상의 상호좌표등록 및 다시기 영상의 정합 등에 활용할 수 있을 것으로 예상된다.

Keywords

1. 서론

원격탐사 자료는 접근이 어려운 광범위한 지역을 효율적으로 관찰할 수 있으며, 주기적으로 촬영된 시계열 자료가 필요한 재난, 산림, 농업, 도시계획 등의 분야에서 활용되어진다(Chung et al., 2020; Kimet al., 2019; Seong et al., 2021). 최근 들어, 위성분야의 기술발전은 위성 소형화에 초점을 맞추어 이루어지고 있으며, 과거 정부 중심으로 수행되던 우주개발 프로그램이 민간 산업체에서도 활발히 이루어지고 있다. 특히, 국내에서는 다목적 실용위성과 함께, 차세대중형위성, 초소형군집위성 등의 개발이 이루어지고 있으며, 다양한 원격탐사 위성으로 인하여 원하는 지역의 영상을 취득하는 것이 용이해지고 있다.

빠른 재방문 주기를 갖는 위성의 등장으로 시계열 자료의 활용도는 더 높아질 수 있다. 시계열 자료를 이용하기 위해서는 각 자료의 상대적인 위치 정확도가 높아야 한다. 영상매칭(image matching) 또는 좌표등록(image registration)은 동일지역에 대해 촬영된 둘 이상의 영상을 중첩하는 과정 혹은 중첩하기 위하여 두 영상의 공통지점을 찾는 과정을 의미한다(Zitova et al., 2003). 시계열로 구성되는 원격탐사 자료는 같은 위치의 영상이라도 촬영 시간 및 방향에 따른 그림자, 기복변위 등이 존재하고, 계절에 따라 전반적인 색상, 식생의 특징들에 따라 많은 변화가 존재하게 된다. 따라서 통계적인 유사도를 이용하는 Normalized Cross-Correlation (NCC) 기법이나, 주파수 영역을 통해 계산된 위상상관도를 이용하는 위상상관도(phase correlation)기법 등의 전통적인 영역 기반의 영상 매칭 방법으로는 다양한 시기에 촬영된 고해상도 영상을 효과적으로 매칭하기 어려운 문제가 존재한다(Kughiln et al., 1979).

영상 매칭을 위한 기법은 대표적으로 영역기반 매칭기법과 특징기반 매칭 기법으로 나누어진다. 영역기반 매칭 기법은 두 영상 간의 유사도를 계산하여 가장 높은 값의 위치에 대하여 매칭점을 구하며, 단순한 구조로 구성된다. 하지만 밝기 변화, 잡음 등의 외부 변화에 민감하다. 특징기반 매칭 기법은 코너점 등 지역적 불변 특정량과 기술자를 이용하여 특징점을 판단하며, 외부 변화에 상대적으로 강인한 특성을 보인다. 딥러닝기반 매칭 기법은 딥러닝 모델을 통해 매칭을 위한 많은 특징들을 모델이 직접 학습하고 추출한다. 따라서, 딥러닝 기반의 매칭 기법은 영역기반 매칭 기법과 유사한 방법으로 연산이 수행될 수 있지만, 딥러닝 모델을 통해 추출된 여러 특징들을 이용하기 때문에 특징 기반의 매칭 기법과 같이 외부변화에도 강건한 장점을 가질 수 있다.

최근 딥러닝 기법은 원격탐사 및 영상처리 분야에서의 활용을 위한 영상 매칭과 관련된 기법 개발에도 적용되고 있다. Rocco et al. (2017)는 영상의 기하오차를 포함하는 두 개의 영상을 매칭하기 위하여 딥러닝 기법을 통해 기준영상의 기하를 수립하는 연구를 진행하였다. 또한, 딥러닝 기법을 이용해 4차원의 특징공간을 만들고, 약한 최근접 이웃 필터링을 계산하여 4차원 매칭 점수(matching score)를 계산하여 매칭점을 추정하는 기법이 제안되기도 하였다(Rocco et al., 2020). 원격탐사 분야에서는 광학영상 간의 매칭 뿐만 아니라 SAR 영상과 광학영상, LiDAR 영상과 광학영상 등 이종 영상 간의 매칭에도 딥러닝 기법이 사용되고 있다. Li et al. (2021)은 ResNet50과 atrous spatial pyramid pooling을 이용하여 특징을 학습하고 추출된 매칭영상의 무게중심점을 계산하여 매칭점을 추출하였다. Merkle et al. (2017)은 Convolutional Neural Network (CNN)를 이용하여 SAR 영상과 광학영상에서 매칭점의 이동량을 계산하고자 하였다. Hughes et al. (2020)은 SAR 영상과 광학영상을 매칭하는 방법으로 매칭이 잘되는 위치를 추정하는 네트워크, 영상의 매칭점을 산정하는 네트워크, 그리고 산정된 매칭점의 참, 거짓을 판단하는 3개의 네트워크를 구성하여 영상을 매칭하였다.

그러나 대부분의 연구에서는 영상 매칭을 적용함에 있어서, 가상의 영상을 이용하거나 화소값 및 촬영조건 등 조건이 유사한 영상들을 이용한 한계점을 가지고 있다. 또한, 특성이 상이한 SAR 영상과 광학 영상의 매칭에 있어서도 영상 내에 특징점을 추출하기가 용이한 지역들에 대한 연구들이 이루어졌다. 본 연구에서는 딥러닝 기법을 이용하여 다시기 항공정사영상의 영상 매칭을 수행하고자 하였다. 이를 위해 국토지리정보원에서 제공하는 강원도 정선 지역의 항공정사영상을 이용하여 딥러닝 모델의 훈련을 위한 학습자료, 참조자료 등을 제작하였다. 영상분할에서 많이 활용되고 있는 High Resolution Net (HRNet) 기반의 딥러닝 모델을 이용하여 특징을 추출하고, 추출된 특징을 이용하여 매칭하기 위하여 이전 층의 자료를 모두 사용하는 denseblock을 이용하여 매칭점을 추출하였다(Huang et al., 2017; Wang et al., 2019). 제안하는 기법의 상대적인 평가를 위하여 대표적인 영역기반 매칭 기법인 ZNCC와의 비교평가를 통하여, 제안기법의 효율성을 검증하고자 하였다.

2. 실험지역

시계열 원격탐사 자료를 활용하기 위하여 영상 매칭기법은 지역의 특성에 강건해야 한다. 따라서 실험지역은 도심, 농지, 산지로 구성되어 있는 강원도 정선 일대를 선정하였다. 학습 및 실험을 위하여 51 cm의 해상도를 가지고 RGB 3개의 밴드로 구성 되어있는 총 6장의 항공정사영상을 사용하였다. 또한 서로 다른 영상의 매칭을 위하여 Fig. 1과 같은 2015, 2017, 2019년도의 항공정사영상을 사용하였다.

OGCSBN_2022_v38n5_1_597_f0001.png 이미지

Fig. 1. Example of study area for training and test of deep learning model.

각 년도의 항공정사영상 내의 농지, 산지 그리고 하천지역들은 다양한 형태로의 피복변화가 발생하였다. 농지와 산지는 Fig. 2와 같이 식생의 성장 등에 따른 변화가 나타나며, 하천은 유량 변화에 의한 토지피복의 변화가 발생되었다 또한, 하천변의 식생상태에 따른 전체적인 밝기 값의 변화도 발생하였다.

OGCSBN_2022_v38n5_1_597_f0002.png 이미지

OGCSBN_2022_v38n5_1_597_f0003.png 이미지

Fig. 2. Images by land cover: (a) farmland (2015), (b) farmland (2017), (c) farmland (2019), (d) river (2015), (e) river (2017), (f) river (2019), (g) vegetated area (2015), (h) vegetated area (2017), (i) vegetated area (2019).

3. 연구방법

본 연구에서는 기하특성이 동일한 다시기 항공정사영상을 이용하여 딥러닝 모델의 훈련을 수행하였다. 특히, 매칭을 위해 사용한 딥러닝 모델은 HRNet과 denseblock을 활용하였다. 먼저 특징을 추출하기 위하여 HRNet을 사용하였다. 그 다음 추출된 특징으로 매칭점을 찾기 위하여 denseblock을 사용하였다. 특히, 다양한 해상도로 예측된 매칭점에 대하여 손실함수(loss function)을 구성하여 학습이 효과적으로 진행되도록 구성하였다.

1) 실험자료 제작

산지로 구성되어지는 영역은 불변하는 특징이 부족하기 때문에 산림으로만 이루어진 지역들은 육안 판독을 활용하여 매칭점을 추출하는 것도 어려운 문제이다. 따라서, 영상 매칭이 어려운 산림지역은 실험자료에서 배제하고자 하였으며, 경험적인 방법을 통하여 산림이 20% 미만이 되는 영역에 대해서만 훈련자료로 사용될 영상 패치(image patch)를 제작하였다. 먼저 동일한 지역의 다시기 항공정사영상을 이용하여 기준영상(base image)과 대상영상(target image)을 192×192화소(pixel) 크기로 추출하였다. 여기서, 기준영상은 매칭을 위해 기준이 되는 영상이며, 목표영상은 기준영상에 대해 매칭점을 찾고자 하는 영상이다. 대상영상은 영상매칭을 위한 검색영역의 선정을 위하여 대상영상에서 무작위 위치로 128×128화소 크기의 영상을 재추출하고, 이에 대한 위치를 활용하여 영상 매칭에 따른 이동량을 산출하였다. 이때, Fig. 3와 같이 무작위로 기준영상과 대상영상 크기에 따라 대상영상이 이동할 수 있는 범위는 기준영상과 대상영상의 크기 차이로 정의될 수 있으며, 해당 패치의 크기에서는 양방향으로 65화소로 설정될 수 있다.

OGCSBN_2022_v38n5_1_597_f0004.png 이미지

Fig. 3. Overview of the base and target image generation.

최종적으로, 대상영상을 무작위로 추출한 위치를 활용하여 65×65화소 크기의 참조자료(ground truth data)를 생성하였으며, Fig. 4은 생성되어진 기준영상, 대상영상, 참조의 예이다. 생성된 자료의 총 수는 8,418이며, 6,818장은 학습(training), 758개는 검증(validation), 842개는 평가(test)에 사용하였다.

OGCSBN_2022_v38n5_1_597_f0005.png 이미지

Fig. 4. Example of training dataset.

2) HRNet-CorrConv-Denseblock

일반적인 의미론적 영상분할(semantic segmentation)을 위한 딥러닝 모델은 특징을 추출하는 인코더(encoder)와 원래의 해상도로 복원하는 디코더(decoder)로 구성되어진다. 본 연구에서는 의미론적 분할 뿐만 아니라 여러 영상분야에서 사용되고 있는 HRNet을 활용하여 영상매칭을 위한 특징을 추출하고자 하였다(Wang et al., 2019). 본 연구에서 제안한 HRNet를 기반으로 하는 HRNet-CorrConv-Denseblock의 전체적인 구조는 Fig. 5와 같다.

OGCSBN_2022_v38n5_1_597_f0006.png 이미지

Fig. 5. Architecture of the proposed HRNet-CorrConv-Denseblock.

HRNet은 영상을 위한 전통적인 딥러닝 모델과는 다르게 영상학습을 진행하는 동안 여러 해상도로 구성되는 서브네트워크(sub-network)를 만들며, 각 서브네트워크들을 혼합하여 여러 크기의 객체들에 대하여 특징을 학습한다. 두 영상의 매칭점을 찾기 위하여 기준영상과 대상영상 각각의 특징을 추출하는 두 개의 HRNet을 사용하였다. 이를 이용하여 12개의 특징맵(feature map)을 추출하였다. 그 후 Fig. 6와 같이 기준영상 특징맵과 대상영상의 특징맵에 대한 합성곱연산을 수행한다. 두 영상 간의 합성곱 연산의 구조는 전통적인 영역 기반의 영상매칭 기법인 NCC와 동일한 구조를 가진다. 그러나 HRNet 구조의 네트워크를 통하여 생성된 특징맵은 Fig. 6와 같이 학습과정을 통해서 매칭을 위해 기준영상과 목표영상의 공통적인 특징들이 나타나게 될 것이고, 영상 간의 유사도를 산출하기 위하여 더욱 효과적인 자료로 구성될 수 있다. 따라서, HRNet를 통하여 생성되 특징맵을 이용하여 산출된 유사도 정보를 이용하여 영역기반 영상매칭의 성능을 높일 수 있을 것으로 판단하였다. 딥러닝 모델에서 생성된 특징 맵에 대하여 식(1)과 같은 합성곱연산을 수행하여 각각의 유사도를 생성한다.

OGCSBN_2022_v38n5_1_597_f0007.png 이미지

Fig. 6. Example of convolution map by features of base and target image.

\(\begin{aligned}\operatorname{Corr} \operatorname{Score}(i, j)=\sum_{k=0}^{W_{t}} \sum_{l=0}^{W_{t}} F_{b}(i, j) \times F_{t}(i, j)\\ \end{aligned}\)       (1)

최종적으로, 계산된 유사도 정보들을 Fig. 7과 같이 denseblock에 적용하여 매칭점을 추출하였다(Huang et al., 2018). Denseblock은 여러 개의 합성곱층 및 활성화 함수 그리고 배치정규화 층을 통해 학습을 진행하며, 직전 특징맵들을 모두 입력자료로 활용하기 때문에, 네트워크에 존재하는 파라미터수를 감소시키면서 효과적으로 모델의 깊이를 향상시킬 수 있다. 특히, 네트워크에서 추출된 각각의 특징들에 대하여 합성곱 연산이 수행된 매칭맵은 각기 다른 12개의 특징을 가지고 있다. Denseblock을 통해서 각각의 특징 맵들을 통합하여 최종적인 유사도 맵을 생성하였다.

OGCSBN_2022_v38n5_1_597_f0008.png 이미지

Fig. 7. Denseblock for image matching.

3) 손실함수

본 연구에서 제안된 딥러닝 모델은 매칭영상에서 최대값을 나타내는 1개의 위치를 추출한다. 이를 위하여 Hughes et al. (2020)이 제안한 매칭을 위한 딥러닝 모델의 훈련을 위하여 적용하여 손실함수를 활용하였다. 단, 본 연구에서는 제안된 네트워크에서 생성된 각 해상도별 결과에 대하여 손실함수를 개별적으로 적용한 후, 해당 손실함수 값들을 합산하여 훈련에 활용하였다. 첫번째로, 공간 소프트맥스(spatial softmax) 함수를 활용하여 딥러닝 모델에서 생성된 영상 ŷ에 대한 전체의 값을 1로 만드는 정규화를 수행하고, 식(2)를 이용하여 참조자료 y와 정규화된 영상 fss(ŷ) 간의 Mean Squared Error(MSE)를 계산한다. 여기서, w는 참조자료 내에서 0과 1값 사이의 비대칭을 보정하기 위한 가중치이며, 참조자료를 기준으로 0과 1값의 상대적인 비율을 이용하여 계산하였다.

\(\begin{aligned}L_{m s e}=\frac{1}{W \times H} \sum w\left(y-f_{s s}(\hat{y})\right)^{2}\\ \end{aligned}\)       (2)

한편, 손실함수에 의한 훈련결과가 과적합(over-fitting)되는 것을 방지하기 위하여, L1 정규화를 추가하여 최종적으로 식(3)과 같은 손실함수를 본 연구에서 사용하였으며, 정규화의 비율을 조정하기 위한 변수 λ는 0.0001의 값을 사용하였다.

Lcorr = Lmse + λΣ | ŷ |       (3)

4. 실험결과 및 분석

본 연구에서 제안한 HRNet-CorrConv-DenseNet은 항공정사영상을 이용하여 생성된 훈련자료를 이용하여 학습을 수행하였다. 또한, 학습에 수행하지 않은 자료를 이용하여 모델의 성능을 검증하고자 하였다. 딥러닝 모델을 통하여 생성된 매칭영상에서 추출된 값 중에서 가장 큰 값의 위치를 매칭 위치로 선정하였으며, 자료 제작 시에 무작위로 생성한 위치 값의 거리 차이를 계산하였다. 모델에 위하여 추출된 매칭결과는 참조자료의 위치값을 기준으로 한 오차의 크기별로 매칭률을 통하여 모델의 성능을 평가하고자 하였다.

1) 모델 학습

모델의 학습은 Pytorch를 이용하여 수행하였으며, 모델의 훈련에 사용한 파라미터(hyperparameter)는 Table 1과 같이 설정하였다.

Table 1. Hyperparameter for training

OGCSBN_2022_v38n5_1_597_t0001.png 이미지

2) Zero Normalized Cross Correlation (ZNCC)

본 연구에서 제안하는 기법과의 평가를 위하여 영역기반 매칭기법인 ZNCC를 사용하여 비교평가를 수행하였다. ZNCC는 기준영상과 목표영상의 화소값에 대한 유사도를 측정하는 방법이며, 식(4)와 같다.

\(\begin{aligned}\operatorname{ZNCC}(i, j)=\sum_{b=0}^{3} \sum_{k=0}^{H_{t}} \sum_{l=0}^{W_{t}} \frac{\left(F_{b}(i+k, j+l, b)-\overline{F_{b}}\right)\left(F_{t}(i+k, j+l, b)-\overline{F_{t}}\right)}{\sum_{k=0}^{H_{t}} \sum_{l=0}^{W_{t}}\left(F_{b}(i+k, j+l, b)-\overline{F_{b}}\right)^{2} \sum_{i=0}^{h} \sum_{j=0}^{w}\left(F_{t}(i+k, j+l, b)-\overline{F_{t}}\right)^{2}}\\ \end{aligned}\)       (4)

(i, j)위치에서의 ZNCC 값은 R, G, B 3개의 밴드 각각 모두 ZNCC를 구해서 더함으로써 계산되어진다. 따라서 위의 식에서 Ht, Wt는 목표영상의 크기이며, b는 밴드를 나타낸다. Fb(i+k, j+l, b)와 Ft(i+k, j+l, b)는 b밴드(i+k, j+l) 위치에서의 기준영상 및 목표영상의 화소값이고, \(\overline{F_{b}}\)는 기준영상의 평균, \(\overline{F_{t}}\)는 목표영상의 평균이다.

3) 모델 적용 결과 및 분석

학습된 HRNet-CorrConv-DenseNet 모델을 활용하여 서로 다른 시기의 두 입력 영상에 대해 매칭영상을 생성하고 최대값을 이용하여 매칭점을 추출하고자 하였다. Fig. 8–13은 ZNCC와 딥러닝 모델을 이용하여 매칭영상 결과와 매칭점의 위치이다. 첫 번째로 Fig. 8과 같이 교량과 하천으로 구성 되어있는 영상에서의 매칭결과의 예이다. ZNCC의 경우 교량을 주된 특징으로 잡으며, 하천에 대한 정보는 하천변의 식생의 발육 정보 및 하천색에 대한 차이로 인하여 오차가 발생하는 것으로 보이며 가로방향으로 22화소의 오차가 발생하였다. 딥러닝 모델의 결과는 교량의 선형을 특징으로 주로 보고있으나 전체적인 영역에 대하여 특징을 이용하여 매칭영상을 생성하는 것으로 확인되며 오차가 발생하지 않았다.

OGCSBN_2022_v38n5_1_597_f0009.png 이미지

Fig. 8. 1st Example of image matching results: (a) base image (red box: matching area by ZNCC, blue box: matching aera by proposed algorithm, red cross: center point of matching area by ZNCC, blue cross: center point of matching area by proposed algorithm, green cross: center point of ground truth data), (b) target image, (c) ground truth data, (d) correlation map by ZNCC, (e) correlation map by the proposed algorithm.

두 번째는 Fig. 9과 같이 농지와 농로로 구성되어있는 영상에 대한 매칭이다. NCC의 경우 농로의 선형 그리고 농지의 패턴을 이용하여 유사도를 계산하는 것으로 보인다. 그러나 두 영상에 존재하는 농지의 색상이 다름으로 인하여 오차가 발생하였으며, 세로방향으로 30화소, 가로방향으로 38화소의 오차가 발생하였다. 딥러닝 모델의 결과는 농로를 기준으로 보고 있으나, 농지의 경우 색상보다 패턴을 활용하여 매칭영상을 생성하여 오차가 발생하지 않았다.

OGCSBN_2022_v38n5_1_597_f0010.png 이미지

Fig. 9. 2nd Example of image matching results: (a) base image (red box: matching area by ZNCC, blue box: matching aera by proposed algorithm, red cross: center point of matching area by ZNCC, blue cross: center point of matching area by proposed algorithm, green cross: center point of ground truth data), (b) target image, (c) ground truth data, (d) correlation map by ZNCC, (e) correlation map by the proposed algorithm.

세 번째로 Fig. 10과 같이 산지에서 나무와 묘지 그리고 논으로 구성되어있는 영상에서의 매칭이다. 두 영상에서 흙으로 구성된 부분이 많이 중첩되는 위치에서 NCC 매칭영상의 값이 높은 것을 확인할 수 있으며, 세로축으로 60화소, 가로축으로 31화소의 오차가 발생하였다. 하지만 딥러닝 모델의 경우 나무, 묘지, 논의 외곽부분의 형태로 매칭영상을 생성하는 것으로 확인되며, 오차가 발생하지 않았다.

OGCSBN_2022_v38n5_1_597_f0011.png 이미지

Fig. 10. 3rd Example of image matching results: (a) base image (red box: matching area by ZNCC, blue box: matching aera by proposed algorithm, red cross: center point of matching area by ZNCC, blue cross: center point of matching area by proposed algorithm, green cross: center point of ground truth data), (b) target image, (c) ground truth data, (d) correlation map by ZNCC, (e) correlation map by the proposed algorithm.

네 번째로 Fig. 11과 같이 도심지로 구성되어 있는 영상에서의 매칭이다. 이 경우는 변화하지 않은 건물과 도로 등에 대한 정보로 인하여 NCC도 매칭점의 위치에서 주변지역보다 높은 유사도 나오는 것을 확인되며, 딥러닝 모델의 매칭영상에서 또한 매칭점을 잘 추출하는 것으로 나타났으며, 두 방법 모두 오차가 발생하지 않았다.

OGCSBN_2022_v38n5_1_597_f0012.png 이미지

Fig. 11. 4th Example of image matching results: (a) base image (red box: matching area by ZNCC, blue box: matching aera by proposed algorithm, red cross: center point of matching area by ZNCC, blue cross: center point of matching area by proposed algorithm, green cross: center point of ground truth data), (b) target image, (c) ground truth data, (d) correlation map by ZNCC, (e) correlation map by the proposed algorithm.

딥러닝 모델을 통하여 추출된 매칭결과는 전체적으로 좋은 결과를 나타내었지만, Fig. 12, 13과 같이, 새로운 건물이 영상 전체에 걸쳐 있는 경우, 식생의 변화로 인하여 차이가 심해지는 산지로만 구성되어 있거나, 확연하게 달라진 지역에 대해서는 제안된 기법을 활용하여도 정확한 매칭위치를 찾지 못하였다. 그러나 육안 판독을 통해서도 해당 매칭위치를 정확하게 찾아내는 것을 불가능하기 때문에, 해당 부분들은 향후 다양한 기법 등을 통하여 해결하거나, 해당 오매칭 결과를 제거하는 기법이 필요할 것으로 판단된다.

OGCSBN_2022_v38n5_1_597_f0013.png 이미지

Fig. 12. 5th Example of image matching results: (a) base image (red box: matching area by ZNCC, blue box: matching aera by proposed algorithm, red cross: center point of matching area by ZNCC, blue cross: center point of matching area by proposed algorithm, green cross: center point of ground truth data), (b) target image, (c) ground truth data, (d) correlation map by ZNCC, (e) correlation map by the proposed algorithm.

OGCSBN_2022_v38n5_1_597_f0014.png 이미지

Fig. 13. 6th Example of image matching results: (a) base image (red box: matching area by ZNCC, blue box: matching aera by proposed algorithm, red cross: center point of matching area by ZNCC, blue cross: center point of matching area by proposed algorithm, green cross: center point of ground truth data), (b) target image, (c) ground truth data, (d) correlation map by ZNCC, (e) correlation map by the proposed algorithm.

본 연구에서 제작한 총 842개의 평가용 실험영상을 사용하여 NCC와 딥러닝 모델을 적용하여 추출한 매칭위치에 대한 매칭률 결과는 Fig. 14와 같다. Fig. 14는 허용오차 대비 영상의 매칭률을 나타낸 것으로써, 허용오차 미만으로 오차가 발생하였을 때 매칭을 성공했다고 판단한다. NCC의 경우 매칭점의 오차가 없는 영상은 481장으로써 57%로의 비율로 나타났다. 그리고 전체영상의 80%에 대한 평균 매칭률 오차는 25화소로 발생하였다. 딥러닝 모델에 의한 영상 매칭의 경우, 매칭결과의 오차가 없는 경우는 총 403장으로, 48%의 비율이었으며, 전체영상의 80%에 대한 매칭률 오차는 3화소로 나타났다. 따라서, 딥러닝 기법에 의한 결과가 다시기 영상에 대하여 더욱 강건하게 영상 매칭을 수행할 수 있을 것으로 판단하였다. 오차가 없는 영상의 경우, NCC에 의한 결과가 10% 가량 우수한 결과를 나타내었으나, 실제 다시기 영상 패치간 실제 참조자료 내에서도 0–1 화소 간의 오차가 내재된다는 점에서는 제안된 기법에 의한 결과가 우수한 결과를 나타내고 있다고 할 수 있다.

OGCSBN_2022_v38n5_1_597_f0015.png 이미지

Fig. 14. Results by image matching rate corresponding to each algorithm.

영상 매칭 과정에서 발생하는 오차의 경향을 파악하기 위하여, 영상 매칭 결과에 대한 x, y 축 별 오차의 방향을 도식화하였다. Fig. 15(a), (b)에서 확인할 수 있는 것과 같이, 딥러닝 모델에 의한 매칭 결과는 NCC에 의한 매칭결과와 비교하여 오차 범위가 매우 좁은 것을 확인할 수 있다.

OGCSBN_2022_v38n5_1_597_f0016.png 이미지

Fig. 15. Distribution of horizontal and vertical error corresponding to each algorithm: (a) distribution by HRNet-CorrConv-Denseblock, (b) distribution by ZNCC.

5. 결론

본 연구에서는 시계열 원격탐사 자료를 활용하기 위하여 딥러닝 기법을 이용한 영상매칭 방법을 제안하였다. 이를 위하여 의미론적 분할에 활용 가능한 HRNet을 이용하여 특징맵을 생성하였고, 매칭하고자 하는 두개의 영상의 특징맵으로 합성곱 연산을 하여 영상 매칭의 결과로 활용할 수 있는 영상 간 유사도를 계산하였다. 또한, denseblock을 활용하여 유사도를 통한 매칭 위치의 정확도를 향상시키고자 하였다. 실험결과, 제안된 HRNet-CorrConv-DenseNet 모델은 서로 다른 시기의 두 영상에 대하여 효과적으로 매칭점을 산정할 수 있음을 확인하였다. 하지만 식생의 발달 정도에 따라 쉽게 영상의 구성이 달라지는 산지나, 농지 그리고 유량의 정도에 따라 강변의 폭이 달라지는 경우, 그리고 새로운 구조물이 생성됨에 따라 영상의 구성이 확연히 달라지는 경우에는 딥러닝 모델에서 또한 매칭점을 찾지 못하는 것을 확인하였다. 향후 산정된 매칭점에 대하여 참, 거짓을 판단하는 연구가 필요할 것으로 판단된다. 또한, 본 연구는 항공영상을 대상으로 진행되었기 때문에, 향후 고해상도 위성영상 간의 상호좌표등록 및 영상 정합을 위한 연구로 확장되어야 할 것이다.

사사

이 논문은 과학기술정보통신부 및 정보통신산업진흥원의 ‘고성능 컴퓨팅 지원’ 사업으로부터 지원을 받아 수행하였으며, 2020년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행되었음(NRF-2020R1I1A3A04037483). 이에 감사드립니다.

References

  1. Chung. M and Y. Kim, 2020. Analysis on topographic normalization methods for 2019 Gangneung-East Sea wildfire area using PlanetScope imagery, Korean Journal of Remote Sensing, 36(2-1): 179-197 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2020.36.2.1.7
  2. Huang, G., Z. Liu, L. Van Der Maaten, and K.Q. Weinberger, 2017. Densely connected convolutional networks, arXiv preprint arXiv:1608.06993. https://doi.org/10.48550/arXiv.1608.06993
  3. Hughes, L., D. Marcos, S. Lobry, D. Tuia, and M. Schmitt, 2020. A deep learning framework for matching of SAR and optical imagery, ISPRS Journal of Photogrammetry and Remote Sensing, 169: 166-179. https://doi.org/10.1016/j.isprsjprs.2020.09.012
  4. Kim, E., B. Lee, and J. Lim, 2019. Forest damage detection using daily normal vegetation index based on time series LANDSAT images, Korean Journal of Remote Sensing, 35(6-2): 1133-1148 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2019.35.6.2.9
  5. Kuglin, C. and D. Hines, 1975. The phase correlation image alignment method, Proc. of IEEE 1975 International Conference on Cybernetics and Society, San Francisco, CA, Sep. 23-25, pp. 163-165.
  6. Li, L., L. Han, M. Ding, H. Cao, and H. Hu, 2021. A deep learning semantic template matching framework for remote sensing image registration, ISPRS Journal of Photogrammetry and Remote Sensing, 181: 205-217. https://doi.org/10.1016/j.isprsjprs.2021.09.012
  7. Merkle, N., W. Luo, S. Auer, R. Muller, and R. Urtasun, 2017. Exploiting deep matching and SAR data for the geo-localization accuracy improvement of optical satellite images, Remote Sensing, 9(6):586. https://doi.org/10.3390/rs9060586
  8. Rocco, I., M. Cimpoi, R. Arandjelovic, A. Torii, T. Pajdla, and J. Sivic, 2020. NCNet: neighborhood consensus networks for estimating image correspondences, IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(2): 1020-1034. https://doi.org/10.1109/TPAMI.2020.3016711
  9. Rocco, I., R. Arandjelovic, and J. Sivic, 2017. Convolutional neural network architecture for geometric matching, arXiv preprint arXiv:1703.05593. https://doi.org/10.48550/arXiv.1703.05593
  10. Seong, S., J. Mo, S. Na, and J. Choi, 2021. Attention gated FC-DenseNet for extracting crop cultivation area by multispectral satellite imagery, Korean Journal of Remote Sensing, 37(5-1): 1061-1071 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2021.37.5.1.18
  11. Wang, J., K. Sun, T. Cheng, B. Jiang, C. Deng, Y. Zhao, D. Liu, Y. Mu, M. Tan, X. Wang, W. Liu, and B. Xiao, 2019. Deep high-resolution representation learning for visual recognition, arXiv preprint arXiv:198.07919. https://doi.org/10.48550/arXiv.1908.07919
  12. Zitova, B and J. Flusser, 2003. Image registration methods: a survey, Image and Vision Computing, 21(11): 997-1000. https://doi.org/10.1016/S0262-8856(03)00137-9