DOI QR코드

DOI QR Code

원격 탐사 영상을 활용한 CNN 기반의 초해상화 기법 연구

A Study of CNN-based Super-Resolution Method for Remote Sensing Image

  • 최연주 (한국항공우주연구원 인공지능연구실 선임연구원) ;
  • 김민식 (나라스페이스 테크놀로지 연구원) ;
  • 김용우 (상명대학교 시스템반도체공학과 조교수) ;
  • 한상혁 (한국항공우주연구원 인공지능연구실 책임연구원)
  • Choi, Yeonju (Senior Researcher, Artificial Intelligence Research Section, Korea Aerospace Research Institute) ;
  • Kim, Minsik (Researcher, Naraspace Technology) ;
  • Kim, Yongwoo (Assistant Professor, Department of System Semiconductor Engineering, Sangmyung University) ;
  • Han, Sanghyuck (Principal Researcher, Artificial Intelligence Research Section, Korea Aerospace Research Institute)
  • 투고 : 2020.06.04
  • 심사 : 2020.06.16
  • 발행 : 2020.06.30

초록

초해상화 기법은 저해상도 영상을 고해상도 영상으로 변환하는 기법이다. 최근에는 딥러닝 기술을 활용한 초해상화 방법이 주류를 이루고 있으며, 원격 탐사 분야에서도 이를 응용한 연구가 증가하고 있다. 본 연구에서는 위성 영상의 4배 해상도 향상을 위하여 deep back-projection network (DBPN) 네트워크에 기반한 초해상화 기법을 제안하였다. 또한, 복원된 영상의 디테일 및 윤곽선 부분에서의 고품질 영상 획득을 위해 윤곽선 손실 함수를 제안하고, 효과적이고 안정적인 학습을 위하여 Wasserstein distance 손실 함수를 사용한 GAN 기법을 적용하였다. 또한, 자연스러운 저해상도 훈련 영상을 획득하기 위한 detail preserving image downscaling (DPID) 기법을 적용하였다. 마지막으로 전정 영상의 특징을 추출하여 훈련의 마지막 단계에 적용 시킴으로써 출력 영상의 세부적인 특징을 효과적으로 생성하였다. 그 결과 실험에 사용된 WorldView-3 영상 및 KOMPSAT-2 영상에서 해상도 향상 효과를 확인하였고, 다른 초해상화 모델에 대비하여 윤곽선 보존력이나 영상의 선명도가 향상 되었음을 확인하였다

Super-resolution is a technique used to reconstruct an image with low-resolution into that of high-resolution. Recently, deep-learning based super resolution has become the mainstream, and applications of these methods are widely used in the remote sensing field. In this paper, we propose a super-resolution method based on the deep back-projection network model to improve the satellite image resolution by the factor of four. In the process, we customized the loss function with the edge loss to result in a more detailed feature of the boundary of each object and to improve the stability of the model training using generative adversarial network based on Wasserstein distance loss. Also, we have applied the detail preserving image down-scaling method to enhance the naturalness of the training output. Finally, by including the modified-residual learning with a panchromatic feature in the final step of the training process. Our proposed method is able to reconstruct fine features and high frequency information. Comparing the results of our method with that of the others, we propose that the super-resolution method improves the sharpness and the clarity of WorldView-3 and KOMPSAT-2 images.

키워드

1. 서론

광대역 및 다양한 파장에 대하여 동시 분석이 가능한 원격 탐사 분야는 끊임없이 발전하고 있으며, 최신 기술과 접목하여 응용 범위가 날로 확대되고 있다. 특히, 객체를 좀더 정확하게 탐지하고 관측하기 위하여, 고해상도 위성 영상의 필요성이 날로 증대되고 있다. 초해상화(Super-Resolution, SR) 기법은 저해상도 영상에서 고해상도의 영상을 획득하는 기술을 의미하며, 주로 자연 영상을 대상으로 한 초해상화 기법이 연구되어 왔다. 최근 들어, 원격 탐사 분야에서도 공간 해상도를 향상시키기 위한 초해상화 기술을 적용하려는 연구가 활발히 이루어지고 있다(Park et al., 2003).

초해상화 기법은 훈련 시 사용하는 입력 저해상도 영상의 수에 따라 일반적으로 두 종류로 구분된다. 동일지역에 대한 시계열 정보를 이용하는 다중 영상 초해상화 기법과 단일 영상만을 사용하는 단일 영상 초해상화기법이 있다. 동일한 지역에 대한 다수의 저해상도 영상이 하나의 고해상도 영상 복원을 위해 사용되는 다중영상 초해상화 기법은(Fernandez-Beltran et al., 2017) 영상 품질 향상을 위하여 전통적으로 활용되던 방식이다. 하지만 일반적인 위성 영상은 구름이나 눈과 같은 기상 조건 및 이동체나 갑작스런 자연 재해(폭우, 산불)등과 같은 통제 불가능한 요인들로 인하여, 해당 지역에 대하여 동일 촬영 조건의 영상을 얻는 것이 쉽지 않다. 이와 반대로 단일 영상 초해상화 기법은 오직 한 장의 입력 영상만을 사용하여 초해상화 영상을 생성하며, 편리성과 높은 효율로 인하여 점점 관심이 높아지고 있다.

한편, 단일 영상 초해상화 기법은 방식에 따라 보간법(interpolation), 복원 기법(reconstruction) 및 훈련 기반으로 나뉜다. Bicubic, bilinear와 같은 보간 기법은 빠르고 간편하게 계산되지만, 목표 픽셀에 인접한 픽셀의 정보만 활용한다는 점에서 출력 영상이 흐릿해지는 현상이 나타나거나, 부자연스러운 구조가 생성되기도 한다(Keys, 1981). 복원 기반의 Yan et al. (2015) 기법은 영상 내 보유된 사전 지식 정보를 통해 출력 영상의 재현 가능성을 제한해 가면서, 영상의 세밀함을 복원해낸다. 하지만, 영상의 해상도가 증가할수록 계산에 많은 시간이 소요되며 영상 복원 성능이 저하된다는 단점이 있다.

학습 기반의 단일 영상 초해상화 기법은 사례 기반(example-based) 초해상화 기법으로 알려져 있으며, 최근에는 딥러닝 기술이 발전함에 따라 심층 신경망 네트워크(convolution neural network, CNN)를 활용한 연구가 많이 진행되고 있으며, 빠른 계산 속도와 높은 성능으로 인하여 관심이 증대되고 있다. 초해상화 기술에서의 저해상도 영상은 원본 영상의 윤곽선과 질감과 같은 고주파수 정보를 잃은 상태를 의미하며, 초해상화 기술의 핵심은 손실된 고주파 정보를 복원해 내는 것이다.

Dong et al. (2014) 은 세 개의 층으로 구성된 심층 신경망 네트워크인 SRCNN (Super-Resolution Convolutional Neural Network)을 처음으로 제안하였다. 이 기법은 원본 영상을 전처리 단계에서 bicubic 방식으로 다운 샘플링하여 저해상도 영상을 만든다. 이후 저해상도 영상에서부터 생성된 흐릿한 영상과 선명한 고해상도 원본 영상 사이의 특징을 학습함으로써 네트워크를 강화 시키게 된다. Kim et al. (2015)은 잔차 성분을 학습하는 20개의 층으로 구성된 깊은 심층 신경망 네트워크 구성하여 높은 영상 복원 성능을 보이는 모델을 제안하였다. 하지만, 위에서 언급된 논문들의 경우 픽셀 별로 실제 값과 예측 값 사이의 오차의 절대값을 취하는 L1 손실 함수와 두 값 간의 오차를 제곱한 값을 모두 더한 L2 손실함수를 일반적으로 사용하는데, 이를 사용할 경우 복원된 초해상화 영상에서 윤곽선 부분이 흐려지는 문제가 있다. 이와 같은 문제는 해상도의 스케일 커지면서 더욱 두드러지게 나타나며, 특히 4배로 향상된 영상에서는 그 현상이 강조되어 나타난다. 이를 극복하기 위해 적대적 생성 신경망(Generative Adversarial Network, GAN) 기반의 초해상화 모델이 제안되었으며, Ledig et al. (2017)는 GAN 기반의 4배 향상 알고리즘인 Super-Resolution Generative Adversarial Network (SRGAN)을 제안하였다. 유클리드 거리를 사용한 L1 손실 함수나 L2 손실 함수에 대비해, GAN 기법을 적용한 초해상화의 출력 영상의 경우 윤곽선 부분이 더욱 선명해지는 효과를 보임이 확인되었으나, 여전히 원본 저해상도 영상과 출력 영상 사이의 색상이 달라지는 문제가 나타나고 있다.

최근에는 일반 자연 영상과 마찬가지로 원격 탐사 영상을 활용한 초해상화 연구도 활발하게 이루어 지고 있다. Liebel and Körner (2016)은 위성 영상의 다중 분광의 특징을 활용할 수 있는 학습 모델을 제안하였으며,Bosch et al. (2017)는 GAN 기반의 깊은 네트워크를 구성하여 위성 영상의 해상도를 최대 8배까지 향상 시키는 연구를 진행하였다. 하지만 위성 영상에 적용한 연구에서도 여전히 GAN 기반 초해상화 기법에서 발생하는 문제점인 색상 왜곡 등의 현상이 동일하게 나타난다.

본 연구에서는 명확한 윤곽선 표현 및 원본 저해상도 영상의 색감을 자연스럽게 유지하면서 영상의 해상도를 4배 향상하기 위한 초해상화 모델을 제안하고, 이를 훈련하기 위한 새로운 손실 함수를 제안하였다. 본 논문에서 제안하는 초해상화 네트워크 기법의 주요한 특징은 다음과 같다.

•위성 영상의 4배 해상도 향상을 위하여 deep backprojection network (DBPN) 기반 초해상화 네트워크를 구성하고, 전정 영상(panchromatic image)을 초해상화네트워크의 훈련 마지막 단계에 추가함으로써 잔차성분을 학습할 수 있도록 새로운 모델을 제안하였다.

•복원된 영상의 세부적인 구조 표현 및 윤곽선 부분에서의 고품질 영상 획득을 위해윤곽선 손실 함수(edgeloss)를 새롭게 제안하였다.

•자연스러운 저해상도 훈련 영상을 획득하기 위한 detail preserving image down-scaling (DPID) 기법을 적용하였다.

위에서 언급된 기법을 통해 WorldView-3 영상 및KOMPSAT-2 영상에서 해상도 향상 효과를 확인하였고, 다른 초해상화 모델에 대비하여 영상의 윤곽선의 표현 및 선명도가 향상됨을 확인하였다.

본 논문의 구성은 다음과 같다. 2장에서는 제안하는 연구 방법에 대해 설명하고, 3장에서는 제안한 초해상화 기법의 성능을 확인하기 위한 실험 환경 및 구현 방법에 대해 기술하고, 4장에서는 제안하는 초해상화 기법의 성능 평가 결과를 기술하였다. 마지막으로 5장에서는 결론으로 연구 결과 및 시사점에 대해 논의하였다.

2. 연구 방법

1) 초해상화 모델 구조

본 연구에서 제안하는 네트워크는 생성 네트워크(generator network)와 구분네트워크(discriminator network)로 구성되는 GAN을 기본 구조로 사용하였으며, 생성네트워크는 Haris et al. (2018)가 제안한 DBPN 네트워크를 기반으로 구성하였다. DBPN은 Fig. 1에서 보는 바와 같이, 입력된 특징 맵을 확대하는 업 블록과 축소하는 다운 블록을 반복적으로 구성하는 형태이다. 또한, 각 단계마다 오차를 계산하여 네트워크에 피드백을 전달한다.

생성 네트워크는 특징 추출 단계, 역 투영 단계, 복원단계인 세 개의 블록으로 구성된다. 저해상화 영상과 원본 고해상도 영상 사이의 특징 추출 맵 사이에서 교차로 구성된 투영 층을 추가하였다. 투영 층의 필터 크기는 향상시키는 해상도의 변화 비율에 따라 변화하며, 본연구에서는 4배 확대를 위하여, 8 × 8 커널을 사용하고, stride 를 4로 설정하였다. 또한, 좀 더 정밀하고 선명한 영상을 얻기 위하여, DBPN 네트워크에 잔차 맵과 저하시킨 전정 영상의 특징 맵을 마지막 단계에 추가하였다. 여기에서, 전정 영상은 연속된 수백의 파장대역 정보가 하나로 표현된 흑백 영상으로 분광력은 낮지만 높은 SNR (Signal to Noise Ratio) 을 지니고 있어, 다중 분광 영상보다 공간 해상도가 뛰어나다. 다중 분광 영상은 이와 달리 분광 해상도가 뛰어나 분광 특성을 이용한 지형 모니터링 등에 활용된다.

본 연구에서는 다중 분광 영상을 입력으로 하는 훈련 모델에 추출된 전정 영상 정보를 학습하는 층을 추가하고, 이에 따른 효과를 알아보기 위해, Fig. 1에서와 같이 생성 네트워크를 두 가지 방법으로 훈련하였다. 모델 1은 공간 해상도(Ground Sampling Distance, GSD)가0.3m인 전정 영상을 bicubic 기법으로 × 1/4 저하시킨 영상을 사용하고, 모델 2는 대조군으로써 전정 영상이 아닌 모조 전정 영상(dummy pan)을 사용하여 훈련하였다. 모조 전정 영상은 GSD 1.2m를 가지는 원본 저해상도 다중 분광 영상을 일차적으로 전정 영상과 같은 흑백 영상으로 변환하였으며, 이후 bicubic으로 영상 해상도를 향상시킨 후 다시 저하시켜, 최종적으로 GSD 1.2m급의 영상을 생성하였다. 이렇게 생성된 두 종류의 훈련용 전정 영상들은 각각 업-다운 블록의 마지막 단계에 더해져 훈련된다.

OGCSBN_2020_v36n3_449_f0001.png 이미지

Fig. 1. Architecture of generator and discriminator network.

한편, GAN 기반의 초해상화 기법은 윤곽선 부분에서 높은 복원력이나 영상 선명도 향상의 성능을 보이지만, 훈련이 어려우며, 훈련 중 기울기 값이 사라지는 문제를 일으키는 한계가 있음이 밝혀졌다. 이를 극복하기 위하여, 본 연구에서는 훈련에 안정적이고 수렴속도가 빠르다고 알려진 Wasserstein GAN 기법을 구별 손실 함수로 사용하였으며, Arjovsky et al. (2017) 제안 모델 중 구별 네트워크의 마지막 층의 활성화 함수를 제거하여 재구성하였다.

2) 손실 함수

최근 초해상화 연구 분야에서는 생성 영상의 해상도를 높이기 위하여 다양한 방식의 손실 함수가 연구되고 있으며, Johnson et al.(2016)는 원본 고해상도 영상과 생성된 저해상도 영상 사이의 유클리드 거리와 같은 픽셀 기반의 손실 함수를 제안하였다. 본 연구에서는 학습 과정 동안 네트워크를 효과적으로 수렴시키고, 성능을 향상시키기 위하여 다양한 조합으로 손실 함수를 구성하였다. 특히, 일반적인 픽셀 기반의 손실 함수를 사용하는 대신 영상 내의 지역적인 패턴 특징을 쉽게 추출하기 위하여 윤곽선 손실 함수를 제안하였고, 이는 윤곽선이 영상 인지 관점에서 볼 때 영상의 특징을 표현하는 중요한 요소로 작용하기 때문이다. 식 (1)은 lossedge 항목을 추가하여 본 모델에서 최종적으로 제안하는 손실 함수이다.

total loss = lossadv + lossedge + lossl2 + lossvgg       (1)

식 (1)에서 lossl2는 네트워크에서 생성된 영상과 원본 영상과의 차이를 통해 계산되며, lossvgg는 시각적 인지 유사도를 향상 시키기 위하여 추가하였으며, 미리 훈련된 VGG 19(Simonyan and Zisserman, 2014) 활용하여, 생성 영상과 원본 영상 사이의 특징 맵과의 차이를 통해 계산된다. 마지막으로 lossadv는 생성 네트워크에서 원본 영상과 최대한 유사하게 출력 영상을 생성함으로써,구분 네트워크가 두 영상을 구별 해내기 어렵게 하기 위한 역할을 한다.

한편, 심층 신경망 네트워크에서는 필터를 사용하여 근접한 픽셀 사이의 유사성을 학습하고, 이를 통해 지역적인 특징을 학습하게 된다. 이러한 방식은 영상 내에서 공간적인 유사성을 지니거나, 경계면과 같은 특정한 형태를 나타내는 윤곽선 부분에 대한 추출에 효과적이다. 본 연구에서는 영상 내에서 윤곽선 손실 함수 값을 계산하기 위하여 Canny (Canny, 1986), Sobel (Feldman et al., 1969) 검출기를 활용하여 Fig. 2와 같이 윤곽선 추출 성능을 확인하였다. Canny는 노이즈에 강하지만 훈련에 많은 시간이 소요되며, Sobel은 Canny와 반대로 노이즈에 민감하지만, Fig. 2(c)에서 보는 바와 같이 스무딩 효과를 활용하기 때문에 계산이 쉽고, 추출 결과에서 정확도가 높다. 따라서 본 연구에서는 Sobel 필터를 사용하여 윤곽선을 추출하고, 이를 활용하여 식 (2)와 같이 윤곽선 손실 함수를 계산하였다.

OGCSBN_2020_v36n3_449_f0002.png 이미지

Fig. 2. Edge extraction results from original image (a) by Canny (b) and Sobel (c) operator

\(\text { lossedges }=\frac{\sum_{x=1}^{W} \sum_{y=1}^{H} E_{i, j}\left(\left|Y_{i, j}-X_{i, j}\right|\right)}{W H}\)       (2)

윤곽선 손실 함수는 원본 고해상도 영상인 Y와 제안한 초해상화 네트워크의 출력 영상 X(폭 W, 너비 H)와원본 고해상도 영상으로부터 얻은 윤곽선 맵 E로 구성된다. 두 영상 사이의 차와 생성된 윤곽선 맵 사이의 곱을 전체 영상의 폭과 너비에 따라 계산하고 이를 합산하여, 식 (1)에서 언급된 바와 같이 최종적으로 생성 네트워크의 손실 함수의 일부로 사용한다.

3) 훈련용 저해상화 입력 영상 생성 기법

초해상화 훈련 과정에서 원본 고해상도 영상으로부터 훈련용 저해상도 입력 영상을 생성하는 다운샘플링방법 중 하나는 bicubic, bilinear와 같은 수학적 보간 기법을 사용하는 것이다. 그러나 이 기법은 원본 영상(Fig.3(a))내의 중심 픽셀에 근접한 픽셀 만을 사용하여 계산하므로, 생성된 영상(Fig. 3(c))에서와 같이 경계면에서의 부자연스러움이나 깨짐 현상이 발생한다. 이러한 결과는 학습된 초해상화 네트워크에서 생성된 영상에서도 나타난다.

OGCSBN_2020_v36n3_449_f0003.png 이미지

Fig. 3. Raw image (a) and downscaling by DPID (b) and bicubic (c) method.

이러한 한계를 극복하기 위하여 우리는 Weber et al.(2016)가 제안한 detail preserving image down-scaling(DPID) 기법을 적용하였다. 해당 알고리즘은 컨볼루션 필터를 원본 영상에 적용함으로써 세부적인 정보의 손실이 최소화 되도록 제안되었다. 또한 업 샘플된 영상을 가이드 영상으로써 활용하고, 두 영상 간 차이를 강조하기 위하여 역 쌍방(inverse bilateral) 필터를 사용한다. 영상 내 모든 픽셀 마다 가중치 값을 다르게 할당하여 출력 영상을 생성하며, 입력된 영상의 평균 세기를 계산하여, 영상 내에서 높은 값을 지니는 픽셀의 중요성을 강조하는 방식이다. Fig. 3에서 보는 바와 같이 원본 Fig. 3(a)를 ×1/4 비율로 다운 샘플 하였을 경우, DPID 기법(Fig. 3(b))을 적용한 영상이 bicubic 기법(Fig. 3(c))을 사용한 영상에 비하여 세부적인 특징을 보존하며, 영상의 왜곡 현상이 감소 하였음을 확인할 수 있다. 이러한 특징을 이용하여 초해상화 훈련 과정 동안 고주파수 정보를 보존하게 만들도록 하였다.

3. 실험 및 방법

1) 위성 영상 데이터셋

본 연구에서 사용한 훈련 데이터는 WorldView-3(SpaceNet, 2020)이며, 시험 데이터셋으로는 WorldView3, Korea Multi-Purpose Satellite-2 (KOMPSAT-2)를 사용하였다. WorldView-3 영상은 스페이스넷 챌린지를 통해 배포된 데이터의 일부를 사용하였다. 본 실험에서는라스베가스, 파리, 상하이 등 지역에서 빌딩, 도로 등 다양한 환경이 포함되도록 데이터 셋을 선정하였으며, 공간 해상도 1.2m의 관심 지역(Area of Interest, AOI)- 2,3의 다중 분광 영상을 사용하였다. Table 1에는 본 연구에서 활용한 데이터 셋에 대한 자세한 사양이 기술되어있다. 일반적으로 한 장의 원본 영상은 대략 40,000 ×40,000 픽셀로 구성되어 있어, 원본 영상 그대로 훈련 및 평가를 수행하기 어렵기 때문에, 원본 영상에서 128 ×128 크기의 패치 단위로 50개의 임의 지역을 추출하여사용하였다. 또한 총 25장의 원본 영상 중에서 20장은 훈련, 5장은 시험에 사용하였으며, 제안하는 모델의 견고함을 확인하기 위하여 WorldView-3 만을 이용하여 학습된 모델 평가 시 KOMPSAT-2 위성 영상을 적용한 실험을 추가로 진행하였다.

Table 1. Data Specification

OGCSBN_2020_v36n3_449_t0001.png 이미지

2) 초해상화 모델 훈련 기법

본 연구는 pytorch 프레임워크를 사용하였으며, Fig.1에 묘사된 바와 같이 네트워크를 구성하였다. 모든 컨볼루션 층에서는 활성화 함수로 ReLU (Haris et al., 2018)를 사용하고, He uniform initializers (He et al., 2015)를 사용하였으며, 최적화 방법으로 Adam (Kingma and Ba,2014)을 사용하였다. 초기 학습률은 1e-4를 사용하였으며, 네트워크의 과적합을 방지하기 위하여, 훈련 동안 학습 속도 변화 비율을 작게 유지하였다. 구분 네트워크는 특징 맵 추출을 위하여 GAN 기반의 4개 층(64,128, 256, 512)으로 구성된 구조를 사용하였으며, 각 층의 필터 크기는 3 × 3, 4 × 4 중 선택적으로 구성하였다. Goodfellow et al. (2014) 논문에서 언급한 바와 같이 구분네트워크 훈련을 위해 가중치 범위를 (-0.01, 0.01)로 제한하였다. 훈련 및 평가에 사용한 시스템은 NVIDIA Titan X GPU 12GB RAM 사양이며, 모든 네트워크는 선 학습 후 매 50번마다 손실 값을 업데이트 하는 과정을 거쳤으며, 최종적으로 1,000,000번 반복하여 학습을 진행하였다.

Fig. 4는 제안한 초해상화 모델을 중심으로 WorldView-3 위성 영상의 해상도를 4배 향상시키는 훈련 과정을 묘사하고 있다. 2장 3절에서 설명한 바와 같이 훈련 데이터 셋에서 선택된 다중 분광 원본 영상은 DPID기법을 적용하여, 목표 해상도의 역수인 × 1/4만큼 다운샘플된 저해상도 입력 영상을 생성하게 된다. 이 영상은 정규화를 사용하여 전처리 과정을 거치게 된다. 또한 윤곽선 손실 함수 계산을 위한 윤곽선 추출을 거쳐, 패치 단위로 훈련 모델에 입력된다. 또한 2장 1절에서 기술한 바와 같이 원본 데이터 셋으로부터 전정 영상 및 다중 분광 영상을 추출한 후 각 단계를 거쳐 생성된 영상은 두가지 방식(모델 1, 2) 으로 생성 네트워크의 마지막 층에 추가되어 훈련된다.

OGCSBN_2020_v36n3_449_f0004.png 이미지

Fig. 4. Training Process

4. 결과

이 장에서는 제안한 초해상화 기법을 통해 복원한 위성 영상의 성능에 대하여 소개하고자 한다. 앞 절에서 기술한 바와 같이 제안된 모델은 가로, 세로 해상도가 각각 4배로 커지는 초해상화 네트워크 모델이다. 모델은 기본적으로 공간 해상도 1.2m의 WorldView-3 원본 다중 분광 영상을 × 1/4 다운 샘플한 공간 해상도 4.8m의 영상을 네트워크에 입력 받아, 원본과 같은 공간 해상도 1.2m의 초해상화 영상을 출력하도록 훈련되었다. 해당 모델의 성능을 확인하기 위하여 Fig. 5와 같이 총 세 가지 실험을 수행하였다. IHR은 원본 고해상도 영상이며, ILR는 이를 기반으로 해상도를 다운샘플링된 저해상도 영상이며, ISR은 초해상화 모델을 거쳐 나온 출력 영상이다.

OGCSBN_2020_v36n3_449_f0005.png 이미지

Fig. 5. Three types of performance test (a) for quantitative test (b), (c) for qualitative test.

Fig. 5(a)와 (b)에서의 실험은 훈련과 평가 모두 WorldView-3 영상으로 진행하였으며, Fig. 5의 (a)와 (b)의 차이는 훈련 시 사용한 모델에 있다. Fig. 5(a) 방법은 Fig. 4에 기술된 다운샘플된 모사 전정 영상을 적용한 모델 2를 훈련한 결과이다. 평가 1 에서는 원본 고해상도 GSD1.2m 인 다중 분광 영상을 × 1/4배 다운샘플한 영상(GSD 4.8m)을 네트워크에 입력 받아, 최종적으로 GSD1.2m의 초해상화 영상을 생성하게 되며, 이 출력 영상과 원본 다중 분광 영상과의 비교를 통하여 복원력 정도를 평가하였다.

Fig. 5(b)의 방법에서는 이와 달리 다운샘플된 전정 영상을 적용한 모델 1을 평가한 것이며, 원본 다중 분광 영상(GSD 1.2m)을 시험의 평가 입력 영상으로 활용하였다. Fig. 5(c)의 방법은 모델의 확장 가능성을 평가하기 위하여 진행하였으며, 훈련에 전혀 사용하지 않은 데이터 셋인 GSD 4m 를 가지는 KOMPSAT-2 다중 분광 영상을 시험 3의 입력 영상으로 사용하였다.

한편, 본 연구에서 제안한 초해상화 네트워크의 성능을 평가하기 위하여, 다른 두 기법으로 획득한 초해상화 결과 영상과 비교하였다. 그 중 하나인 bicubic 기법은 고전적인 보간 기법이며, 나머지 하나는 GAN을 사용한 초해상화 기법 중 하나로 높은 성능을 보이는ESRGAN (Wang et al., 2018)이다. 모든 시험 성능 평가는 정성적 평가인 육안 평가와 정량적 지표로 많이 사용되는 PSNR, RMSE 및 SSIM (Wang et al., 2004)과 같은 성능지표를 분석하였다.

원본에 대한 초해상화 기법의 복원력을 판단하기 위한 실험 1은 임의의 두 지역을 선정하여 수행하였으며, 결과는 Fig. 6과 7에서 확인할 수 있다. Fig. 6(a)는 공간 해상도 1.2m의 원본 다중 분광 영상(Fig. 6(e))을 × 1/4배 다운샘플한 공간 해상도 4.8m급의 저해상도 영상이며, 이 영상을 기반으로 bicubic, ESRGAN 및 제안 모델로 얻은 초해상화 영상이 각각 Fig. 6(b), (c) 와 (d)에 나열되어 있다. 가장 먼저 지역 1에 대한 육안 평가 결과를 살펴보면, bicubic 기법을 통해 생성된 영상(Fig. 6(b))에서는 전반적인 영상 구조 복원은 가능하나 선명도 저하 현상이 뚜렷하게 나타남을 확인하였다. ESRGAN 기법을 통해 얻은 영상(Fig. 6(c))은 bicubic 기법에 비하여 현실적이고 자연스러운 질감을 생성해 내지만, 지나치게 구조를 묘사함으로써 영상을 왜곡시키는 경향이 나타남을 확인하였다. 이와 달리 제안 모델의 초해상화 결과영상(Fig. 6(d))은 색감이나 구조 등을 원본 영상(Fig. 6(e))과 가장 비슷하게 복원해 냈다는 것을 확인할 수 있다.

OGCSBN_2020_v36n3_449_f0006.png 이미지

Fig. 6. Test 1 results (site1): down-sampled image (a), super-resolved image by bicubic (b), ESRGAN (c) and our method (d) and original MS image (e).

OGCSBN_2020_v36n3_449_f0007.png 이미지

Fig. 7. Test 1 results (site2): down-sampled image (a), super-resolved image by bicubic (b), ESRGAN (c) and our method (d) and original MS image (e).

또한 실험 1의 경우 비교 대상이 존재하므로 PSNR이나 RMSE와 같은 정량적 지표 값 산출을 통해 분석하는 것이 효과적이다. Table 2의 지역 1에서 보는 바와 같이 제안 모델의 PSNR 결과가 가장 높으며, 반대로 RMSE는 가장 낮은 것을 확인할 수 있다. ESRGAN의 경우 과한 세부 묘사로 인하여 PSNR의 값이 가장 낮게 나온 것으로 판단된다. 일반적으로 PSNR은 높을수록, RMSE 값은 낮을수록 원본과 유사한 특징을 나타내며, SSIM은 1에 가까울수록 원본과 유사한 지표이다.

Table 2. Test1 results with error metric

OGCSBN_2020_v36n3_449_t0002.png 이미지

지역2에대한결과는Fig. 7에묘사되어있으며, bicubic 기법을 적용한 결과 영상(Fig. 7(b))은 지역 1의 결과와 마찬가지로 색감은 유사하나 구조물 사이의 구분이 불명확하게 표현되었다. 육안 평가 결과 세부적인 질감을 복원해 내는 데 있어서는 ESRGAN 결과(Fig. 7(c))가 우세하지만, 본 연구에서 제안한 기법으로 생성한 결과 영상(Fig. 7(d))이 색감이나 전체적인 구조를 복원해 내는 데는 훨씬 정확하다는 것을 알 수 있다. 이러한 명확한 구조 표현은 제안한 윤곽선 손실 함수 및 DPID 기법을 적용한 결과로 판단된다.

Table 2의 지역 2 결과를 보면, 육안 평과 결과와는 달리 bicubic 기법을 적용한 영상의 PSNR 및 RMSE가 가장 좋게 나오고 있으며, 두 지역 결과 모두 SSIM 값은 본연구에서 제안한 모델이 가장 좋은 것으로 나타났다. 이는 Liebel and Körner (2016)이 언급했듯이, 본 연구 결과에서도 성능 지표의 개별적 수치만으로는 초해상화 성능 및 영상 품질을 대변할 수는 없으며, 육안 평가 및 다양한 성능 지표 수치 분석 등의 다각도 분석이 필요함을 의미한다.

Fig. 5에서 언급된 실험 2 방법은 실험 1과 달리 다운 샘플링된 전정 영상을 기반으로 하는 모델 1로 훈련한 결과이며, 해상도를 저하시키지 않은 원본 다중 분광 영상을 입력으로 하여, 해상도 향상 정도를 확인하고자 수행되었다. 출력 결과는 Fig. 5의 실험 1 방법과 마찬가지로 bicubic, ESRGAN 기법 결과와 비교하였으며, Pansharpened (PS) 영상과 비교 하였다. 다만, 실험 2 방법은 대조할 수 있는 원본 영상이 존재하지 않음으로 PSNR,RMSE 및 SSIM과 같은 정량적 지표를 산출할 수 없다. Fig. 8은 Fig. 7과 마찬가지로 임의의 두 지역을 선정하여 시험한 결과를 나타내고 있다. Fig. 8(a)와 (e)는 bicubic 기법으로 얻은 영상이며, Fig. 8(b)와 (f)은 ESRGAN 기법으로 얻은 영상이다. Fig. 8(c)와 (g)는 본 연구에서 제안한 초해상화 모델을 적용한 결과이며, PS 영상은 Fig.8(d)와 (h)에 각각 나타나있다.

OGCSBN_2020_v36n3_449_f0008.png 이미지

Fig. 8. Test 2 result of two sites: super-resolved image by bicubic (a), (e), ESRGAN (b), (f) and Ours (c), (g) and original PS image (d), (h).

Fig. 8(b)에서 보는 바와 같이 ESRGAN 기법의 결과 영상에서는 나뭇잎과 같은 세부 질감을 잘 표현하고, 윤곽선에 대한 강조도 뚜렷이 나타나는 것으로 보인다. 하지만 PS 영상(Fig. 8(d))과는 달리 지붕 표면 질감 및 거칠기를 유지하는데 실패하였으며, 과도한 묘사로 인하여 건물이 일그러져 보이는 것을 확인할 수 있다. 제안하는 모델 결과인 Fig. 8(c)는 Fig. 8(b)와 비교하여 지붕 표면 질감 및 거칠기를 잘 보존하는 것을 확인 할 수 있다.

또한 Fig. 8(g)와 (h)를 비교해 보면, 제안하는 모델의 결과 영상인 Fig. 8(g)에서는 PS영상 Fig. 8(h)에서 보이는 바와 같이 주차된 차량 두대가 명확히 구분되며, 각각의 형태를 그대로 표현한 것을 확인할 수 있다. 이와는 달리 bicubic 기법(Fig. 8(e))의 결과 영상에서는 차량이 형태를 알아 볼 수 없을 정도로 불명확하게 표현 되었으며, ESRGAN 기법의 결과 영상 Fig. 8(f)에서는 차량 두대가 뒤엉켜서 표현되어, 구분 되지 않는 결과를 보이고 있다.

이를 통하여 본 논문에서 제안하는 모델은 다운샘플링된 영상의 원본 정보 복원 및 원본 영상의 자체의 해상도도 향상 시키는데 효과를 보이고 있음을 확인하였다. 특히, Fig. 4에서 설명한 제안 모델 2에 비하여 월등히 향상된 모델1의 성능은 저하된 전정 영상 특징을 생성 네트워크에 추가 함으로써 영상의 세밀한 부분까지 표현하는데 도움이 되었음을 확인하였다.

마지막으로 Fig. 5에서 묘사된 실험 3 방법은 모델의 확장성 및 견고함을 확인하기 위하여 진행되었으며, 훈련에 전혀 사용되지 않은 KOMPSAT-2 영상 평가하였다. Fig. 9(a)와 (b)는 4m의 공간 해상도를 지닌 다중분광 영상을 입력으로 하여, 각각 bicubic 기법과 제안모델 1을 통해 해상도를 향상 시킨 결과이며, Fig. 9(c)는 비교를 위한 KOMPSAT-2 PS 영상이다.

OGCSBN_2020_v36n3_449_f0009.png 이미지

Fig. 9. Test 3 result with Kompsat-2, super-resolved image by bicubic (a), Ours (b) and original PS image (c).

제안한 모델 결과 영상인 Fig. 9(b)는 KOMPSAT-2 PS 영상만큼 구조를 세밀하게 표현하지는 못하였지만, bicubic 결과 영상(Fig. 9(a))과 달리 영상의 선명도가 뛰어나며, 구조물 사이의 분리도 정확하게 이루어졌음을 확인할 수 있다. 이는 새로운 영상으로 훈련 모델을 평가하여도, 일정 수준 이상의 해상도 향상 성능을 보임을 의미하며, 이러한 결과는 저해상도 입력 영상을 생성하는 과정에서 bicubic 기법이 아닌 DPID 기법을 적용시킨 결과로 해석된다.

5. 결론

본 연구에서는 위성 다중 분광 영상의 해상도를 4배 향상 시키기 위하여 Wasserstein distance를 적용하고, 새로운 윤곽선 손실 함수를 포함하는 초해상화 네트워크를 제안하였다. 또한, 다운샘플링된 전정 영상의 특징정보를 생성 네트워크에 추가함으로써 타 기법보다 초해상화 결과 영상에서 고주파수 정보를 복원하는데 뛰어난 효과를 보임을 확인하였다. 더욱이, 훈련용 저해상도 영상을 생성하는데 DPID 기법을 적용함으로써,복원된 영상내에서의 왜곡 및 흐려짐 현상을 최소화하였다. 본 제안 모델은 다양한 실험을 통해 성능을 확인하였으며, 학습에 활용되지 않은 데이터에 대하여도 타 기법에 비하여 높은 성능을 보임을 확인하였다. 결과적으로 해당 연구의 분석 결과를 바탕으로, 원격 탐사 영상을 활용한 다양한 분야에서 초해상화 기술을 접목하여 활용할 수 있을 것으로 예상되며, 특히 위성 영상 내에서 관심 객체에 대해 보다 정확한 탐지가 가능할 것으로 기대된다.

사사

본 연구는 한국항공우주연구원 주요사업(과제고유번호 1711094356) SUB1 “AI기반 광역 탐사 드론용 인공지능 및 빅데이터 기술 개발” 과제의 지원으로 수행되었습니다.

참고문헌

  1. Arjovsky, M., S. Chintala, and L. Bottou, 2017. Wasserstein GAN, arXiv preprint arXiv:1701.07875.
  2. Bosch, M., C. M. Gifford, and P. A. Rodriguez, 2018. Super-Resolution for Overhead Imagery Using DenseNets and Adversarial Learning, Proc. of 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), Lake Tahoe, NV, Mar. 12-15, pp. 1414-1422.
  3. Canny, J., 1986. A computational approach to edge detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, 8(6): 679-698. https://doi.org/10.1109/TPAMI.1986.4767851
  4. Dong, C., C.C. Loy, K. He, and X. Tang, 2014. Learning a deep convolutional network for image superresolution, Proc. of the European Conference on Computer Vision, Zurich, Sep. 6-12, vol. 8692, pp. 184-199.
  5. Feldman, J. A., G. M. Feldman, G. Falk, G. Grape, J. Pearlman, I. Sobel, and J. M. Tenebaum, 1969. The stanford hand-eye project, Proc. of International Joint Conferences on Artificial Intelligence Organization, Washington, D.C., May 7-9, pp. 521-526.
  6. Fernandez-Beltran, R., P. Latorre-Carmona, and F. Pla, 2017. Single-frame super-resolution in remote sensing: a practical overview, International Journal of Remote Sensing, 38(1): 314-354. https://doi.org/10.1080/01431161.2016.1264027
  7. Goodfellow, I., J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, 2014. Generative adversarial nets, Proc. of Neural Information Processing Systems Conference, Montreal, Dec. 8-13, pp. 2672-2680.
  8. Haris, M., G. Shakhnarovich, and N. Ukita, 2018. Deep back-projection networks for super-resolution, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, Jun. 18-22, pp. 1664-1673.
  9. He, K., X. Zhang, S. Ren, and J. Sun, 2015. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification, Proc. of the IEEE International Conference on Computer Vision, Las Condes, Dec. 11-18, pp. 1026-1034.
  10. Johnson, J., A. Alahi, and L. Fei-Fei, 2016. Perceptual losses for real-time style transfer and superresolution, Proc. of the European Conference on Computer Vision, Amsterdam, Oct. 11-14, pp. 694-711.
  11. Keys, R., 1981. Cubic convolution interpolation for digital image processing, IEEE Transactions on Acoustics, Speech, and Signal Processing, 29(6): 1153-1160. https://doi.org/10.1109/TASSP.1981.1163711
  12. Kim, J., J. K. Lee, and K. M. Lee, 2016. Accurate image super-resolution using very deep convolutional networks, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, Jun. 27-30, pp. 1646-1654.
  13. Kingma, D. and J. Ba, 2014. Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980.
  14. Ledig, C., L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi, 2017. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, Jul. 21-26, pp. 105-114.
  15. Liebel, L. and M. Korner, 2016. Single-Image Super Resolution for Multispectral Remote Sensing Data Using Convolutional Neural Networks, Proc. of 2016 XXIII ISPRS Congress, Prague, Jul. 12-19, vol. XLI-B3, pp. 883-890.
  16. Park, S. C., M. K. Park, and M. G. Kang, 2003. Superresolution image reconstruction: a technical overview, IEEE Signal Processing Magazine, 20(3): 21-36. https://doi.org/10.1109/MSP.2003.1203207
  17. Simonyan, K. and A. Zisserman, 2014. Very deep convolutional networks for large scale image recognition, arXiv preprint arXiv:1409.1556.
  18. SpaceNet, 2020. SpaceNet on AWS, http://explore.digital globe.com/spacenet, Accessed on Jun. 16, 2020.
  19. Wang, X., K. Yu, S. Wu, J. Gu, Y. Liu, C. Dong, C. C. Loy, Y. Qiao, and X. Tang, 2018. ESRGAN: Enhanced super-resolution generative adversarial networks, Proc. of the European Conference on Computer Vision, Munich, Sep. 8-14, pp. 1-16.
  20. Wang, Z., A. C. Bovik, H. R. Sheikh, and E. P. Simoncell, 2004. Image quality assessment: from error visibility to structural similarity, IEEE Transactions on Image Processing, 13(4): 600-612. https://doi.org/10.1109/TIP.2003.819861
  21. Weber, N., M. Waechter, S.C. Amend, S. Guthe, and M. Goesele, 2016. Rapid, Detail-Preserving Image Downscaling, Association for Computing Machinery Transactions on Graphics, 35(6): 205.
  22. Yan, Q., Y. Xu, X. Yang, and T. Q. Nguyen, 2015. Single image super resolution based on gradient profile sharpness, IEEE Transactions on Image Processing, 24(10): 3187-3202. https://doi.org/10.1109/TIP.2015.2414877