DOI QR코드

DOI QR Code

A Study on Lightweight CNN-based Interpolation Method for Satellite Images

위성 영상을 위한 경량화된 CNN 기반의 보간 기술 연구

  • Kim, Hyun-ho (National Satellite Operation & Application Center, Korea Aerospace Research Institute) ;
  • Seo, Doochun (National Satellite Operation & Application Center, Korea Aerospace Research Institute) ;
  • Jung, JaeHeon (National Satellite Operation & Application Center, Korea Aerospace Research Institute) ;
  • Kim, Yongwoo (Department of System Semiconductor Engineering, Sangmyung University)
  • 김현호 (한국항공우주연구원 국가위성정보활용지원센터) ;
  • 서두천 (한국항공우주연구원 국가위성정보활용지원센터) ;
  • 정재헌 (한국항공우주연구원 국가위성정보활용지원센터) ;
  • 김용우 (상명대학교 시스템반도체공학과)
  • Received : 2022.03.30
  • Accepted : 2022.04.20
  • Published : 2022.04.30

Abstract

In order to obtain satellite image products using the image transmitted to the ground station after capturing the satellite images, many image pre/post-processing steps are involved. During the pre/post-processing, when converting from level 1R images to level 1G images, geometric correction is essential. An interpolation method necessary for geometric correction is inevitably used, and the quality of the level 1G images is determined according to the accuracy of the interpolation method. Also, it is crucial to speed up the interpolation algorithm by the level processor. In this paper, we proposed a lightweight CNN-based interpolation method required for geometric correction when converting from level 1R to level 1G. The proposed method doubles the resolution of satellite images and constructs a deep learning network with a lightweight deep convolutional neural network for fast processing speed. In addition, a feature map fusion method capable of improving the image quality of multispectral (MS) bands using panchromatic (PAN) band information was proposed. The images obtained through the proposed interpolation method improved by about 0.4 dB for the PAN image and about 4.9 dB for the MS image in the quantitative peak signal-to-noise ratio (PSNR) index compared to the existing deep learning-based interpolation methods. In addition, it was confirmed that the time required to acquire an image that is twice the resolution of the 36,500×36,500 input image based on the PAN image size is improved by about 1.6 times compared to the existing deep learning-based interpolation method.

위성 영상 촬영 후 지상국에 전송된 영상을 이용하여 최종 위성 영상을 획득하기 위해 많은 영상 전/후 처리 과정이 수반된다. 전/후처리 과정 중 레벨 1R 영상에서 레벨 1G 영상으로 변환 시 기하 보정은 필수적으로 요구된다. 기하 보정 알고리즘에서는 보간 기법을 필연적으로 사용하게 되며, 보간 기법의 정확도에 따라서 레벨 1G 영상의 품질이 결정된다. 또한, 레벨 프로세서에서 수행되는 보간 알고리즘의 고속화 역시 매우 중요하다. 본 논문에서는 레벨 1R에서 레벨 1G로 변환 시 기하 보정에 필요한 경량화된 심층 컨볼루션 신경망 기반 보간 기법에 대해 제안하였다. 제안한 기법은 위성 영상의 해상도를 2배 향상하며, 빠른 처리 속도를 위해 경량화된 심층 컨볼루션 신경망으로 딥러닝 네트워크를 구성하였다. 또한, panchromatic (PAN) 밴드 정보를 활용하여 multispectral (MS) 밴드의 영상 품질 개선이 가능한 피처 맵 융합 방법을 제안하였다. 제안된 보간 기술을 통해 획득한 영상은 기존의 딥러닝 기반 보간 기법에 비해 정량적인 peak signal-to-noise ratio (PSNR) 지표에서 PAN 영상은 약 0.4 dB, MS 영상은 약 4.9 dB 개선된 결과를 보여주었으며, PAN 영상 크기 기준 36,500×36,500 입력 영상의 해상도를 2배 향상된 영상 획득 시 기존 딥러닝 기반 보간 기법 대비 처리 속도가 약 1.6배 향상됨을 확인하였다.

Keywords

1. 서론

광학 위성 및 SAR 분야 등 다양한 원격 탐사 분야에서 딥러닝 기술을 활용한 연구가 활발히 이루어지고 있다. 최근에는 저해상도의 위성 영상을 고해상도의 위성 영상으로 변환하기 위한 보간 방법들이 연구되고 있으며, 이는 다양한 분야에서 사용된다. 예를 들어 위성 영상의 전/후처리 알고리즘 중에서 레벨 1R 영상을 레벨 1G 영상으로 변환할 때 기하 보정은 필수적으로 요구되는 데, 이때 보간 알고리즘이 필요하다. 위성 영상에 필요한 보간 기법은 딥러닝 기술 이전과 이후로 나누어 볼 수 있다. 딥러닝 기술이 보편화 되기 이전에는 bilinear, 바이큐빅과 같은 보간법 및 복원 기법 등이 사용되어 왔다. Bilinear, 바이큐빅과 같은 보간 기법은 빠르고 간편하게 계산되지만, 바이큐빅의 경우 4×4, bilinear는 2×2로 목표 픽셀에 인접한 픽셀의 정보만 활용하며 결과 영상에서 영상이 흐릿해지는 현상이 나타난다(Keys, 1981). 복원 기반 초해상화 기법으로 널리 알려진 Yan et al. (2015) 기법은 영상 내의 사전 지식 정보를 통해 영상을 복원한다. 하지만, 영상 내의 사전 지식 정보를 이용하는데 수행되는 계산 속도가 영상의 해상도가 증가할수록 많은 시간이 소요되는 문제가 발생한다.

학습을 선행으로 진행하는 사례 기반(example-based) 보간 기법은 최근에는 딥러닝 기술이 발전함에 따라 심층 신경망 네트워크(convolution neural network, CNN)를 활용한 연구가 많이 진행되고 있으며, 빠른 계산 속도와 높은 성능으로 인하여 관심이 증대되고 있다. 딥 러닝 기술을 활용한 대표적인 보간 기법으로 초해상화 알고리즘이 주류를 이루고 있다. 초해상화 기법에서 바라보는 저해상도 영상은 원본 영상의 에지와 같은 윤곽선 정보나 질감과 같은 디테일 정보의 고주파수 정보를 잃은 상태로 정의하며 초해상화 기법의 핵심은 손실된 고주파 정보를 복원해 내는 것을 목표로 하게 된다.

1) 딥러닝 기반 초해상화 기법 관련 연구

딥러닝 기반 자연 영상 초해상화 기법에서 위성 영상에서의 초해상화 기법은 최근에 활발하게 연구되어 왔다. Liebel et al. (2016)은 위성 영상에 대한 콘볼루션 신경망 기반의 초해상화 알고리즘을 제안하였다. 연구에서 사용되는 콘볼루션 신경망 네트워크의 기본 구조는 자연 영상의 초해상화 알고리즘인 Dong et al. (2014)이 제안한 SRCNN (Super-Resolution using Convolutional Neural Network)의 구조와 동일하다. 기존 SRCNN을 위성 영상 초해상화에 그대로 적용시킬 경우 바이큐빅 보간법과 같은 단순 보간법보다 성능이 오히려 저하되기 때문에 이를 해결하기 위해 Liebel et al. (2016)은 위성 영상으로 이루어진 학습 데이터셋을 구성하여 새로이 학습시켰다. 학습에 적합한 위성 영상을 획득하기 위해, Sentinel-2 데이터셋 내에서 구름이나 눈 등으로 시야가 가려지지 않았으며 단조롭지 않은 영상을 선택하였다. 해당 고해상도 영상을 참조(Reference) 영상으로 설정하고 이들을 바이큐빅 보간법으로 축소시켜 저해상도 입력 영상을 생성한 후 해당 이미지들을 입력과 참조 영상의 쌍으로 구성하여 학습에 활용하였다.

Tuna et al. (2018)은 획득한 저해상도 위성 영상으로부터 Hue-Intensity-Saturation (HIS) 변환을 통해 색정보를 제외한 밝기 정보만을 추출하고, 밝기 정보에 대해서만 초해상화 알고리즘을 적용시켰다. 이는 사람의 눈이 색정보보다는 밝기 정보의 변화에 대해 더욱 민감한 특성 을 고려한 것으로 더욱 효율적인 초해상화를 가능하게 하였다. 최종 결과 이미지를 얻을 때에는 저해상도 영 상의 색 정보를 바이큐빅 보간법을 이용하여 크기를 늘린 후, 초해상화를 통해 크기가 커진 밝기 정보와 결합 시키고 이를 다시 HIS 역변환을 적용시켜 최종 결과 이미지를 얻는다. 기존 논문에서는 CNN기반의 SRCNN 과 very deep CNN for super resolution (VDSR) 모델을 이용하여 초해상화를 수행하였다. Bosch et al. (2018)은 생성적 적대 신경망(Generative Adversarial Network, GAN) 기반의 구조 내의 생성 모델(Generator)에 Densely Connected Network (DenseNet) 구조를 적용시켜 영상의 특징을 더욱 효율적으로 추출하고 계산 효율 또한 높일 수 있도록 하였다(Huang et al., 2017). DenseNet 구조를 적용시킨 결과, DenseNet 구조를 적용시키지 않은 기존의 다른 알고리즘에 비해 보다 높은 성능을 보였고, 주관적 품질 또한 상당히 향상된 결과를 보였다. GAN 을 사용하는 네트워크의 특성상 기존의 원본 이미지와는 조금 다른 출력 이미지를 생성해내지만 정량적인 지표가 아닌 주관적으로 영상을 바라보는 관점에서는 원본 이미지와 거의 유사한 품질을 보인다. 하지만 초해 상화의 배율이 높아질수록 원본 이미지와는 아예 다른 이미지를 생성하는 경향이 있다. Lanaras et al. (2018)은 Sentinel-2 위성 영상을 활용하여 보간 영상을 생성하는 컨볼루션 신경망 구조를 제안하였다. Sentinel-2 위성 영 상은 다양한 해상도의 여러 밴드들을 포함하며, 10 m, 20 m 또는 60 m 급 GSD (Ground sampling distance)의 해상도를 지닌다. 위에 언급된 위성 영상 초해상화 연구 들은 초해상화 위성 영상을 획득할 시에 각각의 밴드가 독립적으로 초해상화를 수행한다는 단점이 있다. 본 논문에서는 고해상도의 타 밴드(PAN) 영상을 추가로 활용하여 목표하는 밴드(MS 밴드)의 저해상도 입력 영상을 고해상도의 영상으로 변환하는 기법을 제안하였다.

2) 경량화된 CNN기반 초해상화 관련 연구

Hui et al. (2018)은 원본 저해상도 이미지에서 고해상도 이미지를 구성하는 간결한 CNN을 기법을 제안한다. 제안된 모델은 특성 추출(feature extraction) 블록, 스택 정보 증류(stacked information distillation) 블록, 재구성 (reconstruction) 블록의 세 부분으로 구성된다. 또한, enhancement unit과 compression unit을 결합하여 증류 (distillation) 블록을 구성하여 레이어 중간의 지역적 피처 맵 정보를 효과적으로 추출할 수 있는 특징을 지닌다. Enhancement unit 구조는 두 개의 3×3 컨볼루션 블록 로 구성되어 있으며, 각각의 컨볼루션 블록의 세 번째 컨볼루션 레이어에서 슬라이스 연산을 통해 정보를 분리해낸다. 이 분리한 정보를 두 번째 블록에 전달하거나 이전 컨볼루션 블록에서 입력된 피처 맵과 합치는 연산 등을 통해 피쳐 맵의 정보를 효과적으로 전달해줘 더 많은 정보를 추출할 수 있는 장점이 생기게 된다. 또한 enhancement unit과 함께 compression unit을 이용하여 피처 맵에서 생성된 정보를 압축하기 때문에 정보를 다음 레이어로 전달할 때 보다 중요한 정보만 전달이 가능하게 된다. 제안된 네트워크는 레이어당 필터 수가 작기 때문에 처리 속도가 빠르며, 시간 성능 측면에서 기존의 방법보다 우수함을 보였다. Hui et al. (2019)은 Information Distillation Network (IDN)이라고 불리는 심층 신경망 기반 초해상화 기법을 제안하였다. 제안된 논문은 contrast-aware attention (CCA) 레이어를 정의하고 이 CCA레이어와 함께 information multi-distillation block (IMDB)을 구성하여 적당한 수의 매개 변수만을 사용하여 성능을 향상시켰다. CCA 레이어는 초기 channel attention 기법에서 초해상화 영상에 맞는 기법으로 확장시킨 레이어로 channel attention 기법은 주로 Squeezeand-Excitation (SE) 모듈로 사용되어 왔다(Hu et al., 2017). 이러한 channel attention 기법은 분류 또는 감지에 잘 작동하는 것으로 알려져 있다. channel attention이 잘 동작 하는 이유는 global average/maximum pooling이 전역 정보를 잘 포착하기 때문이다. 하지만, 제안된 논문에서 global average/maximum pooling이 실제로 peak signal-tonoise ratio (PSNR) 값을 향상시키는 데는 유리하지만, structural similarity index (SSIM) 과 관련된 것처럼 이미지의 세부 정보를 향상시킬 때는 유리한 구조가 아님을 확인하였으며, 이와 같은 문제를 해결하기 위해 global average pooling 레이어 대신에 표준 편차와 평균의 합으로 구성한 contrast-aware attention (CCA) 레이어가 사용되었다. CCA 레이어를 이용하여 IMDB를 단위 블록으로 구성하여, 성능을 유지하면서 빠른 속도로 컨볼루션 연산을 수행할 수 있도록 구성하였다. 추가로 DenseNet 구조를 기본 베이스로 하면서, split과 concat 레이어를 적절하게 구성한 progressive refinement module (PRM)을 제안하였다. 이는, 전체 채널에서 대한 컨볼루션 연산을 수행하는 것이 아니라 일부 채널만 컨볼루션 연산만 수행하고 이를 뒤에서 연결하여 다음 레이어로 전달 하기 때문에 빠른 수행이 가능한 것이 특징이다. 하지만, 경량화된 CNN 기반 초해상화 연구로는 아직 위성 영상에 적용한 사례가 거의 없으며, L1G 생성 및 레벨 프로세서에서 수행되는 보간 알고리즘의 고속화 연구가 필수적으로 요구된다. 따라서, 본 논문에서는 위성 영상을 위한 경량화된 CNN기반 고속화된 보간 기법을 제안하였다. 본 논문에서 제안하는 보간 기법의 주요한 특징은 다음과 같다.

• 제안한 기법은 위성 영상을 가로 2배, 세로 2배의 해상도를 향상하며, 빠른 처리 속도를 위해 경량화된 심층 컨볼루션 신경망으로 딥러닝 네트워크를 구성하였다.

• PAN 밴드 정보를 활용하여 MS 밴드의 영상 품질 개선이 가능한 피처 맵 융합 방법을 제안하였다.

• 제안된 보간 기법을 통해 획득한 초해상화 영상은 기존의 딥러닝 기반 보간 기법에 비해 정량적인 PSNR 지표에서 PAN 영상은 약 0.3 dB, MS 영상은 약 4.9 dB 개선된 결과를 보여주었으며, 36,500× 36,500 영상을 2배 향상된 보간 영상을 획득하는 속도는 기존 기법 대비 약 1.6배 향상됨을 확인하였다.

본 논문의 구성은 다음과 같다. 2장에서는 제안하는 연구 방법에 대해 설명하고, 실험 환경 및 구현 방법에 대해 기술하였다. 3장에서는 제안하는 기법의 정성적, 정량적 성능 평가 결과를 기술하였다. 마지막으로 4장에서는 결론으로 연구 결과 및 시사점에 대해 논의하였다.

2. 연구방법

1) 제안하는 경량화된 CNN기반 보간 모델 구조

본 논문에서 제안하는 경량화된 CNN 기반 보간 모델 구조는 Fig. 1에서 확인할 수 있다. 경량화된 CNN 기반 초해상화 네트워크 중에서 좋은 성능을 보이는 Hui et al. (2019)가 제안한 Lightweight Image Super-Resolution with Information Multi-distillation Network (IMDN)의 기본 요소 블록인 information multi-distillation blocks (IMDB) 블록을 기본으로 사용하여 CNN기반 보간 모델을 구성하였다. IMDB 블록의 기본 구성은 Fig. 2에서 볼 수 있다. 또한, Fig. 1에서 보는 바와 같이 IMDB 블록을 단위(unit) 블록으로 구성하여 PAN 및 MS를 대응하는 네트워크를 구성하였으며, PAN 영상은 MS 영상 대비 4배가 크기 때문에 먼저 입력 영상을 받아 1채널 영상을 16채널로 변환한다. 이때 16채널로 만들어진 피처 맵은 MS 입력 영상과 크기가 동일하다. 16채널로 만들어진 PAN 영상을 IMDB 모듈 10개에 대해 순차적으로 통과시키고 네트워크를 최종 단에서 concat 과정을 수행한다. concat 이후 convolution을 한번 더 거쳐 입력 영상을 컨 볼루션 거친 피처맵과 더하는 과정을 구성한다. 이렇게 네트워크를 구성함으로써 피처맵에서는 잔차 성분만을 학습하게 되는 장점을 가지게 된다. 그 이후에 depth 를 space로 확장하기 위하 depth2space 레이어를 통해 채널을 줄이면서, 크기를 키워 ×2 업스케일을 수행한다. 이후, 마지막 레이어에서 입력 영상을 ×2 업스케일한 결과 영상과 더함으로써 최종 PAN 영상을 만들어낸다.

OGCSBN_2022_v38n2_167_f0001.png 이미지

Fig. 1. Proposed light-weight CNN-based interpolation network structure.

OGCSBN_2022_v38n2_167_f0002.png 이미지

Fig. 2. IMDB unit configuration.

MS를 위한 SR 네트워크도 PAN 네트워크와 동일하나, 차이점은 PAN 정보를 추가로 가져다가 사용한다. PAN 에서 나오는 고화질 정보를 MS 정보를 전달하기 때문에, MS 영상은 원래의 MS 영상보다 고화질의 SR 영상을 출력할 수 있다. 나머지 과정들은 PAN 초해상화 네트워 크와 거의 유사함을 Fig. 1에서 확인할 수 있다.

2) 영상 정규화 기법

MS와 PAN의 5개 스펙트럼 영상들은 서로 통계적 특성이 많이 다른 편이며 어느 정도의 데이터 정규화 (Normalization) 등의 전처리가 필요하다. 30개의 위성 영상에서 Bit Depth를 나눈 후, 전체 평균과 표준편차 (Standard deviation)를 구하면 Table 1과 같다.

OGCSBN_2022_v38n2_167_t0001.png 이미지

Table 1. Information on overall mean and standard deviation

 

영상을 정규화하는 방법으로 대표적인 방법은 훈련 데이터 셋에 대한 전체 평균 및 표준 편차를 구하고 이를 입력 영상 정규화에 사용하는 방법이다. 하지만 전체 훈련 데이터 셋을 이용하여 구한 평균 및 표준 편차를 이용하는 기법은 훈련 데이터 셋과 다른 픽셀 분포도가 다른 새로운 지역의 영상이 입력될 때, 해당 영상의 정규화가 잘 되지 않는 단점이 있다. 본 연구에서 제안하는 기법은 입력 영상에 대해 작은 사이즈의 패치 단위로 정규화하는 기법을 제안하였다. 제안된 정규화 기법은 입력 영상에 가우시안 블러를 적용하여 입력 영상 크기의 평균 맵을 구하고, 입력 영상으로부터 평균을 빼고 제곱한 후 가우시안 블러를 적용하고 제곱근을 취한 표준 편차 맵을 생성하여 정규화에 사용한다. 관련 연구에서는 MS와 PAN 입력 영상 모두에 대해서 같은 크기의 패치를 사용하여 정규화를 진행하였는데, 이처럼 패치 단위의 정규화를 진행하는 이유는, 한 영상 내에 여러가지 지형들이 포함되어 있어 통일된 정규화 값을 적용 시 색깔이 변하는 문제가 발생하기 때문이다. 하지만 패치 크기가 너무 작아지면 정규화 후의 영상이 에지 맵과 비슷해져서 훈련이 잘 되지 않는다. 따라서 한 패치 내에서 여러 다른 지형을 포함하지 않으며, 정규화 이후 결과가 에지 맵과 비슷한 양상이 되지 않을 만큼 적절히 큰 값을 가져야 한다. 패치 크기를 경험적으로 찾아낸 값은 MS 입력 영상에 대해 9×9, PAN 입력 영상에 대해 9×9의 패치 사이즈이다. Fig. 3에 본 연구 에서 적용한 지역 정규화 방법을 보여주고 있다.

OGCSBN_2022_v38n2_167_f0003.png 이미지

Fig. 3. The overall block diagram of the proposed normalization method.

3) 추론 시간 단축을 위한 CNN 기반 보간 모델 구성

본 연구에서는 CNN 기반 보간 모델의 출력 영상의 화질뿐만 아니라 추론 시간도 매우 중요하다. 아무리 화질 향상 성능이 좋은 모델이라 하더라도 추론 시간이 목표로 설정된 추론 시간보다 느리게 되면 전체 시스템에서 수행되는 시간에 제약이 생길 수 밖에 없다. 따라서, 화질과 추론 시간 간의 적절한 타협이 필요하다고 할 수 있다. 대부분의 CNN 기반 딥러닝 보간 모델은 컨볼루션과 같은 연산을 수행하기에 적합한 하드웨어인 GPU 에서 수행되어야 한다. GPU 병렬 처리를 위하여 CPU 상에서만 처리되는 레이어 중 하나인 바이큐빅 보간 레이어를 nearest neighbor (NN) 업 샘플링 (up-sampling)과 gaussian blur로 합친 새로운 레이어로 대체하였다. 대체된 레이어는 GPU에서 동작이 수행되기 때문에 매우 빠른 연산 속도로 추론을 수행할 수 있다. 따라서, 업샘플링을 필요로 하는 모든 모듈에서 바이큐빅 보간법 대신에 새로운 NN+gaussian blur 조합으로 대체하여 네트워 크를 새롭게 구성하였다.

새롭게 제안하는 레이어 뿐만 아니라 고속으로 딥러닝 기반 보간 모델을 추론하기 위해 정확도 감소를 적절하게 조합하여 사용하였다. 본 연구에서는 FP32로 구성되어 있는 활성 맵과 파라미터 정보를 FP16으로 변환하여, 추론 시간을 단축하였다. Fig. 4에서 컨볼루션 연산에서 수행되는 기존 기법과 제안된 기법의 차이를 확인할 수 있다.

OGCSBN_2022_v38n2_167_f0004.png 이미지

Fig. 4. An arithmetic operation of convolution layer and precision transformation.

FP32에서 FP16으로 변화했을 때 가장 큰 차이점은 첫 번째 크롭된 영상이 제안한 보간 모델을 수행할 시에 나타나는 시간 차이다. CPU에서 GPU로 네트워크 정보, 입력 영상 등의 데이터가 전달되는데, 이때 소요 되는 시간이 FP32의 경우는 약 24.7초인데 반해, FP16으 로 변경하는 경우 약 3.5초로 1/8 시간이 감소되는 것을 Fig. 5를 통해 확인할 수 있다.

OGCSBN_2022_v38n2_167_f0005.png 이미지

Fig. 5. Comparison of execution time between FP32 precision and FP16 precision.

4) 위성 영상 데이터셋 및 실험 환경

이번 절에서는 제안된 보간 모델을 검증하기 위한 실험 및 방법에 대해서 설명한다. 실험을 위해 제안한 CNN 기반 보간 모델을 훈련하기 위한 기본적인 데이터셋을 필요로 한다. 본 연구에서는 KOMPSAT-3A 위성 영상을 기반으로 보간 모델의 성능을 확인하였다. KOMPSAT-3A 영상은 14비트 bit-depth를 가지며, 1개의 PAN 밴드 및 4개의 MS(R,G,B,NIR) 밴드로 총 5개의 밴드 영상을 가지고 있으며, GSD는 PAN: 0.55 m, MS: 2.2 m이다. 훈련을 위한 KOMPSAT-3A 영상을 30개, 테 스트를 위한 KOMPSAT-3A 영상 2개를 준비하였다. 훈련으로 사용된 영상은 KOMPSAT-3A로 2015년부터 2018년까지 촬영된 사막, 바다, 산림, 도시 지역 등으로 구성하였다. 테스트 영상은 Baotou 지역의 Edge Target 으로 서로 다른 날짜에 촬영된 영상을 이용하였다. 위성 영상 원래의 크기로 한번에 보간 모델을 훈련하기에 는 GPU의 메모리 한계로 인해 불가능하며, PAN 밴드 기준 1024×1024 단위로 크롭하여 훈련 영상 데이터셋을 구축하였다. PAN과 MS의 영상 비가 4:1이기 때문에, MS 밴드 영상은 256×256의 사이즈를 가지도록 크롭을 수행하였다. 실험을 위해 사용한 언어는 Python으로 구현하였으며, 제안하는 모델 구현을 위해 사용된 딥러닝 프레임워크는 tensorflow 1.15를 이용하였다. 또한, 위성 영상 입출력을 위해 tifffile 패키지를 사용하였다.

본 연구에서는 딥러닝 기반 보간 모델 훈련 시에 supervised learning 기법을 이용하여 네트워크를 훈련하였다. Supervised learning으로 네트워크를 훈련하기 위해 Ground Truth (High Resolution, HR) 이미지와 Low Resolution (LR) 입력 영상을 필요로 하며, LR 입력 영상이 보간 모델을 통과한 후에 HR 영상과의 차이를 최소화하도록 훈련해야 한다. 이 과정을 수행하기 위하여 훈련 시에 필요한 LR 입력 영상은 추가로 만들어야만 한다. 본 연구에서는 LR 입력 영상을 가장 많이 알려진 바이큐빅 다운스케일 기법으로 생성하였다. Fig. 6에 전체적인 제안한 보간 모델의 훈련 방법을 확인할 수 있다.

OGCSBN_2022_v38n2_167_f0006.png 이미지

Fig. 6. A block diagram of the proposed super-resolution network training and evaluation method.

제안한 CNN기반 고속 보간 모델을 훈련할 시에 많은 종류의 손실 함수를 이용하여 훈련을 수행할 수 있다. 대표적인 손실 함수로 픽셀 손실 함수로 L1, L2, Charbonnier (Lai et al., 2018) 손실 함수 등이 있으며, 컨 텐츠 손실 함수(content loss), 텍스쳐 손실 함수(texture loss), GAN에서 많이 사용하는 Perceptual loss, adversarial loss 등이 있다(Ledig et al., 2017). 본 연구에서는 영상의 왜곡이 최소화되고 정량적 지표인 PSNR 성능을 높이 기 위해 가장 대표적인 보간 모델을 훈련할 때 많이 사 용하는 L1 (ABS) 손실 함수를 적용하였다. L1 손실 함수 는 입력 영상을 영상 왜곡이 없이 향상된 해상도를 가 지는 보간 영상을 획득할 수 있다.

3. 실험 결과

제안한 딥러닝 기반 보간 모델의 성능을 평가하기 위해 정량 평가 및 정성 평가 모두를 수행하였다. 정량적 평가에서는 정량적 지표로 많이 사용되는 PSNR과 구조적 유사도를 가리키는 지표인 SSIM (Structural Similarity Index) 지표를 사용하였다(Wang et al., 2004). SSIM 지표는 1에 가까울수록 원본과 일치됨으로 해석할 수 있다. 정량적 분석 실험에 사용한 위성 영상은 KOMPSAT-3A 훈련 영상 30개 중에서 훈련 영상으로 사용되지 않은 랜덤하게 1,024×1,024 크기로 크롭된 50 개의 위성 영상을 기준으로 측정하였다. 비교 실험에 사용된 기법으로 고전적인 보간 기법인 nearest neighbour 영상과 본 논문에서 제안한 보간 모델의 단위 블록을 제안한 IMDN 초해상화 네트워크(Hui et al., 2019) 와의 성능을 비교하였다. Table 2와 Table 3에서 보는 바와 같이 PAN 밴드 및 MS 밴드 모두 비교 실험에 사용된 기법보다 PSNR, SSIM 모두 높은 성능을 보여주고 있다. PAN 밴드에서는 IMDN 초해상화 네트워크 대비 약 0.39 dB 향상되었음을 확인할 수 있는데 IMDN 네트워크 대비 약 0.7%의 성능 향상을 보였다. 또한, MS 밴드에서는 IMDN 초해상화 네트워크에 비해 PSNR 성능이 약 4.95 dB 이상 높은 수치를 보여주고 있으며, 이는 약 10.8% 성능 향상을 보였다. 결과적으로 본 논문에서 제안한 피처 맵 융합 기법이 매우 효과적임을 알 수 있다.

Table 2. The performance of the proposed interpolation model in the PAN band

OGCSBN_2022_v38n2_167_t0002.png 이미지

Table 3. The performance of the proposed interpolation model in the MS bands

OGCSBN_2022_v38n2_167_t0003.png 이미지

본 연구에서 중요한 지표 중에 하나인 수행 시간 측정은 위성 영상 입력이 네트워크에 입력되고 결과 영상이 출력되는 데까지 소요되는 시간을 측정하였으며, 크롭되지 않은 원 영상 크기의 위성 영상 5개를 이용하여 수행 시간을 측정하였다. 실험 설정에서 최대의 영상 크기로는 MS 영상은 9,125×9,125×4, PAN 영상은 36,500 ×36,500×1로 설정하였다. Table 4에서 보는 바와 같이 KOMPSAT-3A 위성 영상에서 획득한 다섯 가지의 영상을 획득하여 수행 시간 측정에 이용하였으며, 테스트 영상 중 하나인 이미지 5를 최대 크기의 해상도로 맞추어 크기 변환을 수행한 결과가 이미지 5a 영상이다.

Table 4. Test image size to measure execution time

OGCSBN_2022_v38n2_167_t0004.png 이미지

Table 5에서 보는 바와 같이 다섯 가지의 테스트 영상 수행 시간은 약 18초~27초 사이의 결과를 나타냄을 확 인할 수 있으며, 이는 기존 IMDN 초해상화 네트워크 대비 처리 속도가 약 1.6배 정도 빠른 수행 속도임을 확인할 수 있다. 기존의 초해상화 네트워크는 FP32 연산 을 수행함으로 인해 CPU에서 GPU로 초해상화 네트 워크와 입력 영상을 이동할 때 첫 번째 크롭 영상에서 오랜 시간 걸리는 문제가 그대로 전체 시간에 누적되어 나타난다. 하지만, 제안한 CNN기반 보간 모델에 FP16 연산을 수행하는 경우 첫 번째 크롭 영상에 걸리는 시간이 1/8 정도 가량 시간이 단축되기 때문에 전체 수행 시간이 매우 짧아지게 된다. FP16으로 인해 발생하는 PSNR, SSIM 및 화질 저하는 매우 미미한 수준으로 무시해도 되는 정도의 값을 가지고 있다. 제안한 보간 모델에서 최대 해상도 크기인 MS 영상은 9,125×9,125×4, PAN 영상은 36,500×36,500×1에서의 수행 시간이 약 50초로 수행됨을 확인할 수 있다.

Table 5. Execution time results for evaluation images

OGCSBN_2022_v38n2_167_t0005.png 이미지

PSNR, SSIM과 같은 정량적 평가 방법 이외에 제안하는 초해상화 기법 확인하기 위하여 주관적 영상 평가를 수행하였다. 주관적 영상 평가로 많이 활용하는 Edge Target에서 Nearest Neighbor 보간법, IMDN 기반 초해 상화 영상, 제안하는 보간 모델 결과 영상을 비교하였다. Fig. 7는 PAN 밴드에서 수행한 결과 영상을 보여주고 있다. Fig. 7에서 보는 바와 같이 부채꼴에서 표현할 수 있는 에지 구분 정도가 제안한 보간 모델 영상이 가장 좋음을 확인할 수 있었으며, 영상의 선명도 측면에 서도 다른 영상 대비 가장 좋음을 확인할 수 있다. 또한, Fig. 7의 오른쪽 결과 영상에서 보는 바와 같이 바 모양의 형태를 제안한 방법이 가장 잘 구별할 수 있음을 확인할 수 있다.

OGCSBN_2022_v38n2_167_f0007.png 이미지

Fig. 7. The qualitative results of SR images in PAN band.

AN 밴드 위성 영상과 더불어 MS 밴드에서의 위성 영상 실험 결과가 Fig. 8에 보는 바와 같다. MS 밴드 영상에서 Edge Target으로 보이는 부채꼴 모양의 에지가 다른 두 기법 대비 가장 뛰어난 복원력을 보임을 확인할 수 있었으며, 일반 영상에서도 Edge Target 영상과 마찬가지로 Edge나 선명도 측면에서 기존 기법 대비 가장 뛰어난 성능을 보임을 알 수 있다. 즉, 제안한 피처 맵 융합 기법으로 PAN 밴드 정보를 활용하여 MS 밴드 영상을 보간함으로써, 가장 선명도 있는 영상을 생성할 수 있다는 점을 확인할 수 있다.

OGCSBN_2022_v38n2_167_f0008.png 이미지

Fig. 8. The qualitative results of SR images in MS band.

4. 결론

본 논문에서는 레벨 1R 에서 레벨 1G로 변환 시 기하 보정에 필요한 경량화된 CNN 기반 보간 기법에 대해 제안하였다. 제안한 기법은 위성 영상의 해상도를 2배 향상하며, 빠른 처리 속도를 위해 경량화된 심층 컨볼루션 신경망으로 딥러닝 네트워크를 구성하였다. 또한, PAN 밴드 정보를 활용하여 MS 밴드의 영상 품질 개선이 가능한 피처 맵 융합 방법을 제안하였다. 제안된 딥 러닝 기반 보간 모델을 통해 획득한 위성 영상은 기존의 딥러닝 기반 초해상화 기법에 비해 정량적인 PSNR, SSIM 지표에서 비교 우위에 있음을 확인하였으며, 최대 목표 해상도에서 2배 해상도가 향상된 영상 획득 시 처리 속도는 기존 기법 대비 약 1.6배 향상됨을 확인하였다. 본 논문에서 제안된 보간 모델을 바탕으로 레벨 1R에서 레벨 1G로 변환 시 기하 보정 후에 획득한 레벨 1G 영상의 경우 영상의 주관적 품질 성능뿐만 아니라 modulation transfer function (MTF) 결과가 기존 보간 기법 대비 높은 성능을 기대할 수 있다. 향후 연구로 제안 한 보간 모델로 생성된 영상의 주관적 품질을 더욱 극대화 할 수 있는 연구와 좀 더 빠른 수행 시간을 가지는 경량화 및 최적화된 보간 모델 개발의 연구를 수행할 예정이다.

사사

References

  1. Bosch, M., C.M. Gifford, and P.A. Rodriguez, 2018. Super-resolution for overhead imagery using densenets and adversarial learning, Proc. of 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), Lake Tahoe, NV, Mar. 12-15, pp. 1414-1422. https://doi.org/10.1109/WACV.2018.00159
  2. Dong, C., C.C. Loy, K. He, and X. Tang, 2014. Learning a deep convolutional network for image super-resolution, Proc. of the European Conference on Computer Vision, Zurich, Switzerland, Sep. 6-12, vol. 8692, pp. 184-199. https://doi.org/10.1007/978-3-319-10593-2_13
  3. Hu, J., L. Shen, and G. Sun, 2018. Squeeze-and-excitation networks, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, Jun. 18-23, pp. 7132-7141. https://doi.org/10.1109/CVPR.2018.00745
  4. Huang, G., Z. Liu, L. Van Der Maaten, and K.Q. Weinberger, 2017. Densely connected convolutional networks, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, Jun. 21-26, pp. 4700-4708. https://doi.org/10.1109/CVPR.2017.243
  5. Hui, Z., X. Gao, Y. Yang, and X. Wang, 2019. Lightweight image super-resolution with information multi-distillation network, Proc. of the 27th ACM International Conference on Multimedia, Nice, France, Oct. 21-25, pp. 2024-2032. https://doi.org/10.1145/3343031.3351084
  6. Hui, Z., X. Wang, and X. Gao, 2018. Fast and accurate single image super-resolution via information distillation network, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, Jun. 18-23, pp. 723-731. https://doi.org/10.1109/CVPR.2018.00082
  7. Keys, R., 1981. Cubic convolution interpolation for digital image processing, IEEE Transactions on Acoustics, Speech, and Signal Processing, 29(6): 1153-1160. https://doi.org/10.1109/TASSP.1981.1163711
  8. Lai, W.S., J.B. Huang, N. Ahuja, and M.H. Yang, 2018. Fast and accurate image super-resolution with deep laplacian pyramid networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(11): 2599-2613. https://doi.org/10.1109/TPAMI.2018.2865304
  9. Lanaras, C., J. Bioucas-Dias, S. Galliani, E. Baltsavias, and K. Schindler, 2018. Super-resolution of Sentinel2 images: Learning a globally applicable deep neural network, ISPRS Journal of Photogrammetry and Remote Sensing, 146: 305-319. https://doi.org/10.1016/j.isprsjprs.2018.09.018
  10. Ledig, C., L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta, and W. Shi, 2017. Photo-realistic single image super-resolution using a generative adversarial network, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, Jun. 21-26, pp. 4681-4690. https://doi.org/10.1109/CVPR.2017.19
  11. Liebel, L. and M. Korner, 2016. Single-image super resolution for multispectral remote sensing data using convolutional neural networks, International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 41(B3): 883-890. https://doi.org/10.5194/isprs-archives-XLI-B3-883-2016
  12. Tuna, C., G. Unal, and E. Sertel, 2018. Single-frame super resolution of remote-sensing images by convolutional neural networks, International Journal of Remote Sensing, 39(8): 2463-2479. https://doi.org/10.1080/01431161.2018.1425561
  13. Wang, Z., A.C. Bovik, and H.R. Sheikh, 2004. Image quality assessment: from error visibility to structural similarity, IEEE Transactions on Image Processing, 13(4): 600-612. https://doi.org/10.1109/TIP.2003.819861
  14. Yan, Q., Y. Xu, X. Yang, and T.Q. Nguyen, 2015. Single image super resolution based on gradient profile sharpness, IEEE Transactions on Image Processing, 24(10): 3187-3202. https://doi.org/10.1109/TIP.2015.2414877