DOI QR코드

DOI QR Code

Impact Analysis of Deep Learning Super-resolution Technology for Improving the Accuracy of Ship Detection Based on Optical Satellite Imagery

광학 위성 영상 기반 선박탐지의 정확도 개선을 위한 딥러닝 초해상화 기술의 영향 분석

  • Received : 2022.10.02
  • Accepted : 2022.10.17
  • Published : 2022.10.31

Abstract

When a satellite image has low spatial resolution, it is difficult to detect small objects. In this research, we aim to check the effect of super resolution on object detection. Super resolution is a software method that increases the resolution of an image. Unpaired super resolution network is used to improve Sentinel-2's spatial resolution from 10 m to 3.2 m. Faster-RCNN, RetinaNet, FCOS, and S2ANet were used to detect vessels in the Sentinel-2 images. We experimented the change in vessel detection performance when super resolution is applied. As a result, the Average Precision (AP) improved by at least 12.3% and up to 33.3% in the ship detection models trained with the super-resolution image. False positive and false negative cases also decreased. This implies that super resolution can be an important pre-processing step in object detection, and it is expected to greatly contribute to improving the accuracy of other image-based deep learning technologies along with object detection.

광학 위성 영상의 공간해상도가 낮게 되면 크기가 작은 객체들의 경우 객체 탐지의 어려움이 따른다. 따라서 본 연구에서는 위성 영상의 공간해상도를 향상시키는 초해상화(Super-resolution) 기술이 객체 탐지 정확도 향상에 대한 영향이 유의미한지 알아보고자 하였다. 쌍을 이루지 않는(unpaired) 초해상화 알고리즘을 이용하여 Sentinel-2 영상의 공간해상도를 3.2 m로 향상시켰으며, 객체 탐지 모델인 Faster-RCNN, RetinaNet, FCOS, S2ANet을 활용하여 초해상화 적용 유무에 따른 선박 탐지 정확도 변화를 확인했다. 그 결과 선박 탐지 모델의 성능 평가에서 초해상화가 적용된 영상으로 학습된 선박 탐지 모델들에서 Average Precision (AP)가 최소 12.3%, 최대 33.3% 향상됨을 확인하였고, 초해상화가 적용되지 않은 모델에 비해 미탐지 및 과탐지가 줄어듦을 보였다. 이는 초해상화 기술이 객체 탐지에서 중요한 전처리 단계가 될 수 있다는 것을 의미하고, 객체 탐지와 더불어 영상 기반의 다른 딥러닝 기술의 정확도 향상에도 크게 기여할 수 있을 것으로 기대된다.

Keywords

1. 서론

원격 탐사 분야에서 광학 영상을 활용해 선박 객체를 식별하는 기술은 해양 모니터링, 해양 오염 탐지, 해양 교통 관리 등 매우 중요한 역할을 한다(Yang et al., 2018). 해양 교통량이 증가함에 따라 세계 각국 연안 해역의 선박 유동량이 증가하였고, 이로 인한 선박 사고, 기름 유출 등 해양 선박 모니터링에 대한 관심이 증가하고 있다(Stofa et al., 2020; Bo et al., 2021). 해양 모니터링의 경우 지리적으로 접근이 힘들고 관측해야 하는 영역 또한 넓기 때문에, 광역의 범위를 지속적으로 관측할 수 있고 접근이 힘든 지역을 촬영할 수 있는 인공 위성을 활용하는 것은 매우 효과적이라 볼 수 있다. 또한 최근 원격 탐사 분야에서 객체 탐지(Object detection), 변화 탐지(Change detection) 등 딥러닝 기술에 위성 영상을 활용할 수 있는 분야가 증가하는 추세이다(Bo et al., 2021; Bose et al., 2022).

최근까지 딥러닝(Deep learning) 기반의 객체 탐지 연구는 계속해서 진행되어져 왔으며, 높은 수준의 성능을 보여주고 있다(Shermeyer and Van Etten, 2019; Xie et al., 2022; Li et al., 2020; Bo et al., 2021; Bose et al., 2022). 이러한 연구 결과들을 바탕으로 다양한 연구가 진행되고 있으나, 광학 위성 영상을 활용하여 모든 선박의 위치를 정확히 찾아내는 것은 여전히 도전적인 과제다. 특히 영상 내에서 크기가 작은 소형 선박의 경우, 영상의 공간 해상도가 낮을 수록 객체를 표현하는 픽셀(pixel)의 수가 적고, 높은 수준의 정보가 부족하기 때문에 선박을 식별하는 데에 어려움이 따른다(Shermeyer and Van Etten, 2019; Xie et al., 2022; Li et al., 2020; Bo et al., 2021). 또한 공간해상도가 높은 영상을 사용한다면 객체 탐지의 정확도가 향상되는 이점이 있지만, 이러한 영상들을 획득하여 대용량의 학습 자료를 구축하는 것은 비용적인 측면에서 한계가 있기 때문에 쉽지 않다(He et al., 2021a). 이러한 이유로 최근 저해상도 영상을 고해상도 영상으로 향상시키는 초해상화 기술(Super Resolution, SR)을 적용하여 객체 탐지의 정확도를 높이려는 연구들이 진행되고 있다(Cai et al., 2016; He et al., 2021b; Xie et al., 2022).

초해상화란 저해상도 영상의 특징을 학습시켜 고해상도의 영상을 만드는 영상처리 기술이다. 최근 딥러닝 기반 초해상화 알고리즘(algorithm)들에 대한 연구들이 활발히 진행되고 있으며, 많은 연구들에서 소형 선박의 특징을 식별하지 못했던 문제를 보완하고 객체 탐지 정확도를 향상시킨 바 있다(Xie et al., 2022). Cao et al. (2016)은 차량 객체 탐지 모델을 항공 사진으로 학습을 시킨 뒤 위성 영상 기반 모델에 전이 학습(transfer-learning)하여 공간해상도가 높아질수록 객체 탐지의 성능이 향상되는 것을 입증한 바 있다. He et al. (2021b)은 Faster-RCNN 모델과 SR 영상을 활용하여 IoU 0.5 , 0.7 기준에서의 평균 정확도(mean average precision) mAP%50과 mAP%75에서 기존 모델에 비해 탐지 정확도가 향상됨을 보여주었고, Shermeyer and Van Etten (2019)은 Very Deep Super-Resolution (VDSR)을 통해 영상을 초해상화한 후 객체 탐지 모델 You Only Look Twice (YOLT)와 Single shot MultiBox Detector (SSD)을 통해 30 cm, 60 cm, 120 cm, 240 cm, 480 cm의 각 해상도 영상 내의 객체를 탐지하였으며, 원본 해상도에 비해 SR 영상을 사용할 시 mAP가 증가하는 결과를 보여주었다. He et al. (2021a)은 자체적으로 고안한 SR 모듈과 SSD 객체 탐지 모델을 결합한 ShipSRDet를 제안하였으며, 두 모듈을 결합하였기에 병렬 처리에 소요되는 시간이 증가하는 단점이 있었지만, 탐지 정확도가 향상되는 것을 확인하였다. 이처럼 SR은 객체 탐지 성능 향상에 영향을 준다는 것을 알 수 있고, 객체 탐지의 전처리 작업으로 SR이 중요한 역할을 한다는 것을 시사한다. 따라서 본 연구에서는 이러한 초해상화 기술이 객체 탐지 정확도에 대한 영향을 정량적으로 확인하고, 초해상화의 유무에 따른 객체 탐지 결과를 비교해보고자 한다.

기존 선행된 연구들은 공간해상도가 높은 영상을 사용하는 경우가 대부분이지만, 본 연구에서는 초해상화의 효과를 더 명확하게 확인하기 위해 상대적으로 공간 해상도가 낮은 Sentinel-2 위성 영상을 활용해 데이터를 구축하였다. Sentinel-2 영상의 10 m 공간해상도를 초해상화 기술을 통해 약 3배 향상시키고, 이를 객체 탐지 모델의 학습에 활용하여 초해상화를 적용하지 않은 non-SR 모델(10 m)과 SR 모델(3.2 m)의 객체 탐지 성능을 비교하였다.

2. 연구 지역 및 자료

선박 탐지를 위해 본 연구에서 활용한 위성 영상은 유럽항공우주국(European Space Agency, ESA)에서 제공하는 Sentinel-2 Multispectral Instrument (MSI) 센서로부터 획득된 영상이다. Sentinel-2는 2A호와 2B호가 동시에 임무를 수행중인 위성으로 재방문주기는 5일이다. Sentinel-2 MSI는 13개의 분광 밴드로 이루어져 있으며, 가시광선 및 근적외선 밴드의 공간해상도는 10 m이다(Table 1).

Table 1. Spectral bands of Sentinel-2 MSI

OGCSBN_2022_v38n5_1_559_t0001.png 이미지

영상 수집 지역은 Fig. 1과 같이 세계 컨테이너 항만들 중 상위권 내에 있는 부산, 싱가포르, 로스앤젤레스, 홍콩 지역의 항구와 연안 해역을 중심으로 수집하였다. 2019년부터 2022년까지의 영상 중 구름의 영향이 거의 없는 청천일 영상들을 위주로 수집하였다. 수집된 영상의 총 개수는 40장이며, 1024×1024 크기의 패치 단위로 영상을 나누었다.

OGCSBN_2022_v38n5_1_559_f0001.png 이미지

Fig. 1. Sentienl-2 images for each city: (a) Singapore (2019-05-06), (b) Los Angeles (2021-09-20), (c) Hong-Kong (2022-04-04), (d) Busan (2019-04-20).

3. 연구 방법

1) 객체 탐지용 학습 데이터 처리 및 구축

Sentinel-2 영상의 경우 무상으로 수집할 수 있는 위성 영상 중 공간해상도가 높은 장점이 있지만, 10 m의 공간해상도라도 중·대형 선박을 확실히 식별하는 데에 어려움을 가지며, 이보다 더 작은 선박의 경우에는 식별할 수 있을 만한 뚜렷한 특징을 보이지 않는다(Shermeyer and Van Etten, 2019). 이처럼 선박 탐지 모델의 학습에 필요한 정답 데이터셋 구축 시 Fig. 2와 같이 선박의 이동 속도가 높아 후류(wake)가 길게 나타나거나 픽셀 1~2개 정도의 크기의 선박 등 선박 객체로 판별이 어려운 경우가 존재하게 되며, 이는 탐지 모델의 학습에 영향을 줄 수 있으므로 선박 클래스(class)에서 제외하였다.

OGCSBN_2022_v38n5_1_559_f0002.png 이미지

Fig. 2. Example images excluded from ‘ship’ class in this study.

수집된 영상들에 대해 라벨링(Labeling) 작업을 수행하였고, 라벨링 자료의 클래스는 선박(ship) 한 종류로 통일하였으며, 클래스 내에는 이동중인 선박 혹은 정박되어 있는 선박 등 육안으로 판별이 가능한 선박들을 라벨링 하였다. 또한 선박 특징 학습 및 검출의 오류를 줄이고, 선박이 밀집되어 있는 항구 부근 혹은 연안 해역에서의 검출률을 높이기 위해 Fig. 3와 같이 회전 바운딩 박스(Rotated bounding boxes)를 사용하여 선박 객체의 방향과 각도를 고려한 라벨링 작업을 수행하였다(Yang et al., 2018; Li et al., 2020).

OGCSBN_2022_v38n5_1_559_f0003.png 이미지

Fig. 3. Sample images of the Rotated Bounding Boxes labeling results (Sentinel-2 / Busan).

전체 데이터셋에서 학습 및 검증 데이터는 7:3 비율로 구축하여 사용하였고, 테스트에 사용한 영상으로는 네덜란드의 로테르담(Rotterdam) 항구 부근 영상을 사용하여 선박 탐지 결과를 비교하였다.

2) 초해상화용 학습 데이터 처리 및 구축

본 연구에서 사용되는 초해상화 신경망을 훈련시키기 위해서 10 m 해상도를 가진 Sentinel-2 영상 10장과 3.2 m 해상도를 가진 미국 Maxar社의 Ikonos 위성 영상 10장을 구축하였고, 초해상화의 성능 검증을 위해서 전체 데이터셋 중 30%는 검증에 사용하였다. 일반적으로 신경망 훈련 시, 과적합(overfitting)을 방지하기 위해서 데이터 증강(data augmentation)을 수행하게 된다. 영상처리 분야에서 데이터 증강 방법이 여러 가지 존재하지만, 초해상화 신경망을 위한 데이터 증강법은 비현실적인 패턴이나 정보의 훼손을 지양해야 한다(Yoo et al., 2020). 이에 따라 본 연구에서는 데이터 증강법으로 임의 회전(random rotation)과 임의 뒤집기(random flip) 방법만 사용하였다(Fig. 4).

OGCSBN_2022_v38n5_1_559_f0004.png 이미지

Fig. 4. Example of data augmentation (random rotation and flip) for super resolution dataset.

3) 초해상화 모델 학습 및 검증

본 연구에서는 Maeda (2020)의 연구를 참고하여 쌍을 이루지 않는 학습자료를 이용한 초해상화 신경망을 사용하였다(Fig. 5). 일반적인 딥러닝 기반 초해상화 방법들은 주로 보간법(interpolation)을 통해 저해상도 영상을 생성하고 이를 이용해서 학습을 하는데, 이와 같은 방법은 영상의 해상도가 낮아 초해상화에 필요한 고수준의 정보를 얻지 못하거나 위성 영상과 같이 복잡한 픽셀들의 조합으로 되어있을 경우 낮은 성능을 보여주었다. 하지만 Maeda (2020)는 생성적 적대 신경망(Generative Adversarial Network, GAN)의 한 종류인 CycleGAN을 사용하여 초해상화 신경망을 훈련하였고, 해당 신경망은 저해상도 영상의 노이즈 제거 및 커널(kernel) 보정을 한 후에 초해상화가 진행되도록 설계되었다. 그 결과 기존 초해상화 방법론들에 비해 월등한 성능을 보여주었다(Maeda, 2020).

OGCSBN_2022_v38n5_1_559_f0005.png 이미지

Fig. 5. Example of super-resolution neural network training process using unpaired super resolution network.

본 연구의 훈련에 사용된 저해상도, 고해상도 영상의 개수는 각각 1600장이며, 저해상도, 고해상도 영상의 크기는 각각 64×64, 192×192로 잘라서 사용하였다.

기존의초해상화연구에서는Peak Signal-to-Noise Ratio(PSNR)와 Structural Similarity Index Map (SSIM) 지표를 통해 초해상화 모델의 성능 및 결과 영상의 품질을 정량적으로 평가한다(Yang et al., 2019; Lim et al., 2017). PSNR은 생성된 결과 영상의 화질에 대한 손실 정보를 정량적으로 계산하며, 손실이 적을수록 높은 값을 나타낸다.

\(\begin{aligned}P S N R=10 \log \frac{s^{2}}{\mathrm{MSE}}\\\end{aligned}\)       (1)

\(\begin{aligned}M S E=\frac{1}{n} \sum_{i=1}^{n}\left\|Y_{i}-X_{i}\right\|^{2}\\\end{aligned}\)       (2)

s는 영상에서 픽셀의 최대값을 의미하고, Mean Square Error (MSE)는 평균 제곱 오차를 의미하며 식(2)와 같이 초해상화 영상과 원본 영상의 픽셀값 차이를 계산한다(Bose et al., 2022).

SSIM은 PSNR과 다르게 수치상에서의 오차가 아닌 정성적 화질 차이를 평가하기 위해 고안된 지표로서, SSIM 값이 높을수록 원본 영상의 품질에 가깝다는 것을 의미한다(Wang et al., 2004). SSIM의 인간의 시각에서 주요 내용으로 인식하는 휘도(luminance), 명암비(contrast), 구조(structure) 함수로 구성되며, 각 함수는 식(3), 식(4), 식(5)와 같다.

\(\begin{aligned}l(x, y)=\frac{2_{u_{x} u_{y}}+C_{1}}{\mu_{x}^{2}+\mu_{y}^{2}+C_{1}}\\\end{aligned}\)       (3)

\(\begin{aligned}c(x, y)=\frac{2_{\sigma_{x} \sigma_{y}}+C_{1}}{\sigma_{x}^{2}+\sigma_{y}^{2}+C_{1}}\\\end{aligned}\)       (4)

\(\begin{aligned}s(x, y)=\frac{\sigma_{x y}+C_{3}}{\sigma_{x} \sigma_{y}+C_{3}}\\\end{aligned}\)       (5)

μx, μy는 영상의 평균을 의미하고, σx, σy는 표준편차, σxy는 공분산을 의미한다. 산출된 휘도, 명암비, 구조의 값을 통해 SSIM 지수를 식(6)으로 계산한다(Wang et al.,2004).

SSIM(x, y) = [l(x, y)]α · [c(x, y)]β · [s(x, y)]γ       (6)

초해상화 문제에서 PSNR과 SSIM의 값은 데이터셋과 초해상화 배수(scale)에 따라 그 값의 범위가 매우 다르다(Chen et al., 2022). Chen et al. (2021)에 따르면, 같은 Zero-Shot SR (ZSSR) 방법론을 사용하더라도, 배수에 따라서 PSNR, SSIM 값이 27.51/0.7925 (2배), 24.05/0.6550(4배)로 상이하다. 또한, DIV2KRK 혹은 RealSR과 같은 데이터셋에 따라서도 PSNR, SSIM 값이 27.51/0.7925(4배, DIV2KRK), 25.83/0.7434 (4배, RealSR)로 다르다. 따라서, 본 연구에서는 PSNR과 SSIM 값을 학습의 수렴 여부를 확인하는 용도로 사용하였다.

학습 경과에 따른 오차(loss) 그래프와 검증 데이터셋을 이용한 PSNR과 SSIM의 변화 양상은 Fig. 6와 같다. 본 연구에서 사용한 초해상화 모델의 PSNR과 SSIM은 각각 24.13 dB, 0.8106이며, Sentinel-2 원본 영상과 SR이 적용된 결과 영상은 Fig. 7과 같다. 10 m의 공간해상도를 약 3배 향상시켰으며 육안으로 보았을 때, 원본에 비해 윤곽선 및 질감 등이 선명해지는 것을 볼 수 있고, 선박의 경우 형태를 제대로 판별할 수 있을 정도로 품질이 향상되는 것을 확인하였다.

OGCSBN_2022_v38n5_1_559_f0006.png 이미지

Fig. 6. Train loss, PSNR and SSIM graph during training progress.

OGCSBN_2022_v38n5_1_559_f0007.png 이미지

Fig. 7. Sentinel-2 images used as training data for the ship detection model. Non-SR image (top), SR image (bottom).

4) 객체 탐지 모델 학습 및 검증

본 연구에서는 선박 탐지 및 비교·검증을 위한 딥러닝 객체 탐지 모델로 Faster-RCNN(Ren et al., 2015), RetinaNet(Lin et al., 2017), Fully Convolutional One-Stage Object Detection (FCOS) (Tian et al., 2019), Single-shot Alignment Network (S2ANet) (Han et al., 2021)를 선정하였고 학습을 진행하였다.

본 연구에서는 위성 영상을 사용했기 때문에 영상 내에서 선박 객체가 차지하고 있는 영역에 비해 다른 배경들이 차지하는 영역이 훨씬 크다. 이는 학습 과정에서 클래스 불균형(class-imbalance) 문제가 발생할 가능성을 높여 학습 효율성을 감소시키고 오탐지 및 미탐지를 할 확률을 증가시킨다(Lin et al., 2017). 선정된 모델들은 모두 객체 탐지 분야에서 높은 성능을 보여주었고, 특히 클래스 불균형 문제를 해결할 수 있는 모델들이다.

Two-stage detector인 Faster-RCNN은 Fast-RCNN모델과 추정영역을 추출하는 Region Proposal Network (RPN)를 결합하여 제안된 모델로서, 기존의 후보영역 추출에 사용되었던 선택적 검색(selective search) 알고리즘의 병목현상 문제를 RPN을 통해 해결하고 학습에 사용되는 자원을 줄여 종단간(end-to-end) 학습을 가능하게 한 모델이다(Ren et al., 2015). 이처럼 One-stage에서 RPN을 통해 객체로 예상되는 위치를 1차적으로 필터링 한 후 2-stage에서 객체를 탐지하기 때문에 One-stage detector에 비해 불균형 문제에 안정적이다(Ren et al., 2015). 나머지 세 모델의 경우 One-stage detector의 대표적인 모델들이다. RetinaNet의 경우 ResNet 모델과 Feature Pyramid Network (FPN)를 결합하였고, Focal loss라는 손실 함수(loss function)를 제안해 클래스 불균형 문제를 최소화하였다. Focal loss는 쉽게 탐지할 수 있는 부분에 대해 가중치를 낮게 부여하고, 탐지하기 힘든 부분에 대해 가중치를 높이는 Weight-balancing 기법 중 하나로 알려져 있다(Lin et al., 2017; Tian et al., 2019). FCOS는 다른 One-stage detector와는 다르게 픽셀 단위 예측을 통해 객체를 탐지하는 모델이다(Tian et al., 2019). Semantic segmentation 분야에서 사용되는 Fully Convolutional Network (FCN) 구조를 객체 탐지 분야에 접목시켰으며, 객체의 영역을 추정하는 앵커 박스(anchor box)를 제거하는 대신 Multi-level prediction을 통해 작은 물체에 대한 탐지 성능을 증가시키고 연산을 단순화했다. 또한 객체의 중심점을 기준으로 주변 픽셀들의 예측 정확도를 향상시키는 Center-ness 기법 등을 통해 앵커 박스를 사용하지 않고도 높은 성능을 냈다(Tian et al., 2019). S2ANet은 FPN 구조에 Feature Alignment Module (FAM)과 Oriented Detection Module (ODM)을 결합한 모델이다. 두 모듈을 통해 목표 객체에 대한 앵커 박스의 정확도를 높이고, 객체를 분류(classification)하는 정확도와 분류된 객체의 위치 간의 불일치 문제를 해결하여 객체 탐지 분야에서 우수한 성능을 기록하였다.

모델의 학습은 SR을 적용하지 않은 데이터 셋(Non-SR)과 SR을 적용한 데이터 셋(SR)을 따로 구축하여 수행하였고, 각 모델별 학습에 필요한 파라미터는 모두 동일하게 설정한 후 진행하였다. 객체 탐지 모델의 성능 평가는 F1-score 및 Average Precision (AP)를 이용하여 수행하였으며, AP는 정밀도(precision)와 재현율(recall)을 그래프로 나타냈을 때의 면적에 해당한다. 각 클래스마다 하나의 AP를 가지며, 모든 클래스의 AP를 평균을 하게 되면 Mean Average Precision (mAP)를 계산할 수 있다. 본 연구에서는 선박 클래스에 대해서만 탐지하였기 때문에 AP 값을 제시하였다. 정밀도와 재현율을 계산하기 위해서는 오차 행렬(confusion matrix) 값이 필요하며 오차 행렬은 Table 2와 같이 구성된다.

Table 2. Confusion matrix for evaluation of model

OGCSBN_2022_v38n5_1_559_t0002.png 이미지

오차 행렬을 통해 정밀도, 재현율이 계산되며 이에 대한 수식은 식(6), (7)과 같다(Padilla et al., 2020).

\(\begin{aligned}Precision=\frac{TP}{TP+FP}\end{aligned}\)      (6)

\(\begin{aligned}Recall=\frac{TP}{TP+FN}\end{aligned}\)       (7)

위 식을 통해 AP는 Fig. 8과 같이 precision-recall 그래프 상에서 붉은 점선 아래의 면적으로 계산이 되고, 이 값이 높을수록 모델의 성능이 전체적으로 우수하다는 의미이다. 선박 탐지 정확도 평가 시 Intersection over Union (IoU)의 임계값을 0.5로 설정하였으며, 이는 실제 바운딩 박스(ground truth bonding box, Bgt)와 예측 바운딩 박스(predict bounding box, Bp)가 겹치는 면적이 0.5가 넘지 않으면 선박으로 분류하지 않는다는 의미이다. IoU를 계산하는 수식은 식(8)과 같다(Padilla et al., 2020).

OGCSBN_2022_v38n5_1_559_f0008.png 이미지

Fig. 8. Precision-Recall Curve graph.

\(\begin{aligned}IoU=\frac{area(B_p∩B_{gt)}}{area(B_p∪B_{gt})}\end{aligned}\)      (8)

4. 연구 결과

본 연구에서는 Faster-RCNN,RetinaNet, FCOS, S2ANet을 선박 탐지 모델로 활용하였으며 Non-SR 모델과 SR모델을 각각 구축하였다. 또한 Non-SR모델과 SR모델의 평가 척도로 Recall, Precision, AP를 선정하였고 검증 결과는 Table 3, 4와 같다.

Table 3. Evaluation results of Non-SR model

OGCSBN_2022_v38n5_1_559_t0003.png 이미지

Table 4. Evaluation results of SR model

OGCSBN_2022_v38n5_1_559_t0004.png 이미지

Non-SR 모델 결과의 경우 AP@0.5 기준 0.6–0.7의 정확도를 나타냈고, SR 영상을 학습한 모델의 경우 0.85 내외의 정확도로 Non-SR 모델의 결과에 비해 최소 12.3%, 최대 33.3% 향상된 것을 볼 수 있다. 특히 RetinaNet의 경우에는 SR 모델과의 Precision 차이가 매우 큰 것을 확인하였다. 이는 다른 모델들에 비해 상대적으로 선박 클래스에 대한 예측량이 과도하게 많아 Precision 값이 크게 감소한 것으로 예상되며, 영상의 해상도가 현재보다 낮을 경우 RetinaNet의 정확도가 더 감소할 가능성이 크다는 것으로 판단된다. 성능 평가 결과 10 m 공간해상도의 Sentinle-2 영상을 초해상화 하지 않아도 선박 객체를 탐지할 수는 있으나, SR을 적용한 결과와 높은 성능 차이를 보였다.

또한 모델의 탐지 성능을 육안으로 확인하기 위해 학습에 사용되지 않은 네덜란드의 로테르담 항구 부근 영상을 테스트 지역으로 사용했으며, 다양한 조건에서의 탐지 성능을 알아보기 위해 Fig. 9, 10과 같이 테스트 지역을 로테르담 항구 부근 4곳으로 선정하였다.

OGCSBN_2022_v38n5_1_559_f0009.png 이미지

Fig. 9. Result image for each object detection model for (a) and (b) test areas.

Fig. 9(a)의 경우 연안에서 벗어나 해양에 정박되어 있는 선박을 탐지한 결과이며, 이 경우 선박 객체 주변에 오탐지를 유발할 수 있는 픽셀값들이 적으므로 대부분 안정적으로 예측하였다. 하지만 Non-SR 모델 결과에서 FCOS와 RetinaNet의 경우 우측 아래의 소-중형 크기의 선박을 탐지하지 못하였고, Faster-RCNN과 S2ANet는 선박의 위치는 제대로 예측하였지만 예측 영역이 제대로 표현되지 못하는 문제가 있다. SR 모델에서는 모두 선박의 위치를 제대로 예측하였으나, Faster-RCNN의 예측 박스가 제대로 그려지지 못했다는 한계점이 존재했다. 이는 Faster-RCNN 모델이 선박의 위치 예측에는 문제가 없지만, 객체의 형태를 예측하는 부분에서 길이, 넓이, 폭, 각도 등을 고려해야 하는 Rotated Bounding box를 그리는 것에 오차가 높은 문제가 있을 가능성이 있다는 것으로 해석되며, IoU 임계치가 현재보다 높아지면 미탐지의 수가 증가할 것으로 보인다.

Fig. 9(b)의 경우에는 이동중인 선박이 있어 후류와 선박 픽셀이 혼합되어 있는 선박이 존재한다. Non-SR 모델의 경우 후류가 포함된 선박을 대부분 예측하지 못하였지만, SR 모델의 경우 모두 예측하는 것을 볼수있다. 후류 픽셀과 선박 픽셀이 혼합되면서 Non-SR 모델의 경우 선박의 특징을 제대로 학습하지 못하는 반면, SR의 경우에는 초해상화를 적용하면서 선박 형태의 특징 표현하는 픽셀의 수가 증가해 검출률이 높아진 것으로 판단된다.

Fig. 10(a)의 경우 항구 근처에 정박해 있는 선박 두 대를 예측한 결과로 픽셀값이 비슷한 두 선박이 밀접하게 붙어있다. Non-SR의 경우 모든 모델에서 두 대의 선박을 한 대로 예측한 반면, SR 모델은 모두 두 대의 선박을 각각 구분하여 예측하는 것을 볼 수 있다. 이는 비슷한 픽셀값의 선박이 밀접하게 붙어있을 경우 영상의 해상도가 낮을수록 그 사이의 경계가 모호해져 위와 같은 결과가 나타나는 것으로 판단된다.

OGCSBN_2022_v38n5_1_559_f0010.png 이미지

Fig. 10. Result image for each object detection model for (a) and (b) test areas.

Fig. 10(b)의 경우 항구 크레인에 정박한 선박을 예측한 결과이며, 항구 부근에 적재되어 있는 컨테이너의 픽셀값과 선박의 픽셀값이 유사하다. 그 결과 Non-SR 모델에서는 미탐지 되는 선박이 있는 경우가 있는 반면, SR 모델에서는 모두 예측이 가능함을 확인하였다. 또한 Non-SR, SR 모델 모두 컨테이너 화물을 선박으로 오탐지하는 경우는 없는 것으로 확인하였다. 이처럼 연구에 사용된 네 종류의 모델 모두 SR 영상을 활용했을 때에 선박 탐지 정확도가 향상되는 것을 확인할 수 있었고, SR 영상을 활용한다면 Non-SR 모델에서 발생하는 미탐지 및 과탐지 문제를 보완할 수 있을 것으로 보인다.

5. 결론

본 연구에서는 초해상화가 적용된 영상으로 학습시킨 SR 모델과 적용하지 않은 Non-SR 모델을 비교해 초해상화 기술이 객체 탐지 정확도 향상에 효과가 있는지 알아보고자 하였다. Faster-RCNN, RetinaNet, FCOS, S2ANet 모델을 활용해 선박 탐지 모델을 구축하고, 초해상화 모델을 통해 Sentinel-2 영상의 공간해상도를 향상시켰으며, Non-SR 모델과 SR 모델 간의 비교를 실시하였다.

그 결과, 모델 성능 평가에서 SR 모델 모두 Non-SR 모델에 비해 AP@0.5가 최소 12.3%, 최대 33.3% 성능이 향상되는 것을 확인하였다. 또한 학습에 포함되지 않은 테스트 영상을 통해 다양한 조건 하에서 모델의 탐지 성능을 보고자 하였고, Non-SR 결과에 비해 SR 모델이 전체적으로 오탐지 및 과탐지의 비율이 낮아졌음을 확인하였다. 이는 영상의 공간해상도가 높아지면서 선박 객체에 대한 픽셀의 수가 증가함에 따라 모델이 학습할 수 있는 선박의 특징이 명확해져 나타난 결과로 해석된다. 이처럼 초해상화 기술은 객체 탐지 분야에 있어서 중요한 전처리 기술이 될 수 있으며, 객체 탐지 외에도 영상 분할 및 분류 등 다양한 딥러닝 분야에도 적용될 수 있을 것으로 판단된다.

향후 다양한 해상도의 영상에 초해상화 기술을 적용하여 해상도별 객체 탐지 정확도 변화 및 다른 초해상화 모델들을 적용하여 초해상화 모델의 성능에 따른 객체 탐지의 정확도 변화에 대한 연구도 가능할 것으로 보인다. 또한 대용량의 영상 데이터 수집 및 정밀한 객체 탐지, 초해상화 모델 구축을 통해 이전보다 더 정확도 높은 연구를 진행할 수 있을 것으로 예상된다.

사사

본 결과물은 환경부의 재원으로 한국환경산업기술원의 도시생태 건강성 증진 기술개발사업의 지원을 받아 연구되었습니다(과제번호: 2019002760002).

References

  1. Agustsson, E. and R. Timofte, 2017. NTIRE 2017 challenge on single image super-resolution: Dataset and study, Proc. of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, USA, Jul. 21-26, pp. 1122-1131. https://doi.org/10.1109/CVPRW.2017.150
  2. Bo, L., X. Xiaoyang, W. Xingxing, and T. Wenting, 2021. Ship detection and classification from optical remote sensing images: A survey, Chinese Journal of Aeronautics, 34(3): 145-163. https://doi.org/10.1016/j.cja.2020.09.022
  3. Bose, P., D. Halder, O. Rahman, and T. Pial, 2022. Effectivity of super resolution convolutional neural network for the enhancement of land cover classification from medium resolution satellite images, arXiv preprint arXiv:2207. 02301. https://doi.org/10.48550/arXiv.2207.02301
  4. Cao, L., C. Wang, and J. Li, 2016. Vehicle detection from highway satellite images via transfer learning, Information Sciences, 366: 177-187. https://doi.org/10.1016/j.ins.2016.01.004
  5. Choi, Y. J., M.S. Kim, Y.W. Kim, and S.H. Han, 2020. A study of CNN-based super-resolution method for remote sensing image, Korean Journal of Remote Sensing, 36(3): 449-460 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2020.36.3.5
  6. Chen, H., X. He, L. Qing, Y. Wu, C. Ren, R.E. Sheriff, and C. Zhu, 2022. Real-world single image superresolution: A brief review, Information Fusion, 79: 124-145. https://doi.org/10.48550/arXiv.2103.02368
  7. Han, J., J. Ding, J. Li, and G.S. Xia, 2021. Align deep features for oriented object detection, IEEE Transactions on Geoscience and Remote Sensing, 60: 1-11. https://doi.org/10.1109/TGRS.2021.3062048
  8. Haris, M., G. Shakhnarovich, and N. Ukita, 2018. Taskdriven super resolution: Object detection in lowresolution images, arXiv preprint arXiv:1803. 11316. https://doi.org/10.48550/arXiv.1803.11316
  9. He, S., H. Zou, Y. Wang, R. Li, and F. Cheng, 2021a. ShipSRDet: An end-to-end remote sensing ship detector using super-resolved feature representation. Proc. of 2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS, Brussels, Belgium, Jul. 11-16, pp. 3541-3544. https://doi.org/10.1109/IGARSS47720.2021.9554079
  10. He, S., H. Zou, Y. Wang, R. Li, F. Cheng, X. Cao, and M. Li, 2021b. Enhancing Mid-Low-Resolution Ship Detection With High-Resolution Feature Distillation, IEEE Geoscience and Remote Sensing Letters, 19: 1-5. https://doi.org/10.1109/LGRS.2021.3110404
  11. Li, L., Z. Zhou, B. Wang, L. Miao, and H. Zong, 2020. A novel CNN-based method for accurate ship detection in HR optical remote sensing images via rotated bounding box, IEEE Transactions on Geoscience and Remote Sensing, 59(1): 686-699. https://doi.org/10.1109/TGRS.2020.2995477
  12. Lim, B., S.H. Son, H.W. Kim, S.J. Nah, and K.M. Lee, 2017. Enhanced deep residual networks for single image super-resolution, Proc of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, USA, Jul. 21-26, pp. 136-144. https://doi.org/10.1109/CVPRW.2017.151
  13. Lin, T. Y., P. Goyal, R. Girshick, K. He, and P. Dollar, 2017. Focal loss for dense object detection, Proc. of 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 22-29, pp. 2999-3007. https://doi.org/10.1109/ICCV.2017.324
  14. Maeda, S., 2020. Unpaired image super-resolution using pseudo-supervision, Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, Jun 13-19, pp. 288-297. https://doi.org/10.1109/CVPR42600.2020.00037
  15. Padilla, R., S.L. Netto, and E.A. Da Silva, 2020. A survey on performance metrics for object-detection algorithms, Proc. of 2020 International Conference on Systems, Signals and Image Processing (IWSSIP), Niteroi, Brazil, Jul. 1-3, pp. 237-242. https://doi.org/10.1109/IWSSIP48289.2020.9145130
  16. Park, J.J., S.W. Oh, K.-A. Park, M.-S. Lee, J.-C. Jang, and M.J. Lee, 2018. A methodology of ship detection using high-resolution satellite optical image, Journal of the Korean Earth Science Society, 39(3): 241-249 (in Korean with English abstract). https://doi.org/10.5467/JKESS.2018.39.3.241
  17. Ren, S., K. He, R. Girshick, and J. Sun, 2015. Faster R-CNN: Towards real-time object detection with region proposal networks, arXiv preprint arXiv: 1506.01497. https://doi.org/10.48550/arXiv.1506.01497
  18. Shermeyer, J. and A. Van Etten, 2019. The effects of super-resolution on object detection performance in satellite imagery, Proc. of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Long Beach, CA, USA, Jun 16-17, pp. 1432-1441. https://doi.org/10.1109/CVPRW.2019.00184
  19. Stofa, M.M., M.A. Zulkifley, and S.Z.M. Zaki, 2020. A deep learning approach to ship detection using satellite imagery, IOP Conference Series: Earth and Environmental Science, 540: 012049. https://doi.org/10.1088/1755-1315/540/1/012049
  20. Tian, Z., C. Shen, H. Chen, and T. He, 2019. FCOS: Fully convolutional one-stage object detection, Proc. of 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, South Korea, Oct. 27-Nov. 2, pp. 9626-9635. https://doi.org/10.1109/ICCV.2019.00972
  21. Wang, Z., A.C. Bovik, H.R. Sheikh, and E.P. Simoncelli, 2004. Image quality assessment: from error visibility to structural similarity, IEEE Transactions on Image Processing, 13(4): 600-612. https://doi.org/10.1109/TIP.2003.819861
  22. Xie, X., L. Li, Z. An, G. Lu, and Z. Zhou, 2022. Small Ship Detection Based on Hybrid Anchor Structure and Feature Super-Resolution, Remote Sensing, 14(15): 3530. https://doi.org/10.3390/rs14153530
  23. Yoo, J., N. Ahn, and K.-A. Sohn, 2020. Rethinking data augmentation for image super-resolution: A comprehensive analysis and a new strategy, Proc. of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, Jun 13-19, pp. 8372-8381. https://doi.org/10.1109/CVPR42600.2020.00840
  24. Yang, W., X. Zhang, Y. Tian, W. Wang, J.H. Xue, and Q. Liao, 2019. Deep learning for single image super-resolution: A brief review, IEEE Transactions on Multimedia, 21(12): 3106-3121. https://doi.org/10.1109/TMM.2019.2919431
  25. Yang, X., H. Sun, K. Fu, J. Yang, X. Sun, M. Yan, and Z. Guo, 2018. Automatic ship detection in remote sensing images from google earth of complex scenes based on multiscale rotation dense feature pyramid networks, Remote Sensing, 10(1): 132. https://doi.org/10.3390/rs10010132