Deep-learning based SAR Ship Detection with Generative Data Augmentation

Kwon, Hyeongjun;Jeong, Somi;Kim, SungTai;Lee, Jaeseok;Sohn, Kwanghoon;

doi:10.9717/kmms.2022.25.1.001

Journal of Korea Multimedia Society (한국멀티미디어학회논문지)

Volume 25 Issue 1
/
Pages.1-9
/
2022
/
1229-7771(pISSN)
/
2384-0102(eISSN)

Korea Multimedia Society (한국멀티미디어학회)

DOI QR Code

Deep-learning based SAR Ship Detection with Generative Data Augmentation

영상 생성적 데이터 증강을 이용한 딥러닝 기반 SAR 영상 선박 탐지

Kwon, Hyeongjun (School of Electrical and Electronic Engineering, Yonsei University) ;
Jeong, Somi (School of Electrical and Electronic Engineering, Yonsei University) ;
Kim, SungTai (Radar Research and Development Center, Hanwha Systems) ;
Lee, Jaeseok (Radar Research and Development Center, Hanwha Systems) ;
Sohn, Kwanghoon (School of Electrical and Electronic Engineering, Yonsei University)

Received : 2021.11.18
Accepted : 2021.12.29
Published : 2022.01.31

https://doi.org/10.9717/kmms.2022.25.1.001 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Ship detection in synthetic aperture radar (SAR) images is an important application in marine monitoring for the military and civilian domains. Over the past decade, object detection has achieved significant progress with the development of convolutional neural networks (CNNs) and lot of labeled databases. However, due to difficulty in collecting and labeling SAR images, it is still a challenging task to solve SAR ship detection CNNs. To overcome the problem, some methods have employed conventional data augmentation techniques such as flipping, cropping, and affine transformation, but it is insufficient to achieve robust performance to handle a wide variety of types of ships. In this paper, we present a novel and effective approach for deep SAR ship detection, that exploits label-rich Electro-Optical (EO) images. The proposed method consists of two components: a data augmentation network and a ship detection network. First, we train the data augmentation network based on conditional generative adversarial network (cGAN), which aims to generate additional SAR images from EO images. Since it is trained using unpaired EO and SAR images, we impose the cycle-consistency loss to preserve the structural information while translating the characteristics of the images. After training the data augmentation network, we leverage the augmented dataset constituted with real and translated SAR images to train the ship detection network. The experimental results include qualitative evaluation of the translated SAR images and the comparison of detection performance of the networks, trained with non-augmented and augmented dataset, which demonstrates the effectiveness of the proposed framework.

Keywords

1. 서론

합성 개구 레이다(Synthetic Aperture Radar, SAR) 영상은 능동형 레이더파의 반사파를 통해 획득되는지 표면 상의 정보를 영상화한 것이다. SAR영상은가시광선을 이용하는 전자광학(ElectroOptical, EO) 영상과 달리 기상과 일광조건에 상관없이 정보를 얻을 수 있고, 물체 표면에 따라 달라지는 반사 특성에 대한 정보를 얻을 수 있다는 등의 장점이 있다. 따라서 SAR영상은 지표면 분류[1], 표적 탐지[2, 3], 표적 분류[4]등 원격 탐사의 다양한 응용 분야에 활용된다. 한편, 최근 발달된 하드웨어와 대규모 데이터셋의 공개에 따라 컴퓨터 비전의 다양한 응용 분야에서 컨볼루션 신경망(Convolutional Neural Net-work, CNN)을 위주로 하는 딥러닝 기반의 기술이 폭넓게 제안되었으며[7, 24, 25], SAR영상에서의 표적 탐지 등 응용 분야에도 딥러닝 기반의 연구가 활발히 이루어지고 있다[2, 3].

그러나 SAR영상은 영상의 획득 및 라벨링 과정이 어렵고 시간과 비용이 많이 소모되어 대규모 데이터의 구축이 어렵다는 문제가 있다. 딥러닝 네트워크의 학습에 소규모의 데이터가 사용될 경우 과적합 (overfitting)문제가 발생할 수 있으며, 과적합이 발생한 네트워크는 학습 데이터와 다른 분포의 데이터로 테스트를 하였을 때 현저히 저하된 성능을 보일 수 있다. 이러한 문제를 해결하는 방법의 하나로 네트워크의 학습 과정에 데이터 증강(data augmenta-tion)기법을 사용할 수 있다. 데이터 증강은 학습 데이터의 양과 다양성을 증대시켜 딥러닝 네트워크의 정확도 및 일반화 성능을 향상하는 것을 목표로 한다.

본 논문에서는 조건부 생성적 적대 신경망(condi- tiona lGenerativeAdversarial Network, cGAN) 기반의 영상 생성을 통한 데이터 증강을 이용하는 SAR 영상 표적탐지 프레임워크를 제안한다. 증강된 데이터를 활용하여 학습된 네트워크가 방대한 양의 자연 데이터를 이용해 학습된 네트워크에 준하는 성능을 보일 것이라는 가정에 착안하여 다량의 표적 탐지라벨이 있는 EO영상을 조건부로 하는 영상 간 변환기술을 통해 입력 EO영상과 정합(aligned)된 SAR 영상을 생성하여 데이터 증강을 하는 방법을 제안한다. 문헌 조사에 따르면 본 연구는 SAR영상의 표적탐지를 위한 데이터 증강기법을 수행하는 최초의 연구이다. 제안한 증강기법을 적용하기 위해 다량의 표적 탐지라벨이 있는 EO영상을 활용했으며, 결과적으로 탐지 네트워크는 실제 지형지물을 포함하는 정교하게 생성된 SAR영상에 대하여 학습을 진행할 수 있다. 제안한 데이터 증강기법은 기존에 널리 사용되는 EO영상을 활용하여 SAR영상을 합성하였기에 SAR영상을 취득하기 위한 어려움과 취득된 영상에 대한 라벨링에 들어가는 시간을 획기적으로 줄였다. 또한, 기존 SAR영상만으로 학습된 네트워크보다 개선된 성능을 보인다. 본 논문의 구성은 다음과 같다. 2장에서는 본 논문과 관련되는 영상의 표적 탐지기술 그리고 생성적 적대 신경망의 연구에 관한 설명한다.3장에서는 제안하는 네트워크와 데이터 증강기법의 학습방법 그리고 목적함수에 관해 설명하며, 4장에서는 네트워크를 학습하기 위한 기초, 생성된 데이터 셋의 정성적인 결과 그리고 정량적인 평가지표를 통한 실험 결과를 제시한다. 마지막으로 5장에서는 본 논문에서 제안한 방법의 결론을 맺는다.

2. 연구 배경

2.1 객체 탐지(Object Detection)

영상의 객체 탐지는 영상에서 각 객체의 클래스 (class)와 위치를 포함하는 경계 상자(boundingbox) 를 찾는 작업으로, 자율주행 등 다양한 산업의 각종 분야의 자동화를 위해 필수적인 영상인식 연구의 한분야이다. 최근 GPU등 컴퓨터 작업 성능의 향상과 대량의 데이터에 기반을 둔 딥러닝 객체 탐지 방식들은 후보 영역 제안(RegionProposal) 단계와 분류/회귀(Classification/Regression)단계가 분리된 2단계 알고리즘과[5, 6, 7]두 단계가 하나로 합쳐진 1단계 알고리즘으로[8, 9, 10, 26] 구분된다.

딥러닝을 이용하는 최초의 2단계 객체 탐지 알고리즘은 R-CNN으로[5], 선택적 탐색(selectivesearch) [11]기법을 사용해 물체 후보 영역을 생성한 뒤 각 영역에 대한 CNN표현자를 추출한다. 이후 CNN 표현자를 입력으로 하는 SVM(SupportVectorMa- chine)을 사용해 각 영역에 대한 분류를 진행하는 방식으로 객체탐지를 수행한다. Fast R-CNN[6]은 CNN표현자 추출 단계에서의 중복성을 최소화하고 RoI(Regionof Interest)Pooling을 제안하여 속도 향상을 이루어냈지만, 후보 영역 생성 알고리즘으로는 선택적 탐색을 사용하여 제한된 속도를 보인다. 이러한 문제점을 완화하여 속도와 성능 면에서 더욱 향상된 성능을 얻기 위한 방식인 FasterR-CNN이 제안되었다[7]. 이는 후보 영역 생성을 위해 딥러닝 기반의 영역 제안 네트워크(RegionProposalNetwork, RPN)를 제안하였고 이를 통해 속도와 성능 면에서 비약적인 향상을 이루어 냈다.

1단계 객체 탐지 알고리즘은 후보 영역 추출 단계를 거치지 않고 분류와 검출 상자 회귀를 수행해 2단계 알고리즘에 비해 월등히 향상된 속도를 보인다. YOLO는 입력 영상을 S×S그리드로 나눈 뒤 그리드의 각 셀에 대해 B개의 물체 상자와 각 상자에 대한 물체 확률을 예측한다[8].SSD는 기준 상자인 앵커 박스(Anchorbox)를 다양하게 정의하고 여러 스케일의 표현자를 사용하여 스케일에 무관한 객체탐지를 수행할 수 있도록 하였다[9]. RetinaNet은 객체 탐지의 마지막 분류 작업에서 사용되는 교차 엔트로피(Crossentropy) 손실 함수를 변형한 focal loss 를 제안해 1단계 탐지네트워크에서 나타나는 배경과 객체 간의 클래스 불균형 문제를 해소하였다[10]. 위 방식들은 SAR영상에서의 객체 탐지에 사용될 수 있으나, 부족한 SAR영상 데이터를 이용해 학습할 경우 제한된 성능을 보일 수 있다.

2.2 조건부 생성적 적대 신경망(Conditional Generative Adversarial Network)

조건부 생성적 적대 네트워크는 [12]에서 처음 제시되었다. 이는 클래스라벨을 생성기(Generator)와 판별기(Discriminator)에 동시에 공급하여, 입력된 클래스 라벨에 해당하는 영상을 생성한다. 입력 클래스 라벨과 생성된 영상 간의 상관관계를 더욱 향상시키기 위해 ACGAN은 실제 샘플과 생성된 샘플을 모두 올바르게 분류하기 위해 교차 엔트로피 손실 함수를 사용하는 보조분류기를 도입했다[13]. 그 후 self-attentionGAN과 BigGAN에서는 GAN의 학습 안정화 및 개선에 대한 조건부 입력의 효과를 검증하였다[14, 15]. 영상을 다른 영상으로 변환하는 방법은 영상 처리를 기반으로 하는 응용프로그램은 cGAN 의 발전에 가장 많은 영향을 받았다. Pix2pix및 CycleGAN은 각각 짝을 이루는 설정과 짝을 이루지 않은 설정에서 두 특성 도메인(Domain)간에 서로 다른 스타일을 변환한다[16, 17].현재는 CycleGAN 을 활용한 데이터 증강(Data Augmentation)기법들이 많이 제안되었다[18, 19]. 이를 활용해 본 논문에서는 라벨이 있는 EO도메인의 영상을 SAR 도메인의 영상으로 변환하는 것을 제안하였다.

3. 제안 방법

본 논문에서는 딥러닝 기반 SAR선박 탐지 네트워크의 학습 시에 발생하는 데이터 부족 문제를 완화하여 향상된 탐지 성능을 달성하는 것을 목표로 한다. 이를 위해 Fig.1과 같이 EO영상을 입력으로 받는 조건부 생성적 적대 네트워크를 사용해 EO 영상의 스타일을 변환해 SAR영상을 생성하는 데이터 증강 단계(Fig.1, 좌)와, 변환 SAR영상과 실제 SAR 영상으로 이루어진 데이터 셋을 이용해 선박 탐지 네트워크를 학습하는 단계로(Fig.1, 우) 구성되는 프레임워크를 제안한다.

MTMDCW_2022_v25n1_1_f0001.png 이미지

Fig. 1. The overall framework of the proposed method.

3.1 SAR 데이터 증강 네트워크

제안하는 프레임워크의 데이터 증강 단계에서는 도메인 X에 해당하는 EO영상 I_X로부터 도메인 Y에 해당하는 SAR영상 I_Y를 생성하는 딥러닝 네트워크를 학습한다. 구조적으로 짝지어진 EO와 SAR 영상으로 이루어진 데이터 셋의 구성은 매우 어려우므로, 짝지어지지 않은 두 도메인 영상 간 변환을 수행하는 비지도 방식의 cGAN알고리즘인 CycleGAN을[17] 기반으로 증강단계를 설계하였다. 이는 2개의 생성기(Generator)인 G₁, G₂와 2개의 판별기(Discrimi- nator)D₁, D₂로 구성된다.G₁은 도메인 X에서 Y로 변환시키는 생성기이고, G₂는 도메인 Y에서 X로 변환시키는 생성기이다. 또한 D₁은 G₁에 대한 판별기이며, D₂는 G₂에 대한 판별기이다.

위의 데이터 증강 네트워크를 학습하기 위해 적대적 손실 함수(Adversarial loss)를 채택하였다. 생성기는 영상의 스타일을 다른 도메인으로 변환시키는 것을 목표로 하고, 판별기는 각 도메인의 실제 영상과 변환된 영상을 구분하는 것을 목표로 한다.즉, G₁은 입력 EO영상 I_X로부터 입력 영상과 구조적으로 일치하고 실제 SAR영상처럼 보이는 변환 SAR 영상 I_X→Y=G₁(I_X)를 생성해서 D₁이 구분하지 못하도록 학습되고, 반대로 D₁은 실제 영상 I_X와 변환 영상 I_X→Y를 구분하도록 학습한다. 생성기와 판별기 간의 최소-최대 문제(Minimaxproblem)를 통한 학습으로 데이터 증강 네트워크는 더욱 실제 SAR 영상과 비슷한 분포를 갖는 영상을 생성할 수 있게 된다. G₂와 D₂네트워크도 이와 같은 방식으로 SAR 영상으로부터 변환 EO영상을 생성해 낼 수 있도록 학습된다. 이러한 학습을 위해 적용한 적대적 손실 함수는 식(1)과 (2)와 같다.

\(L_{a d v}(X \rightarrow Y)=\log \left(D\left(I_{Y}\right)\right)+\log \left(1-D\left(I_{X \rightarrow Y}\right)\right)\) (1)

\(L_{a d v(Y \rightarrow X)}=\log \left(D\left(I_{X}\right)\right)+\log \left(1-D\left(I_{X \rightarrow Y \rightarrow X}\right)\right)\) (2)

또한, 비지도 방식으로 데이터 증강 네트워크를 학습하기 위해 주기적 일관성 손실 함수(Cycle-con-sistencyloss)를 추가로 활용하였다. 이는 주어진 입력 영상으로부터 변환된 영상이 다시 원래 도메인으로 재변환되었을 때 입력 영상과 동일해야 한다는 조건으로 구성된 손실함수이다. 즉, 변환 영상 I_X→Y 로부터 재변환된 영상 I_X→Y→X=G₂(I_X→Y)와 원본 영상 I_X간의 L₁거리 차이가 작아지도록 네트워크가 학습되고, 이는 식(3)와 같이 표현된다.

\(L_{c y c}=\left\|I_{X \rightarrow Y \rightarrow X}-I_{X}\right\|_{1}\) (3)

L₁비용함수는 L₂비용함수에 비해 결과 영상의 흐림(Blurring)이 덜하고 세부 정보가 보존되는 방향으로 학습된다는 장점이 있어 영상 처리의 다양한 분야에 사용된다. 식(3)의 손실함수를 통해 실제 영상과 재변환된 영상의 픽셀 단위 차이를 줄임으로써 변환 영상에 대한 정답 영상이 없음에도 불구하고 영상의 변환 과정에서 구조적인 정보가 유지되도록 한다.

제안하는 생성기의 네트워크 구조는 잔차 네트워크(Residualnetwork)[21] 를 기반으로 하였다.1개의 7×7컨볼루션 층(Convolutionlayer)와 표현자의 크기를 1/4배로 줄이는 2개의 3×3 컨볼루션 층, 9개의잔차 블록(Residualblock), 표현자의 사이즈를 4배 키워 원본 영상의 크기로 늘리기 위한 2개의 3×3디컨볼루션 층(Deconvolutionlayer), 1개의 7×7컨볼루션 층과 마지막 Tanh활성화 함수층으로 구성된다. 판별기는 4개의 4×4 컨볼루션 층, 1개의 완전 계층 연결(Fullyconnectedlayer), 그리고 시그모이드 (Sigmoid) 활성화 함수로 구성된다.

3.2 SAR 선박 탐지 네트워크

제안하는 프레임워크의 선박 탐지 네트워크는 실제 SAR영상과, 데이터 증강 네트워크를 통해 생성되는 변환 SAR영상을 이용하여 학습된다. 선박 탐지 네트워크로는 대표적인 2단계 탐지 네트워크인 FasterR-CNN를[7]사용하였다.이는 표현자를 추출하는 표현자 추출 네트워크(Feature extraction network)F와 후보 영역을 생성하는 영역제안 네트워크(Regionproposalnetwork, RPN), 추출된 해당 후보가 어떤 물체인지를 분류하는 분류기와(Classi- fier) 상자의 위치를 조절하는 경계상자 회귀자로 (Boundingbox regressor) 구성되어 있다.

첫 번째로, 네트워크 F를 통해 입력 영상에서 의미 있는 표현자를 추출한다. 본 연구에서는 F의 구조로 ResNet-50을[21] 활용하였다. 이때 다양한 크기의 선박을 효율적으로 검출하기 위해 표현자 피라미드 네트워크(FeaturePyramidNetwork, FPN)을 함꼐활용하였는데, 이는 ResNet-50의 여러 레벨에서 추출된 표현자를 융합하여 사용함으로써 다중 스케일의 표현자를 효율적으로 사용할 수 있도록 한다. 이를 통해 표현자들이 더 많은 의미론적 정보(Seman- ticinformation)을 포함하도록 하고, 표현자의 추출과정에서 손실되는 지역적 정보를 보충하게 됨으로써 스케일 변화에 강인한 표현자를 구성한다. 이렇게 추출된 표현자를 RPN의 입력으로 사용해 여러 개의 관심 영역(Regionof Interst, RoI)과 각각에 대한 물체 점수(objectscore) 및 객체상자 위치 좌표를 구한다. 이후 비최대값 억제(Nonmaximumsuppress- ion) 알고리즘을 적용하여 물체 점수가 높은 상위 1000개의 영역 후보만을 출력한다. 이후, F에서 추출된 표현자의 각 후보에 관해 관심 영역 풀링(RoI pooling)을 수행하여 고정된 크기의 객체 영역 표현자를 얻는다. 마지막으로 객체 영역 표현자를 분류기와 경계상자 회귀자에 전달하여 각 관심 영역에 대한 선박 클래스의 확률 및 상자 위치를 추정한다.

표적 탐지기인 FasterR-CNN를 학습하기 위해 클래스를 분류하기 위한 손실함수 L_cls로는 교차 엔트로피 비용함수를 사용하였고 경계상자의 위치를 정확히 추정하기 위한 손실함수 L_reg로는 smooth L1비용 함수를 사용하며, 최종 비용함수는 두 비용함수의 선형 조합을 사용하였다 (식 (4)).

\(L_{\text {det }}\left(\left\{p_{i}\right\},\left\{t_{i}\right\}\right)=\frac{1}{N_{c l s}} \sum_{i} L_{c l s}\left(p_{i}, p_{i}^{*}\right)+\lambda \frac{1}{N_{r e g}} \sum_{i} L_{r e g}\left(t_{i}, t_{i}^{*}\right)\) (4)

데이터 증강 네트워크와 선박 탐지 네트워크는 동시에 학습되는 것이 아니며 증강 네트워크를 먼저 학습하여 생성된 SAR영상을 이용하여 탐지 네트워크를 학습한다.

4. 실험 결과 및 고찰

본 장에서는 제안한 방법의 효율성을 보이기 위한 실험 결과를 제시한다. 먼저 실험 환경에 관해 설명하고, 기존의 데이터 증강기법이 적용되었을 때와 본 논문에서 제시한 방법을 적용하였을 때 향상된 결과를 얻을 수 있음을 보인다. 마지막으로, 각각의데이터 셋에 대하여 성능을 다른 방법들과 비교한다.

4.1 실험 환경 및 구현 세부사항

본 연구에서는 실험과정에 3.8GHzCPU와 24GB RAM, NVIDIATitanXGPU가 장착된 PC를 이용하였으며, 딥러닝 라이브러리로는 PyTorch를 사용하였다. 실제 SAR영상 데이터 셋으로는 선박에 대한 객체상자 라벨을 제공하는 HRSID데이터셋을활용하였다. 이는 3, 642장의 학습세트와 1, 962장의 테스트 세트로 구성되어 있다[20]. 데이터 증강을 위한 EO데이터로는 항공영상 데이터 셋인 DOTA데이터셋을 활용하였으며, 이때 선박 객체라벨이 포함된 3, 918장의 영상만 활용하였다[22].SAR 및 EO 입력 영상의 크기는 800x800 크기로 조정하였다.

SAR데이터 증강 네트워크 학습을 위해 배치 크기는 1로 설정하였고, 최적화를 위하여 Adamsolver (β1=0.5, β2=0.999)를 이용하였다. 학습률은 처음 50 에포크(Epoch)까지 0.0002로 설정하였고, 이후 50에 포크 동안에 선형적으로 학습률을 0까지 줄이도록 설정하였다. SAR 선박 탐지기의 배치 크기는 4, 초기 학습률은 0.005로 설정하였다. 표현자 추출 네트워크는 ImageNet 데이터 셋으로[23] 사전 학습된 ResNet-50의[21] 파라미터로 초기화를 하였으며, SGD(StochasticGradientDescent)를 기반으로 네트워크를 최적화하였다. 학습은 총 64 epoch 진행하였다.

4.2 조건부 생성적 적대 신경망을 활용한 데이터 증강 결과

제안한 데이터 증강 네트워크를 통하여 생성된 변환 SAR영상의 품질을 확인하기 위하여 실제 SAR 영상과 변환 SAR영상을 비교하였으며 실제 SAR 영상과 변환 SAR영상 그리고 EO영상의 히스토그램을 비교하였다. 또한, EO영상에서 SAR 영상으로 변환할 때와 SAR영상에서 다시 EO영상으로 변환할 때 구조적인 정보들이 잘 보존이 되는지 확인하였다. Fig.2의 히스토그램을 통해서 실제 SAR 영상과 변환 SAR영상의 히스토그램 분포가 거의 일치하는 것을 볼 수 있다. 그리고, Fig.3을 통해서 EO에서 SAR또는 SAR에서 EO로 영상 변환을 진행하였을 때 구조적인 정보가 손실되지 않고 보존되는 것을 확인할 수 있다.

MTMDCW_2022_v25n1_1_f0002.png 이미지

Fig. 2. Histogram comparison for EO, real SAR and translated (trans.) SAR images.

MTMDCW_2022_v25n1_1_f0003.png 이미지

Fig. 3. Qualitative results of the images translated between SAR and EO domains. (a) SAR to EO and (b) EO to SAR.

4.3 조건부 생성적 적대 신경망을 활용한 데이터 증강의 효율성

제안한 데이터 증강기법의 객체 탐지 성능 향상에 대한 효율성을 보이기 위하여 실제 SAR 영상만으로 이루어진 비증강 데이터로 학습한 네트워크와 (Non-Augmented, NA), 증강 네트워크를 통해 생성된 변환 SAR영상과 실제 SAR영상을 통합한 증강데이터를 이용해 학습한 네트워크의(Ours) 탐지 결과를 비교하였다.

표적탐지 성능의 객관척도로는 AveragePreci- sion(AP)을 사용하였으며, 결과 상자와 정답 상자 간의 IoU(IntersectionoverUnion)및 물체의 크기에 따른 세부척도를 사용하였다. IoU기준을 0.5부터 0.95까지 변경해가며 측정한 평균 AP, 기준 IoU를 0.5와 0.75로 설정한 AP50과 AP75, 그리고 표적 상자의 크기에 따른 APs, APm, APl를 측정하였다. 결과는 Table1에 주어졌으며, 실제 SAR영상만을 이용하여 학습시킨 네트워크에 비해, 증강 데이터를 사용하여 학습한 네트워크가 모든 세부 척도에서 기존성능 대비 약 10%의 성능 향상을 보인 것을 확인할 수 있다. 또한 Fig.4를 통해 제안하는 데이터 증강기법을 사용해 학습된 네트워크가 정답(Ground- Truth, GT)에 가까운, 더 정확한 검출 결과를 생성하는 것을 볼 수 있다.

MTMDCW_2022_v25n1_1_f0004.png 이미지

Fig. 4. Ship detection results on the HRSID[20] dataset. (a) Ground-Truth (GT, 1st row), (b) detection results of Faster R-CNN[7] trained with Non-Augmented dataset (NA, 2nd row), and (c) augmented dataset (Ours, 3rd row).

Table 1. Quantitative detection results on the HRSID [20] dataset.

MTMDCW_2022_v25n1_1_t0001.png 이미지

5. 결론

본 논문에서는 딥러닝 기반 SAR영상 선박 탐지네트워크의 학습을 위한 조건부 생성적 적대 신경망을 이용한 데이터 증강기법을 제안하였다. EO영상을 SAR영상의 스타일로 변환시키는 딥러닝 네트워크를 학습하였으며, 다량의 EO영상으로부터 변환된 SAR영상 데이터를 실제 SAR영상 데이터와 통합하여 증강된 데이터 셋을 구성하였다.증강 데이터셋을 이용해 선박 탐지 네트워크를 학습하였으며, 실제 SAR영상만으로 이루어진 비증강 데이터로 학습한 네트워크 대비 검출 성능이 향상됨을 확인하였다. 제안하는 데이터 증강 기법은 향후의 미론적 분할 등 다른 영상인지 작업에 접목하여 확장할 수 있다.

References

Y. Wang and Q. Zheng, "Recognition of Roads and Bridges in SAR Images," Pattern Recognition, Vol. 31, No. 7, pp. 953-962, 1998. https://doi.org/10.1016/S0031-3203(97)00098-8
Y.-L. Chang, A. Anagaw, L. Chang, Y.C. Wang, C.-Y. Hsiao, and W.-H. Lee, "Ship Detection based on YOLOv2 for SAR Imagery," Remote Sensing Vol. 11, Issue 7, 786, 2019. https://doi.org/10.3390/rs11070786
T. Zhang and X. Zhang, "High-Speed Ship Detection in SAR Images Based on a Grid Convolutional Neural Network," Remote Sensing, Vol. 11, No. 10, 1206, 2019. https://doi.org/10.3390/rs11101206
C. Kang and C. He, "SAR Image Classification Based on the Multi-Layer Network and Transfer Learning of Mid-Level Representations," IEEE International Geoscience and Remote Sensing Symposium, pp. 1146-1149, 2016.
R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 580-587, 2014.
R. Girshick, "Fast R-CNN," Proceedings of the IEEE International Conference on Computer Vision, pp. 1440-1448, 2015.
S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 39, No. 6, pp. 1137-1149, 2016. https://doi.org/10.1109/TPAMI.2016.2577031
J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016.
W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S.E. Reed, C. Fu, et al., "SSD: Single Shot Multibox Detector," European Conference On Computer Vision, Springer, Cham, pp. 21-37, 2016.
T.Y. Lin, P. Goyal, R. Girshick, H. He, and P. Dollar, "Focal Loss for Dense Object Detection," Proceedings of the IEEE International Conference on Computer Vision, pp. 2999-3007, 2017.
J.R. Uijlings, K.E. Van De Sande, T. Gevers, and A.W. Smeulders, "Selective Search for Object Recognition," International Journal of Computer Vision, Vol. 104, No. 2, pp. 154-171, 2013. https://doi.org/10.1007/s11263-013-0620-5
M. Mirza and S. Osindero, "Conditional Generative Adversarial Nets," arXiv P reprint, arXiv:1411.1784, 2014.
A. Odena, O. Christopher, and S. Jonathon, "Conditional Image Synthesis With Auxiliary Classifier GANs," International Conference on Machine Learning, PMLR, pp. 2642-2651, 2017.
H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, "Self-Attention Generative Adversarial Networks," International Conference on Machine Learning, PMLR, pp. 7354-7363, 2019.
A. Brock, J. Donahue, and K. Simonyan. "Large Scale GAN Training for High Fidelity Natural Image Synthesis," arXiv P reprint, arXiv:1809.11096, 2018.
P. Isola, J.Y. Zhu, T. Zhou, and A.A. Efros, "Image-to-Image Translation with Conditional Adversarial Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5967-5976, 2017.
J. Zhu, T. Park, P. Isola and A. A. Efros, "Un-Paired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks," Proceedings of the IEEE International Conference on Computer Vision, pp. 2242-2251, 2017.
V. Sandfort, K. Yan, P. J. Pickhardt, and R. M. Summers, "Data Augmentation Using Generative Adversarial Networks (CycleGAN) to Improve Generalizability in CT Segmentation Tasks," Scientific Reports. Vol. 9, No. 1, pp. 1-9, 2019. https://doi.org/10.1038/s41598-018-37186-2
X. Zhu, Y. Liu, J. Li, T. Wan, and Z. Qin, "Emotion Classification with Data Augmentation Using Generative Adversarial Networks," Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Cham, pp. 349-360, 2018.
S. Wei, X. Zeng, Q. Qu, M. Wang, H. Su and J. Shi, "HRSID: A High-Resolution SAR Images Dataset for Ship Detection and Instance Segmentation," IEEE Access, Vol. 8, pp. 120234-120254, 2020. https://doi.org/10.1109/access.2020.3005861
K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.
G.-S. Xia, X. Bai, J. Ding, Z. Zhu, S.J. Belongie, J. Luo, et al., "DOTA: A Large-Scale Dataset for Object Detection In Aerial Images," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3974-3983, 2018.
J. Deng, W. Dong, R. Socher, L.-J. Li, Kai Li, and Li Fei-Fei, "Imagenet: A Large-Scale Hierarchical Image Database," IEEE Conference on Computer Vision and Pattern Recognition, pp. 248-255, 2009.
K. He, J. Sun, and X. Tang, "Single Image Haze Removal Using Dark Channel Prior," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 12, pp. 2341-2353, 2011. https://doi.org/10.1109/TPAMI.2010.168
J. Long, E. Shelhamer, and T. Darrell, "Fully Convolutional Networks for Semantic Segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3431-3440, 2015.
J.Y. Kim, S.H. Jung, and C.B. Sim. "A Study on Object Detection using Restructured RetinaNet," Journal of Korea Multimedia Society, Vol. 23, No. 12 pp. 1531-1539, 2020. https://doi.org/10.9717/KMMS.2020.23.12.1531