DOI QR코드

DOI QR Code

The Method for Colorizing SAR Images of Kompsat-5 Using Cycle GAN with Multi-scale Discriminators

다양한 크기의 식별자를 적용한 Cycle GAN을 이용한 다목적실용위성 5호 SAR 영상 색상 구현 방법

  • Ku, Wonhoe (Department of Aerospace System Engineering, Korea University of Science and Technology) ;
  • Chun, Daewon (Department of Aerospace System Engineering, Korea University of Science and Technology)
  • 구원회 (과학기술연합대학원대학교 항공우주시스템공학과) ;
  • 정대원 (과학기술연합대학원대학교 항공우주시스템공학과)
  • Received : 2018.12.02
  • Accepted : 2018.12.13
  • Published : 2018.12.31

Abstract

Kompsat-5 is the first Earth Observation Satellite which is equipped with an SAR in Korea. SAR images are generated by receiving signals reflected from an object by microwaves emitted from a SAR antenna. Because the wavelengths of microwaves are longer than the size of particles in the atmosphere, it can penetrate clouds and fog, and high-resolution images can be obtained without distinction between day and night. However, there is no color information in SAR images. To overcome these limitations of SAR images, colorization of SAR images using Cycle GAN, a deep learning model developed for domain translation, was conducted. Training of Cycle GAN is unstable due to the unsupervised learning based on unpaired dataset. Therefore, we proposed MS Cycle GAN applying multi-scale discriminator to solve the training instability of Cycle GAN and to improve the performance of colorization in this paper. To compare colorization performance of MS Cycle GAN and Cycle GAN, generated images by both models were compared qualitatively and quantitatively. Training Cycle GAN with multi-scale discriminator shows the losses of generators and discriminators are significantly reduced compared to the conventional Cycle GAN, and we identified that generated images by MS Cycle GAN are well-matched with the characteristics of regions such as leaves, rivers, and land.

다목적실용위성 5호는 국내 최초로 영상레이더(SAR)가 탑재된 지구관측위성이다. SAR 영상은 위성에 부착된 안테나로부터 방사된 마이크로파가 물체로부터 반사된 신호를 수신하여 생성된다. SAR는 대기 중의 입자의 크기에 비해 파장이 긴 마이크로파를 사용하기 때문에 구름이나 안개 등을 투과할 수 있으며, 주야간 구분 없이 고해상도의 영상을 얻을 수 있다. 하지만, SAR 영상에는 색상 정보가 부재하는 제한점이 존재한다. 이러한 SAR 영상의 제한점을 극복하기 위해, 도메인 변환을 위해 개발된 딥러닝 모델인 Cycle GAN을 활용하여 SAR 영상에 색상을 대입하는 연구를 수행하였다. Cycle GAN은 unpaired 데이터셋 기반의 무감독 학습으로 인해 학습이 불안정하다. 따라서 Cycle GAN의 학습 불안정성을 해소하고, 색상 구현의 성능을 향상하기 위해 다중 크기 식별자를 적용한 MS Cycle GAN을 제안하였다. MS Cycle GAN과 Cycle GAN의 색상 구현 성능을 비교하기 위하여 두 모델이 Florida 데이터셋을 학습하여 생성한 영상을 정성적 및 정량적으로 비교하였다. 다양한 크기의 식별자가 도입된 MS Cycle GAN은 기존의 Cycle GAN과 비교하여 학습 결과에서 생성자 및 식별자 손실이 대폭 감소되었고, 나뭇잎, 강, 토지 등의 영역 특성에 부합하는 색상이 구현되는 것을 확인하였다.

Keywords

1. 서론

NASA(National Aeronautics and Space Administration)는 1978년 6월 28일, 세계 최초로 SAR(Synthetic Aperture Radar)가 탑재된 인공위성인 SEASAT을 해양관측임무를 수행하기 위해 Vandenberg 공군 기지에서 쏘아 올렸다. SEASAT은 고도 800 km의 태양동기궤도로 투입되었고, NASAJPL(Jet Propulsion Laboratory)이 운영했다. SEASAT의 임무는 해양 원격탐사 위성 시스템에 대한 요구사항을 결정하고, 파도 높이, 해빙 특징, 해양 지형 등 해양 현상의 전 지구적 관찰 가능성을 입증하는 것이었다. 1978년 10월 10일, SEASAT의 전력 시스템 고장으로 인해 약 3개월 만에 임무가 종료되었다. SEASAT이 전송한영상Alaska Satellite Facility에서 구할 수 있다(NASA, 2013). SEASAT은 마이크로파를 사용하여 해양 상태를 감시하는 SAR 임무 수행을 위한 토대를 마련했다.

국내에서 최초로 SAR가 탑재된 지구관측위성은 한국항공우주연구원에서 2013년 8월 22일일에 발사되고 이후 운영하는 다목적 실용위성 5호이다. 다목적실용위성 5호는 하루 네 번 한반도를 관측할 수 있으며 공공안전, 재난 재해 예측, 국토 자원관리, 환경감시 등 다양한 분야에서 활용되고 있다. 다목적실용위성의 주요 속성은 Table 1과 같다(Space-Track, 2013). SAR를 탑재한 위성은 전천후 주야간 구분 없이 고해상도 영상을 얻을 수 있다. 하지만, SAR 데이터는 입사 및 반사 전자파 간의 관계를 기반으로 계산되고 대상의 산란 메커니즘에 따라 달라지기 때문에 SAR 데이터 자체는 대상의 색상에 관한 정보를 포함하지 않는다(Argenti et al., 2012). 이러한 SAR 영상의 색상 정보가 부재하는 제한점을 극복하기 위해 SAR 영상에 적절한 색상을 구현하기 위한 여러 연구가 수행되었다. 중국의 Tsinghua 대학교에서는 SAR 영상을 Cloude 및 Pottier 분해를 사용하여 픽셀을 8개의 클래스로 분류하고, Lab 색상 공간에서 무감독 분류 기법을 통해 SAR 영상에 색상을 대입했다. 단, 8개의 색상 클래스는 사용자 임의로 지정해야 한다(Deng et al., 2008). 중국의 상하이 대학교에서는 인간이 질감을 통해 지형 유형을 판단할 수 있다는 사실에 착안하여, DNN(Deep Neural Network)를 이용해 end-to-end 방식으로 추가 정보 없이 단일 폴 영상을 완전 편광 SAR 영상으로 재구성했다(Song et al., 2017). 입력하는 SAR 영상에 기하학적으로 일치하는 하는 광학 영상으로 구성된 paired 데이터셋을 모델의 학습에 이용하였다. Paired 데이터셋은 모든 SAR 영상에 해상도가 동일하며 기하학적으로 완벽히 일치하는 광학 영상이 쌍으로 구성된 데이터셋을 의미한다. 쌍을 이루는 데이터셋 기반의 감독 학습(supevised earning)을 수행하기 위해서는 데이터셋 구축에 많은 시간과 노력이 요구되며 때로는 입력 영상에 대응하는 데이터를 얻지 못할 수도 있다. 반면에 unpaired 데이터셋은 두 도메인의 영상의 해상도가 일치할 필요가 없으며 기하학적으로 일치하지 않아도 무방하다.

Table 1. Characteristics of Kompsat-5

OGCSBN_2018_v34n6_3_1415_t0001.png 이미지

앞서 언급한 사전 연구에서는 사용자가 정의한 색상의 개수로만 표현할 수 있거나, 입력 영상에 대한 라벨 영상이 존재하는 paired 데이터셋 기반으로만 모델의 학습이 가능했던 한계점이 존재하였다. 이러한 기존 연구의 한계점을 해소하기 위해서 본 논문에서는 unpaired 데이터셋 기반으로 무감독 학습(Unsupervised Learning)이 가능한 Cycle GAN(Zhu et al., 2017)을 이용하여 SAR 영상에 색상을 구현하는 연구를 수행하였다.

Cycle GAN은 unpaired 데이터셋을 기반의 색상 구현을 위한 학습 과정이 무감독 학습으로 수행되면서 학습이 불안정한 문제점이 발생한다. 따라서 본 논문에서는 기존 GAN의 학습 불안정성을 해소하고 SAR 영상에서 광학 영상으로 도메인 변환을 통해 SAR 영상에 색상을 구현하기 위해 다중 식별자를 Cycle GAN에 도입하여 MS Cycle GAN을 제안하였다.

MS Cycle GAN과 Cycle GAN의 학습에는 Florida 데이터셋을 구축하여 이용하였으며, 학습 과정과 생성 영상을 정량적 및 정성적 방법으로 비교 및 평가함으로써, Cycle GAN에 다양한 크기의 식별자가 적용되었을 때, 학습 불안정이 완화되었으며 색상 구현 성능이 효과적으로 개선되었음을 확인하였다.

2. Cycle GAN

Cycle GAN은 GAN(Goodfellow et al., 2014)을 활용하여 무감독 학습이 가능한 도메인 변환을 수행하기 위해 개발되었다.

1) GAN( Generative Adversarial Network)

GAN(Goodfellow et al., 2014)은 실제 데이터의 확률밀도 값을 알 수 없을 때 발생하는 최대우도 추정의 한계를 적대적 학습(Adversarial Training)을 통해 우회한 생성형 모델(Generative Model)의 새로운 프레임워크이다(Goodfellow et al., 2014). GAN은 생성자(generator)와 식별자(discriminator)로 구성되어 있다. 기존의 인공 신경망은 많은 데이터를 가지고 있더라도 실제의 확률 밀도 값을 알 수 없기 때문에 회귀 분석을 통한 학습이 불가능했다. 하지만, GAN은 실제 확률 밀도 값을 모르더라도 가우시안 분포에서 잡음 벡터를 임의로 추출하고, 추출된 잡음 벡터를 생성자 인공신경망을 통해 데이터로 변환하였다. GAN은 데이터를 생성하는 인공 신경망인 생성자와 생성되는 데이터 분포의 진위 여부를 식별하는 공 신경망인 식별자로 구성되어 있으며,생성자와 식별자의 적대적 학습을 위한 목적함수가 제시되어야 한다. GAN의 목적함수는 수식 (1)과 같다. 수식 (1)에서 E는 기댓값, z는 잡음 벡터, V(D, G)는 생성자 G와 식별자 D의 적대적 학습을 위한 목적 함수를 의미한다.

\(\begin{aligned} \min{_G} \max {_D} V(D, G)=& E_{x \sim p_{\text {data }(x)}}[\log D(x)]+\\ & E_{x-p_{g(z)}}[\log (1-D(G(z))] \end{aligned}\)       (1)

생성자는 목적함수가 최소값을 출력하도록, 식별자는 목적함수가 최대값이 되도록 학습이 진행된다. 수식 (1)을 최적화하기 위한 적대적 학습 과정은 Fig. 1과 같다. 식별자는 생성자의 데이터 생성 분포와 샘플 데이터 분포 간의 차이가 큰 곳에서는 큰 값을, 차이가 작은 곳에서는 작은 값을 출력하도록 매개변수가 갱신되며, 생성자가 생성한 영상의 진위 여부를 구분하며 0에서 1 사이의 스칼라 값을 출력한다. 생성자는 식별자가 출력하는 값을 바탕으로 식별자가 높은 값을 출력하도록 매개변수가 갱신된다. 식별자와 생성자의 학습이 반복될수록 생성자는 domain 2의 영상과 유사한 영상을 생성하게 된다. 최적의 상태로 학습된 식별자는 이론적으로 0.5를 출력한다(Goodfellow et al., 2014). GAN에서 목적함수로 사용한 미니맥스 게임 방식의 적대적 학습은 불안정하기 때문에, 모드 붕괴(Mode Collapse)가 발생하기도 한다. 완전한 모드 붕괴가 발생하는 경우는 드물지만, 부분적인 모드 붕괴는 빈번히 발생한다(Goodfellow, 2016; Radford et al., 2015). 모드 붕괴가 발생하면 GAN의 생성자는 실제 데이터 분포의 모든 모드를 추정하지 못하고 학습이 진행됨에 따라 다른 모드 사이를 순환하며 한 번에 하나의 모드만 강하게 생성한다.

OGCSBN_2018_v34n6_3_1415_f0001.png 이미지

Fig. 1. Training Process of GAN.

2) Cycle GAN

Cycle GAN은 paired 데이터셋 기반으로 감독 학습만 가능하던 Pix2Pix(Isola et al., 2017)의 생성자에 residual block(He et al., 2016)을 적용하여 생성자의 구조를 변경하였으며, cycle-consistency 손실(Kala et al., 2010; Sundaram et al., 2010)을 도입하여 unpaired 데이터셋 기반의 무감독 학습이 가능하게 되었다. Fig. 2는 paired 데이터셋과 unpaired 데이터셋의 차이를 보여준다. paired 데이터셋은 입력 영상과 라벨이 기하학적으로 일치해야 하지만 unpaired 데이터셋은 두 도메인의 영상이 쌍을 이루지 않고, 각각의 도메인의 영상의 집합으로 구성되어 있다. Fig. 3는 Cycle GAN의 개략적인 구성를 나타낸다. Cycle GAN은 각각 2개의 생성자 , G와 2개의 식별자 DX, DY로 구성되어 있다. 도메인을 SAR 영상, Y 도메인을 광학 영상이라고 가정하면, 생성자 F는 도메인 X의 원소인 SAR 영상 x가 입력되면, Y도메인의 영상 \(\hat {y}\)로 변환한다. 즉, SAR 영상이 광학영상으로 변환되며 색상정보가 추가된다. 식별자 Dy는 변환된 영상 \(\hat {y}\)에 대한 진위 여부를 판단하며 0에서 1사이의 수치를 출력한다. 생성자 G는 Y도메인에서 X 도메인의 영상으로 변환을 수행하며, 식별자 DX는 변환된 영상 \(\hat {x}\)에 대한 식별값을 출력한다. 따라서 F → G 혹은 G → F를 거쳐 입력 영상 x 혹은 y와 재생성 영상 x′ 혹은 \(\hat {y}\)간의 손실이 작아지는 방향으로 생성자 F와 G의 매핑 함수는 적절한 매개변수가 갱신된다. 생성자 F가 색상을 적절하게 구현하도록 학습되기 위해서는 F 뿐만 아니라 생성자 G 또한 적절하게 학습되어야 한다.

OGCSBN_2018_v34n6_3_1415_f0002.png 이미지

Fig. 2. Comparison of paired and unpaired dataset.

OGCSBN_2018_v34n6_3_1415_f0003.png 이미지

Fig. 3. The configuration of Cycle GAN

Cycle GAN의 학습을 위한 목적함수는 수식 (2)~(6)과 같다. Cycle GAN의 목적 함수에는 GAN의 학습 불안정성을 해소하기 위해 개발된 LSGAN(Xudong et al., 2017)이 도입되었다.

\(F^{*}, G^{*}=\arg \min {_G} \min{_D} \mathrm{~L}_{\text {total }}\)       (2)

\(\begin{aligned} \mathrm{L}_{\text {total }}=& \mathrm{L}_{L S G A N}\left(G, D_{Y}, \mathrm{X}, \mathrm{Y}\right) \mathrm{L}_{\text {total }}+\\ & \mathrm{L}_{L S G A N}\left(F, D_{X}, \mathrm{Y}, \mathrm{X}\right)+\lambda \mathrm{L}_{c y c}(F, G) \end{aligned}\)       (3)

\(\begin{aligned} \mathrm{L}_{L S G A N}\left(G, D_{X}, Y, X\right)=& E_{x-p_{\text {datt(x) }}}\left[\left(D_{X}^{(i)}-1\right)^{2}\right]+\\ & E_{y-p_{\text {data }()}}\left[D_{X}^{(i)}(G(y))^{2}\right] \end{aligned}\)       (4)

\(\begin{aligned} \mathrm{L}_{L S G A N}\left(F, D_{Y}, X, Y\right)=& E_{y-p_{\text {phate }}}\left[\left(D^{(i)}-1\right)^{2}\right]+\\ & E_{x-p_{\text {datat }}}\left[D_{Y}^{(i)}(F(x))^{2}\right] \end{aligned}\)      (5)

\(\begin{aligned} \mathrm{L}_{c y c}(F, G)=& E_{x-p_{\text {dhat }}}\left[\| G\left(F(x) \|_{1}\right]+\right.\\ & E_{\left.y-p_{\text {dhaty }}\right)}\left[\| F\left(G(y) \|_{1}\right]\right. \end{aligned}\)      (6)

수식 (1)의 GAN의 목적 함수와 달리 수식 (2)의 목적함수는 생성자와 식별자 모두 목적 함수의 출력이 작아지도록 학습을 유도한다. 수식 (4), (5)는 LSGAN의 목적 함수이며, 수식 (4), (5) 우변의 첫 항은 식별자 손실(discriminator loss) 두 번째 항은 생성자 손실(generator loss)을 의미한다. 수식 (8)은 cycle-consistency이며, 두 도메인의 입력 영상(x, y)와 재생성 영상 \((\hat{x}, \hat{y})\) 간의 L1 손실의 합을 의미한다. 수식 (6)에서 상대적 중요도를 결정하는 의 값을 크게 결정할수록 입력 영상에서 대상 물체의 형태가 유지된다.

Cycle GAN은 영상의 도메인 변환에 좋은 성능을 보였지만, 흑백 영상의 색상을 구현하거나 도메인 변환 대상의 외형이 달라지는 경우에는 도메인 변환 성능이 저하되었다. 말에서 얼룩말로 변환하는 경우에 말과 얼룩말은 전반적인 형상이 비슷하지만, 사과에서 오렌지, 고양이에서 개는 외형이 상이하다. 외형이 달라지는 경우 학습된 Cycle GAN의 생성 영상의 해상도가 저하되는 현상을 보였다(Zhu et al., 2017). SAR 영상과 광학 영상은 일반적으로 해상도가 다르며, 영상의 촬영 시각 및 자세 등이 달라질 수 있으며 방문 주기의 제약 때에, 기존의 촬영 영상과 일치하는 영상을 얻기는 쉽지 않다. 따라서 Cycle GAN으로 SAR 영상에서 광학 영상으로 도메인을 변환함으로써 색상을 구현하면 적절한 결과를 얻을 수 없다.

3. MS Cycle GAN

Unpaired 데이터셋 기반의 무감독 학습으로 인해 기존의 Cycle GAN은 형상이 달라지거나 흑백 영상의 색상 구현을 수행하기 위한 도메인 변환을 위한 학습을 수행할 때는 학습 불안정성을 보이며 모드가 진동하거나 손실이 수렴하지 않았다(Zhu et al., 2017). 따라서 본 장에서는 SAR 영상에서 광학 영상으로 도메인 변환을 수행할 때 발생하는 Cycle GAN의 학습 불안정을 해소하기 위해 GAN의 학습 불안정성을 해소하려는 목적으로 수행되었던 다중 식별자(Durugkar et al., 2017) 및 다양한 크기의 식별자(Wang et al., 2016)를 Cycle GAN에 적용하여 SAR 영상의 색상 구현을 위한 딥러닝 모델인 MS(Multi-Scale) Cycle GAN을 제안하였다. MS Cycle GAN의 개략적인 구성도는 Fig. 4와 같다. Fig. 4의 MS Cycle GAN와 Fig. 3의 Cycle GAN의 가장 큰 차이점은 두 모델의 각 생성자가 생성한 영상의 진위 여부를 판단하는 수치를 출력하는 식별자의 개수이다.

OGCSBN_2018_v34n6_3_1415_f0004.png 이미지

Fig. 4. The configuration of MS Cycle GAN

GMAN(Generative Multi-AdversarialNetworks)(Durugkar et al., 2016)은 식별자의 개수를 증가하면서 MNIST 데이터셋(LeCun et al., 2010)을 학습시켜 생성 영상을 시각적으로 비교함으로써 다중 식별자가 식별자의 개수가 증가할수록 GAN의 생성 결과가 좋아지는 것을 보여주었다. 5개의 식별자가 적용된 GAN은 하나의 식별자로 구성된 GAN보다 동일한 에폭에서 생성하는 영상이 사람의 실제 필기체에 더 가까운 영상을 생성하였다(Durugkar et al., 2016).

식별자가 여러 개일 뿐만 아니라 크기 또한 다르게 적용한 연구사례도 존재한다(Wang et al., 2017). 학습 과정에서 입력 영상과 해당 영상의 라벨을 추가적으로 제공하는 Conditional GAN(Mirza et al., 2014; Isola et al., 2017)에 크기가 다른 다중 식별자를 적용하여 도메인 변환을 위한 학습을 진행하였다. 다중 크기의 식별자는 다양한 크기로 생성자가 생성한 영상을 동시에 판별한다. 다양한 크기의 식별자를 도입하였을 때, 식별자의 크기가 클수록 해당 식별자는 생성된 영상의 전반적인 부분을 관찰하고, 크기가 작을수록 세세한 부분을 관찰하여 생성자의 고해상도 영상 생성을 유도할 것으로 기대할 수 있다(Wang et al., 2017).

Cycle GAN의 식별자는 두 도메인의 영상을 식별하기 위한 전체 2개의 식별자가 존재했다 각 식별자는 입력되는 생성 영상에 대하여 하나의 값만 출력한다. 하지만 MS Cycle GAN은 두 도메인의 영상의 식별하기 위해 전체 6개의 식별자로 구성되어 있다. 하나의 도메인에 해당하는 영상을 3개의 식별자가 판별하기 때문에 3개의 값이 출력되며, n개의 출력 값을 취합하여 평균한 값을 최종적으로 출력한다. MS Cycle GAN의 목적함수는 수식(7)~(11)과 같다. MS Cycle GAN과 마찬가지로 LSGAN(Xudong et al., 2017)의 목적 함수를 이용하였다.

\(F^{*}, G^{*}=\arg \min {_G} \min {_D} \mathrm{~L}_{\text {total }}\)       (7)

\(\begin{aligned} \mathrm{L}_{\text {total }}=& \mathrm{L}_{L S G A N}\left(G, D_{Y}, X, Y\right) \mathrm{L}_{\text {total }}+\\ & \mathrm{L}_{L S G A N}\left(F, D_{X}, Y, X\right)+\lambda \mathrm{L}_{c y c}(F, G) \end{aligned}\)       (8)

\(\begin{aligned} \mathrm{L}_{L S G A N}\left(G, D_{X}, Y, X\right)=\frac{1}{n} \sum_{i=1}^{n}(&\left(E_{x-p_{\text {datat } x}}\left[\left(D_{X}^{(i)}-1\right)^{2}\right]+\right.\\ &\left.E_{y-p_{\text {data }(y)}}\left[\left(D_{X}^{(i)} G(y)\right)^{2}\right]\right) \end{aligned}\)      (9)

\(\begin{array}{r} \mathrm{L}_{L S G A N}\left(F, D_{Y}, X, Y\right)=\frac{1}{n} \sum_{i=1}^{n}\left(E_{y-p_{\text {datat }(y)}}\left[\left(D_{Y}^{(i)}-1\right)^{2}\right]+\right. \\ \left.E_{x-p_{\text {datat }}[}\left[\left(D_{Y}^{(i)} F(x)\right)^{2}\right]\right) \end{array}\)      (10) 

\(\begin{aligned} \mathrm{L}_{c y c}(F, G)=amp; E_{x-p_{\text {data( } x)}}\left[\left[\| G\left(F(x) \|_{1}\right]+\right.\right.\\ & E_{y-p_{\text {dataly }}(\|}\left[\| F\left(G(y) \|_{1}\right]\right] \end{aligned}\)      (11)

4. 실험 방법 및 결과

본 장에서는 unpaired 데이터셋 기반의 도메인 변환을 목적으로 개발된 Cycle GAN(Zhu et al., 2017)과본논문에서 제안한 MS Cycle GAN의 색상 구현 성능을 정량적 및 정성적으로 비교하였다. Cycle GAN과 MS Cycle GAN을 Florida 데이터셋으로 학습시킴으로써 SAR 영상에 색상을 구현하기 위한 실험을 수행하고, 그 결과를 수록하였다. 실험에 사용된 SAR 영상의 공간 해상도는 1 m이다. 광학영상은 R, G, B 세 밴드를 이용하여 생성되었으며, 공간 해상도는 약 15 cm이다(Google, 2018). 두 모델의 SAR 영상에서 광학 영상으로 도메인 변환 실험을 수행하기 위하여 Florida 데이터셋을 구축하였다.

1) Florida 데이터셋

일반적으로 동일한 지역을 촬영한 광학 영상과 SAR 위성 영상은 해상도가 다르며 영상에 포함된 대상 물체는 시간에 따른 자연적인 변화 및 공사 등에 의한 인위적인 변화로 인해 동일한 모습을 유지하지 않기 때문에 같은 지역이더라도 촬영되는 영상이 다를 수 있다. 따라서 MS Cycle GAN과 Cycle GAN을 학습시키기 위한 데이터는 unpaired 데이터셋으로 구축하였으며 Florida 데이터셋으로 명하였다.

Florida 데이터셋은 SAR 영상과 광학 영상 두 도메인의 집합으로 구성되어 있다. Florida 데이터셋의 구성은 Fig. 5와 같다. Florida 데이터셋에서 SAR 영상은 한국항공우주연구원에서 운영하고 있는 다목적10월 동안 HR모드로 미국의 Florida 주 도심 지역을 촬영한 영상을 이용하여 구축하였다. 광학 영상은 Google Earth Pro프로그램에서 Florida 주 내의 임의의 지역을 캡쳐하였다. 획득한 SAR 영상의 개수가 두 모델을 학습시키기에 불충분하였기 때문에, 다목적실용위성 5호가 촬영한 영상을 256×256의 크기로 무작위로 추출하여 전체적인 영상의 개수를 늘렸다. Fig. 5에 포함된 영상은 실제로 Florida 데이터셋에 구성되어 있는 그림이며, SAR 영상과 광학 영상의 촬영 지역은 모두 Florida 주 도심 지역이지만 겹치지 않는 촬영 지역이 겹치지 않는 곳이 다수 존재한다.

OGCSBN_2018_v34n6_3_1415_f0006.png 이미지

Fig. 5. Composition of Florida dataset.

2) 실험 방법

Cycle GAN과 MS Cycle GAN은 Python 언어를 반으로 Pytorch(Facebook, 2017) 딥러닝 라이브러리를 활용하여 구현하였다 본 연구를 수행한 환경은 Table 2와 같다. GAN은 실제 데이터의 확률 밀도 분포를 알수없을 때도 데이터 생성 분포를 추정할 수 있지만, 객관적인 성능 평가를 위한 대안이 없다는 제한점이 존재한다(Goodfellow et al., 2014; Goodfellow, 2016). 따라서 다수의 실험을 통해 하이퍼파라미터의 값을 생성자가 최적의 영상을 생성하는 값을 시각적으로 판단하여 선택하였다. MS Cycle GAN의 학습 과정은 Cycle GAN과 동일하다.

Table 2. Simulation Environment

OGCSBN_2018_v34n6_3_1415_t0002.png 이미지

Cycle GAN과 MS Cycle GAN이 공통적으로 사용한 하이퍼파라미터 값은 다음과 같다. Adam optimizer(Kingma et al., 2014)를 사용하였고, 관련 하이퍼파라미터는 학습률 0.0002, beta 1은 0.5, beta 2는 0.999를 선택하였다. 또한, 생성자에 적용한 residual block의 개수는 6개, 전체 학습 에폭은 200, 학습률이 반감하는 에폭의 주기(decay epoch)는 90을 선택하였으며 이러한 값은 Cycle GAN의 저자가 제시한 값과 동일하다. 반면, 학습 과정에서 수식 (8)의 첫 항과 둘째 항인 생성자 손실과 식별자 손실을 더한 adversarial 손실과 마지막 항의 cycleconsistency 손실의 반영 비중을 결정하는 λ는 색상 구현을 위한 Cycle GAN은 3에서 최적의 생성 영상을 보였으며, MS Cycle GAN은 0.0003일 때 모드의 진동 없이 안정적으로 학습이 진행되었다. λ의 값이 클수록 입력 영상 내의 대상 물체의 형태를 유지하려는 성향을 보인다(Zhu et al., 2017).

3) 실험 결과

본 논문에 수록한 실험 결과는 크게 정량적인 분석과정성적인 결과로 나누어진다. Cycle GAN과 MS Cycle GAN이 Florida 데이터셋의 학습 과정에서 출력하는 adversarial 손실과 cycle-consistency 손실을 분석하여 그 수치를 정성적으로 비교하였다. 정성적 분석에서 그치지 않고 Cycle GAN과 MS Cycle GAN이 Florida데 데이터셋을 학습한 후 동일하게 입력된 시험 데이터의 SAR 영상에서 광학 영상으로 도메인 변환을 수행하여 색상을 구현한 영상을 정량적으로 비교하였다. 또한, MS Cycle GAN과 Cycle GAN의 학습의 안정성을 비교하기 위하여 50 에폭마다 학습된 생성자가 생성하는 영상을 비교 및 수록하였다. Fig. 6(a)~(b)는 Cycle GAN과 MS Cycle GAN의 학습 과정에서 두 모델이 목적 함수를 통해 출력한 adversarial 손실과 cycle-consistency 손실의 변화를 나타낸다. Fig. 6에서 F 도메인 X에서 도메인 Y로 변환을 수행하는 생성자G는 도메인 Y에서 X로 변환을 수행하는 생성자이며, DX와 Dy는 각각 생성된 영상 \(\hat{x}, \hat{y}\)에 대한 두 식별자의 식별값이다. cycle_X는 입력 영상과 재생성 영상 x′ 사이의 L1 손실을 의미하며, cycle_Y는 입력 영상 y와 y′ 사이의 L1 손실을 의미한다. Fig. 6(a)에서 Cycle GAN의 생성자 손실은 학습이 진행되면서 증가하는 양상을 보이며 특정한 값에 수렴하지 않았으며 수식 (2)에서 설계하였던 LSGAN의 목적 함수에 부합하게 학습되지 않았음을 확인할 수 있다. Fig. 6(b)에서는 MS Cycle GAN의 생성자 및 식별자 손실은 수식 (7)에서 설계한 것처럼 0.0001 이하의 값으로 수렴하는 것을 확인하였다. cycle_X는 Cycle GAN과 MS Cycle GAN이 비슷한 약 0.4로 수렴하며 비슷한 값을 출력하였다. 하지만 cycle_Y는 Cycle GAN의 경우 약 0.41이었으며, MS Cycle은 0.38이었다. 두 모델의 adversarial 손실에 따른 학습 안정성을 비교하기 위해 Fig. 7에서 50 에폭마다 두 모델의 생성자가 생성하는 영상을 비교하였다. Fig. 7(a)에서 영상 x에 존재하지 않던 강이 생성되었다가 없어지는 등 모드 붕괴 현상이 발생함을 확인하였다. 하지만 Fig. 7(b)의 MS Cycle GAN의 생성 영상 ?는 학습 과정 동안 안정적으로 변환이 수행되었으며, 입력 영상의 강, 나무, 토지 등이 영역 특성에 적절하게 색상이 구현되었다. 따라서 다양한 크기의 식별자는 Cycle GAN의 학습 불안정성을 해소하는데 효과가 있음을 확인하였다. 학습에 사용되지 않은 시험 데이터를 두 모델이 변환한 결과는 Fig. 8(a)~(c)에서 비교하였다. Fig. 8에서 (a)열은 4개의 입력 영상이다. (b)열은 Cycle GAN이 (a)열의 SAR 영상을 광학 영상의 도메인으로 변환한 결과이며, (c)열은 MS Cycle GAN이 (a)열의 SAR 영상을 광학 영상으로 변환한 결과이다. 4개의 SAR 영상의 변환 결과를 비교해보면 (b)열은 광학 영상으로는 보이지만, 입력 영상과 무관한 부분이 발생한 것을 알 수 있다. 이는 Cycle GAN의 모드 붕괴로 인한 학습 불안정으로 인해 생성된 결과이며, Fig. 7에서도 확인할 수 있었다. (C)열은 (a)열의 입력 영상에 적절하게 색상이 구현된 것을 확인할 수 있다. 다양한 크기의 식별자의 적용함으로써 학습 안정성은 증가하였지만, 생성 영상의 해상도가 증가하는 것은 관찰할 수 없었다.

OGCSBN_2018_v34n6_3_1415_f0007.png 이미지

Fig. 6. Training results of two models.

OGCSBN_2018_v34n6_3_1415_f0008.png 이미지

Fig. 7. Comparison of training stability.

OGCSBN_2018_v34n6_3_1415_f0009.png 이미지

Fig. 8. Generatedoptical image by two models using test dataset.

5. 결론

1978년 6월 SEASAT이 발사되고 약 3달의 짧은 운영 기간에도 불구하고, SAR 위성의 임무 운영 가능성을 증명한 이후 한국항공우주연구원의 다목적실용위성 5호를 포함하여 다양한 목적을 가진 SAR를 탑재한 위성이 발사되었다. 태양으로부터 방사된 전자파 에너지를 이용하는 수동형 센서와는 달리, SAR는 대기 중 입자의 크기에 비해 파장이 긴 마이크로파를 사용하기 때문에 SAR를 탑재한 위성은 구름이나 안개 등을 투과할 수 있고, 주야간 구분 없이 고해상도의 위성 영상을 얻을 수 있다. 따라서 SAR 영상은 해양, 군사, 지리학 등 다양한 분야에서 활용되고 있다. 하지만, SAR 데이터는 대상체의 색상에 관한 정보를 포함하지 않는다. SAR 영상의 이러한 제한점을 극복하기 위해 GAN을 기반으로 한 딥러닝 모델을 이용하여 SAR 영상의 색상을 구현하는 실험을 수행하고 그 결과를 수록하였다.

기존의 생성형 모델은 실제 데이터 확률 밀도를 알 수 없어 최대우도 추정에서 제한된 성능을 보였지만, GAN은 미니맥스 게임 방식의 목적함수를 도입하여 최적화함으로써, 기존 생성형 모델의 한계를 극복하였다. Cycle GAN은 이러한 GAN을 활용하여 unpaired 데이터셋을 학습하여 무감독학습 기반으로 도메인 변환을 수행하기 위하여 개발되었다. Cycle GAN은 두 도메인의 영상 집합만 무작위로 구축하면 모델을 학습시킬 수 있다. 하지만, Cycle GAN은 unpaired 데이터셋 기반의무감독 학습으로 인해 학습 과정이 불안정하며, 동일지역을 촬영한 영상이라도 시간에 따른 변화 혹은 인위적인 변화에 의해 영상 속의 대상은 변화가 발생할 수 있고 일반적으로 SAR 영상과 광학 영상의 해상도는 다르다. 따라서 기존의 Cycle GAN이 SAR 영상에서 광학 영상으로 도메인 변환은 적절한 결과를 생성하지 못하였다.

이러한 Cycle GAN의 한계점을 극복하기 위한 대안으로 다양한 크기의 식별자를 적용하였다. 다양한 크기의 식별자는 기존 연구에서 GAN의 학습 불안정성과 생성 영상의 해상도 향상에 효과가 있음이 증명되었으며, 본 논문에서는 다중 크기의 식별자 적용한 Cycle GAN을 MS Cycle GAN을 제안하였다.

Cycle GAN과 MS Cycle GAN의 SAR 영상 색상 구현성능을 비교하기 위한 실험을 수행하였고, 학습된 두 모델이 생성하는 영상을 정성적 및 정량적으로 비교하였다. 두 모델의 학습에는 Florida 데이터셋을 이용하였다. Florida 데이터셋은 다목적실용위성 5호가 촬영한 Florida 주 도심 지역의 SAR 위성 영상과 Google Earth Pro 프로그램에서 캡쳐한 광학 영상을 두 도메인으로 하여 구축하였다.

실험을 수행한 결과, MS Cycle GAN은 기존의 Cycle GAN과 비교하여 학습 불안정성이 개선되다. Cycle GAN의 adversaria 손실은 수렴하지 않았지만, MS Cycle GAN의 adversarial 손실은 대폭 감소되어 0.0001이하로 수렴하였으며, MS Cycle GAN이 변환한 영상에서는 입력 영상의 특성에 맞는 색상이 구현되었다.

MS Cycle GAN은 Cycle GAN의 학습 불안정성을 해소함으로써 색상 구현 성능을 향상할 수 있었지만, 생성되는 영상의 해상도가 향상되는 것은 확인할 수 없었다. 또한, SAR 위성 영상이 입력되어 변환된 광학 영상과 실제 광학 영상이 일치하는 정도를 객관적으로 제시할 수 있는 지표를 도입하여 결과를 분석하는 과정이 추가적으로 수행되어야 할 것이다.

References

  1. Argenti, F., A. Lapini, T. Bianchi, and L. Alparone, 2013. A tutorial on speckle reduction in synthetic aperture radar images, IEEE Geoscience and remote sensing magazine, 1(3): 6-35. https://doi.org/10.1109/MGRS.2013.2277512
  2. Deng, Q., Y. Chen, W. Zhang, and J. Yang, 2008. Colorization for Polarimetric SAR image based on scattering mechanisms, Proc. of 2008 Congress on Image and Signal Processing, Las Vegas, NV, Mar. 30-Apr. 4, vol. 1, pp. 697-701.
  3. Durugkar, I., I. Gemp and S. Mahadevan, 2016. Generative multi-adversarial networks, arXiv preprint arXiv:1611.01673.
  4. Goodfellow, I., J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farely, S. Ozaire, A. Courvile, and Y. Bengio, 2014. Generative Adversarial Nets, Proc. of 2014 Advances in Neural Information Processing Systems, Montreal, Quebec, Dec. 8-13, vol. 1, pp. 2672-2680.
  5. Goodfellow, I., 2016. NIPS 2016 tutorial: Generative adversarial networks, arXiv preprint arXiv: 1701.00160.
  6. Google, 2018. https://lp.google-mkto.com/Google-imagery.html, Accessed on Dec. 12, 2018.
  7. He, K., X. Zhang, S. Ren, and J. Sun, 2016. Deep residual learning for image recognition, Proc. of 2016 International Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, Jun. 26-Jul. 1, vol. 1, pp. 770-778.
  8. Kala, Z., K. Mikolajczyk, and J. Matas, 2010. Forwardbackward error: Automatic detection of tracking failures, Proc. of 2010 International Conference on Pattern Recognition, Istanbul, Turkey, Aug. 23-Aug. 26, vol. 1, pp. 2756-2759.
  9. LeCun, Y., 1998. The MNIST database of handwritten digits, http://yann.lecun.com/exdb/mnist/, Accessed on Nov. 29, 2018.
  10. Mirza, M. and O. Simon, 2014. Conditional generative adversarial nets, arXiv preprint arXiv:1411.1784.
  11. NASA, 2013. https://eospso.nasa.gov/missions/seasat-1, Accessed on Oct. 30, 2018.
  12. Xudong, M., H. Xie, R. Lau, Z. Wang, and S. P. Smolley, 2017. Proc. of 2017 International Conference on Computer Vision and Pattern Recognition, Honolulu, HI, Jul. 22-Jul. 25, vol. 1, pp. 2812-2821.
  13. Isola, P., J. Zhu, T. Zhou, and A. A. Efros, 2017. Imageto-Image Translation with Conditional Adversarial Networks, Proc. of 2017 International Conference on Computer Vision and Pattern Recognition, Honolulu, HI, Jul. 22-Jul. 25, vol. 1, pp. 5967-5976.
  14. Radford, A., L. Metz, and S. Chintala, 2015. Unsupervised representation learning with deep convolutional generative adversarial networks, arXiv preprint arXiv:1511.06434.
  15. Song, Q., F. Xu, and Y. Jin, 2018. Radar Image Colorization: Converting Single-Polarization to Fully Polarimetric Using Deep Neural Networks, IEEE Access, 6: 1647-1661. https://doi.org/10.1109/ACCESS.2017.2779875
  16. Space-Track, 2013. https://www.space-track.org/#catalog, Accessed on Nov. 29, 2018.
  17. Sundaram, N., T. Brox, and K. Keutzer, 2010. Dense point trajectories by GPU-accelerated large displacement optical flow, Proc. of 2010 European conference on Computer Vision, Heraklion, Greece, Sep. 5-Sep. 11, vol. 1, pp. 438-451.
  18. Wang, T. C., M. Y. Liu, J. Y. Zhu, A. Tao, J. Kautz, and B. Cantanzaro, 2017. High-resolution image synthesis and semantic manipulation with conditional gans, arXiv preprint arXiv: 1711.11585.
  19. Zhu, J. Y., T. Park, P. Isola, and A. A. Efros, 2017. Unpaired Image-to- Image Translation using Cycle-Consistent Adversarial Networks, Proc. of 2017 International Conference on Computer Vision, Venice, Italy, Oct. 22-Oct. 29, vol. 1, pp. 2242-2251.