Semantic Segmentation of Drone Imagery Using Deep Learning for Seagrass Habitat Monitoring

Jeon, Eui-Ik;Kim, Seong-Hak;Kim, Byoung-Sub;Park, Kyung-Hyun;Choi, Ock-In;

doi:10.7780/kjrs.2020.36.2.1.8

Korean Journal of Remote Sensing (대한원격탐사학회지)

Volume 36 Issue 2_1
/
Pages.199-215
/
2020
/
1225-6161(pISSN)
/
2287-9307(eISSN)

Korean Society of Remote Sensing (대한원격탐사학회)

DOI QR Code

Semantic Segmentation of Drone Imagery Using Deep Learning for Seagrass Habitat Monitoring

잘피 서식지 모니터링을 위한 딥러닝 기반의 드론 영상 의미론적 분할

Jeon, Eui-Ik (Senior Researcher, R&D Center, Geostory Inc.) ;
Kim, Seong-Hak (Principal Researcher, R&D Center, Geostory Inc.) ;
Kim, Byoung-Sub (Principal Researcher, Korea Fisheries Resources Agency) ;
Park, Kyung-Hyun (Chief Researcher, Korea Fisheries Resources Agency) ;
Choi, Ock-In (Chief Researcher, Korea Fisheries Resources Agency)

전의익 ((주)지오스토리 기술연구소 선임연구원) ;
김성학 ((주)지오스토리 기술연구소 책임연구원) ;
김병섭 (한국수산자원공단 책임연구원) ;
박경현 (한국수산자원공단 수석연구원) ;
최옥인 (한국수산자원공단 수석연구원)

Received : 2020.03.23
Accepted : 2020.04.14
Published : 2020.04.30

https://doi.org/10.7780/kjrs.2020.36.2.1.8 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

A seagrass that is marine vascular plants plays an important role in the marine ecosystem, so periodic monitoring ofseagrass habitatsis being performed. Recently, the use of dronesthat can easily acquire very high-resolution imagery is increasing to efficiently monitor seagrass habitats. And deep learning based on a convolutional neural network has shown excellent performance in semantic segmentation. So, studies applied to deep learning models have been actively conducted in remote sensing. However, the segmentation accuracy was different due to the hyperparameter, various deep learning models and imagery. And the normalization of the image and the tile and batch size are also not standardized. So,seagrass habitats were segmented from drone-borne imagery using a deep learning that shows excellent performance in this study. And it compared and analyzed the results focused on normalization and tile size. For comparison of the results according to the normalization, tile and batch size, a grayscale image and grayscale imagery converted to Z-score and Min-Max normalization methods were used. And the tile size isincreased at a specific interval while the batch size is allowed the memory size to be used as much as possible. As a result, IoU was 0.26 ~ 0.4 higher than that of Z-score normalized imagery than other imagery. Also, it wasfound that the difference to 0.09 depending on the tile and batch size. The results were different according to the normalization, tile and batch. Therefore, this experiment found that these factors should have a suitable decision process.

잘피는 연안해역에 서식하는 해양수생관속식물로 해양생태계의 중요한 역할을 하고 있어, 주기적인 잘피 서식지의 모니터링이 이루어지고 있다. 최근 효율적인 잘피 서식지의 모니터링을 위해 고해상도의 영상 획득이 가능한 드론의 활용도가 높아지고 있다. 그리고 의미론적 분할에 있어 합성곱 신경망 기반의 딥러닝이 뛰어난 성능을 보임에 따라, 원격탐사 분야에 이를 적용한 연구가 활발하게 이루어지고 있다. 그러나 다양한 딥러닝 모델, 영상, 그리고 하이퍼파라미터에 의해 의미론적 분할의 정확도가 다르게 나타나고, 영상의 정규화와 타일과 배치 크기에서도 정형화되어 있지 않은 상태이다. 이에 따라 본 연구에서는 우수한 성능을 보여주는 딥러닝 모델을 이용하여 드론의 광학 영상에서 잘피 서식지를 분할하였다. 그리고 학습 자료의 정규화 및 타일의 크기를 중점으로 결과를 비교 및 분석하였다. 먼저 정규화와 타일, 배치 크기에 따른 결과 비교를 위해 흑백 영상을 만들고 흑백 영상을 Z-score 정규화 및 Min-Max 정규화 방법으로 변환한 영상을 사용하였다. 그리고 타일 크기를 특정 간격으로 증가시키면서 배치 크기는 메모리 크기를 최대한 사용할 수 있도록 하였다. 그 결과, Z-score 정규화가 적용된 영상이 다른 영상보다 IoU가 0.26 ~ 0.4 정도 높게 나타났다. 또한, 타일과 배치 크기에 따라 최대 0.09까지 차이가 나타나는 것을 확인하였다. 딥러닝을 이용한 의미론적 분할에 있어 정규화, 타일의 배치 크기의 변화에 따른 결과가 다르게 나타났다. 그러므로 실험을 통해 이들 요소에 대한 적합한 결정 과정이 있어야 함을 알 수 있었다.

Keywords

1. 서론

잘피(Seagrass)는 연안해역에 서식하는 해양수생관속 식물로 극지방을 제외한 전세계 연안에 약 60여 종이 분포하고 있다(Park et al., 2012). 우리나라에는 9종의 잘피가 서식하고 있으며, 그 중 거머리말(Zostera marina)이 동해, 서해, 남해에 걸쳐 가장 널리 서식하는 종으로 국내에 서식하는 잘피의 대부분을 차지하고 있다(Lee and Lee, 2003; Kim et al., 2009). 잘피는 다양한 해양생물의 산란 및 서식지를 제공하고 지구온난화의 주요 요인인 이산화탄소를 흡수한다. 또한, 광합성 작용을 통해 해양생물의 호흡에 필요한 산소를 생산하여 공급한다는 점에서 매우 중요한 생태적 기능을 하는 생물이다(Thomas and Cornelisen, 2003). 그러나 1970년대 이후 산업화에 따른 무분별한 개발과 환경오염으로 인해 잘피의 개체 수가 현저하게 감소함에 따라 2007년에 해양수산부에서 보호대상 해양생물로 지정하여 한국수산자원공단에 의해 관리되고 있다(Lee and Lee, 2003; Park et al., 2012).

대표적인 잘피 서식지의 조사 방법은 스쿠버의 다이빙에 의한 잠수조사와 위성, 항공영상을 활용하는 원격탐사가 있다. 우선 잠수조사는 잠수사가 촬영한 영상과 채취된 잘피를 분석하여 서식 형태, 밀도 및 생물량을 정밀하게 분석할 수 있는 기법이다. 그러나, 공간적으로 연속적이지 못하며 넓은 지역일 경우에는 많은 시간과 노동력이 필요하다는 단점이 있다(Kim, 2010; Park et al., 2012). 위성과 항공영상 기반의 원격탐사는 넓은 지역에 서식하는 잘피의 분포 현황을 파악할 수 있다는 장점이 있으나, 영상획득 시에 잘피가 수면에 드러나는 조간대와 같은 특정 시간대와 날씨에 큰 영향을 받는다는 단점이 있다. 또한, 획득된 영상의 낮은 공간해상도에 의해 잘피와 다른 해조류를 명확히 구분하기 어렵다는 한계가 있다. 그래서 최근에는 상대적으로 기상 상황에 덜 민감하고 높은 공간해상도의 영상을 손쉽게 획득할 수 있는 드론의 활용도가 높아지고 있다(Duffy et al., 2017).

최근 영상 인식 분야에서 합성곱 신경망(Convolutional neural network) 기반의 딥러닝이 기존의 영상 인식 알고리즘보다 높은 정확도를 보임에 따라 다양한 관련 연구들이 소개되고 있다. 이에 따라 원격탐사 분야에서 딥러닝 모델들을 적용하여 광학, 다중분광, 초분광, SAR 등의 다양한 영상에서 도로, 건물, 산림과 같은 특정 객체들의 의미론적 분할을 위한 다양한 연구들을 수행하고 있다(Guo et al., 2018; Zhang et al., 2018; Varia et al., 2019; Park et al., 2018; Rakhlin et al., 2018). 대부분의 선행연구들에서 딥러닝의 모델, 영상의 종류, 분류하고자 하는 객체, 영상의 정규화, 하이퍼파라미터 등에 따라 같은 딥러닝 모델이라고 하더라도 분류 정확도가 다르게 나타났다. 특히, 영상의 정규화에서 정규화를 하지 않은 원본 영상 또는 Z-score, Min-Max 등의 정규화가 적용된 영상을 사용하였다. 그리고 원격탐사 영상의 큰 용량으로 인해 일정 크기의 타일(Tile)로 분할함에 있어 타일의 크기가 의미론적 분할의 결과에 미치는 영향에 대한 분석 없이 임의로 크기로 사용하였다.

따라서 본 연구에서는 드론 영상에서 잘피 서식지를 화소 단위로 분류하는 방법인 의미론적 분할을 수행하기 위해 합성곱 신경망 기반의 딥러닝 모델을 이용하였다. 그리고 딥러닝을 이용한 의미론적 분할에서 영상의 정규화와 타일 및 배치(Batch)의 크기가 미치는 영향을 분석하였다. 이를 위해 영상의 정규화에서는 광학 영상을 흑백으로 변환한 영상과 흑백 영상에 Z-score 정규화를 적용한 영상, Min-Max 정규화를 적용한 영상으로 총 3개의 종류의 영상을 사용하였다. 그리고 타일과 배치 크기에 따른 결과를 비교하기 위해 타일을 128화소의 일정 크기로 증가시키고, 그때 배치는 메모리가 지원하는 최대의 크기로 하였다.

2. 배경

1) 의미론적 분할

영상인식(Image recognition)은 영상처리의 세부 분야 중 하나로 주로 분류(Classification), 탐지(Detection), 그리고 분할(Segmentation)에 대해 다룬다. 분류는 입력영상 내의 객체의 종류를 구분하는 것이고, 탐지는 영상에서 객체 구분과 위치 정보를 제공하는 것을 의미한다. 분할은 영상 내 모든 화소의 클래스를 정해주는 것을 의미한다. 분할은 다시 같은 클래스의 객체를 서로 다른 개체로 분류하는 개체분할(Instance segmentation)과 개체를 구분하지 않는 의미론적 분할(Semantic segmentation)로 구분된다. 기존 영상인식에서는 입력영상이 다양하고 복잡하다는 점과 영상인식 알고리즘이 매우 복잡한 연산과정을 필요로 한다는 점, 많은 양의 데이터를 처리하기 위한 메모리가 요구된다는 점에 있어 구현이 어려웠다. 최근 들어 GPU와 같은 하드웨어의 발전과 기계학습 중 합성곱 신경망기반의 딥러닝이 도입되어 영상인식 분야에서 뛰어난 성능을 보여주어 원격탐사 분야에서도 많은 연구가 수행되고 있다(Fu et al., 2017).

합성곱 신경망의 일반적인 기본 구조는 입력에서 출력 쪽을 향해 합성곱층(Convolution layer)과 풀링층(Pooling layer)이 반복적으로 연결되며 마지막으로 인접한 층 사이의 유닛을 완전 연결하는 전결합층(Fullyconnected layer)을 배치하는 것으로 이루어진다(Okatani and Saito, 2018). 합성곱 신경망의 기본구조를 바탕으로 개발된 LeNet(Lecun et al., 1998), AlexNet(Krizhevsky et al., 2012) 등의 영상 분류를 위한 모델들은 전결합층에 의해 파라미터의 개수와 차원이 줄어들어 객체의 자세한 위치정보가 소실되어 분할에는 적용하기 어려웠으며 입력 영상의 크기가 고정적이라는 한계가 있었다. 이를 해결하기 위해 Long(2015)는 FCN(Fully convolutional network) 기법을 제안하였는데, FCN 기법은 기존의 모델의 마지막 층을 전결합층 대신 1×1 크기의 합성곱층으로 변경하여 입력 영상의 크기 제한을 없앴다. 그리고 화소의 위치정보를 보존하는 히트맵(Heatmap)을 생성하고 이를 전치 합성곱(Transposed convolution)으로 입력 영상과 같은 크기를 가지는 영상을 생성함에 따라 모든 화소에 대한 클래스가 분류된 영상을 생성할 수 있도록 하였다.

그러나 FCN 기법은 고정 크기의 특정 수용영역(Receptive field)를 사용함에 따라 분류 결과에서 객체의 크기가 특정 수용영역보다 클 때는 분류 결과가 파편화되고 작을 때는 분류가 잘 안되는 단점을 가지고 있다. 또한, 네트워크의 마지막 이전 층에서 특징 맵을 이용하여 업샘플링을 하더라도 해상도 복원의 문제로 인해 객체의 경계가 흐려지거나 묘사력이 떨어지는 한계가 있다. 이를 개선하기 위한 U-Net(Ronneberger et al., 2015), DeepLab(Chen et al., 2016), Enet(Paszke et al., 2016), PSPNet(Zhao et al., 2017), SegNet(Badrinarayanan et al., 2017) 등의 다양한 모델들이 개발되었다. 그 중에서 U-Net은 ISBI 2015에서 바이오영상 분할 대회에서 우승을 차지한 모델로, ISBI 2014와 ISBI 2015의 학습 자료에 따라 IoU(Intersection over Union) 기준으로 92%, 77.5%의 정확도로 다른 모델과 비교하여 광학 현미경 영상에서 불규칙한 크기와 형태를 가지는 헬라(HeLa) 세포의 경계를 가장 높은 정확도로 검출하였다(Li et al., 2018).

U-Net 모델 구조는 Fig. 1과 같이 총 23개의 합성곱층으로 구성되며 영상 특징을 추출하는 부호화(Encoder) 부분인 압축경로(Contracting path)와 추출된 영상 특징을 원래의 입력으로 재현하는 것을 의미하는 복호화(Decoder) 부분인 확장경로(Expanding path)로 구분된다(Okatani and Saito, 2015). 압축경로는 합성곱과 풀링으로 입력 영상의 특징을 추출하면서 차원을 축소하는 과정으로 입력 영상의 가로, 세로 크기가 2칸씩 줄어드는 두 번의 3×3 합성곱으로 스트라이드(Stride)가 2인 2×2 최대값 풀링(Max polling)을 4번 반복하며, 각 다운샘플링 단계에서 특징 채널이 두 배로 증가하도록 하였다. 확장경로는 위치 정보에 대해 손실 없이 영상을 업샘플링하는 과정으로, 압축경로에서 생성된 특징 맵을 업샘플링한 영상과 접합(Concatenation)하여 지역화(localization)를 정교하게 하는 과정을 의미한다. 모델의 학습에서는 GPU 메모리를 최대한 이용하면서 과부하를 최소화하기 위해 배치 크기보단 타일 크기를 크게 하는 방향으로 하였다. 그에 따른 단점을 보완하기 위해 현재의 최적화 단계에서 이전의 학습 샘플 결과를 이용할 수 있도록 운동량(Momentum)을 0.99로 하였다. 여기서 세포들 간의 구분을 위한 개체 분할이어서 에너지 함수는 식 (1)과 같이 화소 단위의 크로스 엔트로피(Crossentropy) 손실 함수와 최종 특징 맵, 화소별(Pixel-wise) 소프트맥스인 식 (2)를 결합하여 계산하였다. 그리고 세포들끼리의 구분을 위해 형태(Morphological) 연산인 식(3)을 이용하여 계산된 경계선과 경계선에 대한 가중치맵을 사용하였다. 가중치는 특정 화소에서 세포의 경계선까지의 거리를 이용하여 결정되는 것으로, 간격이 좁을수록 가중치가 크며 간격이 넓을수록 가중치가 작아지도록 하였다(Ronneberger et al., 2015).

OGCSBN_2020_v36n2_1_199_f0001.png 이미지

Fig. 1. Original U-net architecture (Ronneberger et al., 2015).

본 연구의 대상인 잘피 서식지의 형태는 불규칙하며 획득되는영상마다잘피의색상이다르게나타나일반화하기 어려운 점이 세포의 특성과 유사하다고 판단되어, U-Net 모델을 적용하여 잘피 서식지와 그 이외의 지역으로 구분하는 의미론적 분할을 시도하였다. 다만, 잘피 서식지끼리의 분류는 하지 않는 의미론적 분할이므로 별도의 형태 연산을 이용하여 경계선에 대한 가중치 맵은 생성하지 않았다.

E = ∑_(x∈Ω)ω(x) · log(p_l(x)(x)) (1)

\(p_{k}(x)=\frac{\exp \left(a_{k}(x)\right)}{\sum_{k^{\prime}=1}^{K} \exp \left(a_{k^{\prime}}(x)\right)}\) (2)

\(\omega(x)=\omega_{c}(x)+\omega_{0}\left(-\frac{d_{1}(x)+d_{2}(x)^{2}}{2 \sigma^{2}}\right)\) (3)

where, l: Ω → {1, …, K} is the true label of each pixel, ω: Ω → R is a weight map, a_k (x) denotes the activation in feature channel k at the pixel position x∈Ω with Ω⊂Z². K is the number of classes and p_k(x) is the approximated maximum-function, ω_c: Ω →R is the weight map to balance the class frequencies, d₁: Ω → R denotes the distance to the border of the nearest cell and d₂: Ω → R the distance to the border of the second nearest cell.

2) 관련 연구

의학분야에서U-Net 모델이 우수한 성능을 보임에 따라 원격탐사 분야에서 기본 모델을 사용하거나, 기본 모델을 개선한 새로운 모델을 개발하여 다양한 객체에 대한 의미론적 분할을 수행한 연구들이 이루어지고 있다.

Li et al.(2018)은 기존의 U-Net의 구조에서 압축경로와 확장경로를 각각 2단계씩 추가한 DeepUNet 모델로 개선하였으며, 광학 위성영상에서 항만 지역을 대상으로 의미론적 분할을 시도하고 U-Net, SegNet, SeNet 모델들의 결과와 비교하였다. 이때 위성영상을 640×640 크기의 207개 타일로 분할한 뒤, 학습과 테스트에 각각 122개, 85개를 사용하였다. 그 결과, F1 값(F1)을 기준으로 DeepUNet, U-Net, SegNet, SeNet의 정확도의 범위가 0.9539 ~ 0.9932, 0.7827 ~ 0.9730, 0.8757 ~ 0.9553, 0.7719 ~ 0.9959로 나타났다. 개발한 DeepUNet의 정확도가 평균적으로 가장 높게 나타났으며, 이러한 이유는 기존의 U-Net 구조에 추가한 압축경로와 확장경로 때문으로 판단하였다. 그러나 테스트 자료에 따라 U-Net 모델의 정확도가 0.9730로 높게 나타나기도 하였다. Yi et al.(2019)도 Li와 마찬가지로 U-Net 모델의 구조를 변경하여 정확도를 높이고자 하였는데, 이 모델은 기존의 U-Net 훈련 속도를 빠르게 하기 위해 각각의 합성곱층 뒤에 배치 정규화를 수행하였으며 마지막에 위치한 완전연결 층을 사용하지 않았다. 개발한 모델의 성능을 검증하기 위해 FCN-8s, SegNet, DeconvNet, ResUNet, DeepUNet, 그리고 U-Net 모델들을 사용하였다. 연구 자료와 분할하고자 하는 객체는 뉴질랜드의 도시 지역의 항공 광학 정사영상과 건물 영역으로 하였다. 이때 정사영상은 38,656×19,463 화소로 구성되어 있어 동등하게 반으로 나누어 학습 자료와 테스트 자료로 사용하였다. 그리고 정사영상을 256×256 크기의 타일로 분할하였으며, 학습에서 학습과 검증 자료의 비율은 8:2로 하였다. 테스트 자료에 학습된 모델을 적용하여 F1을 기준으로 정확도를 평가한 결과, 개발한 모델이 0.9364로 가장 높은 정확도를 나타냈다. 그러나 기본적인 U-Net의 정확도가 0.9012로 나타남에 따라, 기본적인 모델도 큰 차이 없이 비교적 높은 정확도로 화소 단위의 분류가 가능한 것을 보여줬다. Peng et al.(2018)은 고해상도의 드론 영상에서 도로 영역을 추출하기 위해서 U-Net 모델 구조를 기반으로 하여, 입력 영상의 해상도를 50%, 25% 축소한 저해상도 영상을 생성하고 원본영상과 함께 학습할 수 있는 멀티 스케일 모델을 개발하였다. 모델의 학습과 테스트에는 각각 2,000개, 500개의 영상을 사용하였으며, 멀티스케일을 사용하지 않은 모델과 테스트 결과의 IoU를 비교하였다. 그 결과, 멀티스케일을 사용한 모델의 정확도가 최소 0.01, 최대 0.20정도 높게 나타났다. 테스트 영상에 따라 편차가 나타났지만, 영상의 다양한 스케일을 이용하면 의미론적 분할의 정확도가 높아질 수 있음을 보여준 것으로 판단된다. 앞선 선행연구들은 U-Net의 구조를 변경하는 방식으로 개선을 시도하였지만, Khalel and El-Saban(2018)은 U-Net을두번 사용하는 2-level U-Nets을 이용하여 도심지역의 항공영상에서 빌딩 영역에 대한 의미론적 분할의 정확도를 높이고자 하였다. 해당 연구에서는 5000×5000 화소를 가지는 36개, 1500×1500 화소를 가지는 151개의 항공영상을 학습과 테스트에 각기 다른 지역의 영상으로 구분하여 사용하였다. IoU 값(IoU)을 기준으로 테스트 영상에 대한 의미론적 분할의 정확도는 2-level U-Nets과 기본 UNet이 각각 74.60, 73.68으로 미미하게 향상됨에 따라, 해당 연구의 학습 자료에 대해서는 2-level U-Nets 모델을 통한 분할 정확도의 증가에는 큰 의미가 없는 것으로 나타났다.

Table 1은 선행연구들에서 U-Net 모델을 이용하였을 때의 분할 정확도를 나타낸 것으로 사용한 영상의 종류, 개수와 분할하고자 하는 객체 등의 다양한 조건에 따라, 기본 U-Net 모델의 정확도가 개선된 모델과 유사한 경우도 있었다. 이에 따라 본 연구에서는 기본적인 U-Net 모델을 사용하여 의미론적 분할을 수행하고 결과를 비교 및 분석하였다.

Table 1. Summary of precedent study about semantic segmentation using U-Net

OGCSBN_2020_v36n2_1_199_t0001.png 이미지

3. 연구 자료 및 방법

1) 연구 자료

본 연구에서는 남해연안해역의 각기 다른 18곳의 잘피 서식지를 대상으로 2019년 2월 ~ 5월 사이에 드론을 이용하여 공간해상도 10 cm 이하의 광학 영상을 획득하였다. 이때 드론은 DJI사의 Phantom4 Pro와 Mavic2 Pro을 사용하였으며 주요 스펙인 센서 크기, 화소 수는 각각 13.2 mm×8.8 mm, 5472×3648개로 동일하며, 초점 거리는 8.8 mm, 10.26 mm이다. 영상 획득 시에는 영상 간의 종중복도, 횡중복도와 비행 높이는 80%, 60%, 이착륙 위치 기준으로 200 m 이하로 하였다. Fig. 2는 획득된 샘플 영상으로 가시적으로 높은 공간해상도를 가지는 것을 알 수 있으며 육안으로 잘피를 구분할 수 있는 것을 알 수 있다. 다만, 영상 획득은 잘피가 수면상으로 완전히 노출되어 영상에서 잘피의 고유 색상인 녹색이 명확하게 나타나는 시기에 이루어지는 것이 이상적이다. 그러나 잘피가 수심 15 m까지 자생하는 특성에 의해 간조 시에도 육지와 가깝지 않은 지역의 잘피는 수면에 노출되지 않을 수 있으며, 기상 상황과 조석 시각으로 인해 다양한 지역의 잘피 서식지에 대한 영상 획득은 간조 이외에도 이루어질 수밖에 없었다. 그래서 획득된 영상들에서 잘피의 노출 정도, 광량, 카메라 설정 등의 복합적인 요소에 의해 영상에서의 잘피의 색상은 녹색에서부터 남색까지 다르게 표현되었다.

OGCSBN_2020_v36n2_1_199_f0002.png 이미지

Fig. 2. Sample image acquired by drone

획득된 영상들은 Agisoft사의 Metashape 소프트웨어를 이용해 영상 지오레퍼런싱을 수행하여 영상의 위치/자세를 결정하고, 그 과정에서 계산된 지상점을 바탕으로 DSM(Digital Surface Model)과 위치 정보를 가지는 Geotiff형태의 정사영상을 생성하였다. 생성한 정사영상들에서 실측 자료(Ground truth)를 구축하기 위해, Blue Marble Geographics 사의 Global Mapper 소프트웨어를 이용하여 잘피 서식지에 대한 벡터 자료를 제작하였다. 이때 잘피 서식지의 구분은 육안과 현장 및 잠수 조사 결과를 바탕으로 하였다.

딥러닝 모델의 학습에는 15개의 정사영상과 실측자료 중에서 15개를 사용하고, 학습에 사용하지 않은 나머지 3개의 자료를 학습된 모델의 객관적인 검증할 수 있도록 테스트 자료로 사용하였다. 학습 자료와 테스트 자료에서 사용한 각각의 정사영상의 화소 수, 넓이, 잘피 서식지의 비율을 Table 2에 나타냈으며, 학습 자료 중 일부 정사영상과 실측 자료(No. 2, 5, 9)와 테스트 자료를 Fig. 3(a)와 (b)에 도식화하였다.

Table 2. Summary of training and test dataset in this study

OGCSBN_2020_v36n2_1_199_t0002.png 이미지

OGCSBN_2020_v36n2_1_199_f0003.png 이미지

Fig. 3. Example of orthoimagery and ground truth used in this study. (a) training orthoimagery and ground truths, (b) test orthoimagery and ground truths.

2) 정확도 측정 기준

의미론적 분할의 정확도 평가에는 화소 정확도(Pixel accuracy), 정밀도(Precision), 재현율(Recall), F1(Dice coefficient), 그리고 IoU을 사용하며 식 (4) ~ (8)과 같이 표현된다. 본 연구는 영상에서 잘피 서식지와 그 이외를 구분하는 이진 분류이므로 잘피 서식지를 참(Positive), 나머지를 거짓(Negative)으로 할 때 실측값과 분류결과의 관계에 따라 참양성(TP, True Positive), 거짓양성(FP, False Positive), 거짓음성(FN, False Negative), 참음성(TN, True Negative)으로 표현할 수 있으며, 각각 참을 참으로 판별, 참을 거짓으로 판별, 거짓을 참으로 판별, 거짓을 거짓으로 판별한 것을 의미한다.

화소 정확도는 분할 결과에서 참양성과 참음성의 합의 비율, 정밀도는 참으로 분류한 결과 중에서 실제 참값으로 판별한 비율, 재현율은 실제 참값에서 참값으로 판별한 비율을 의미한다. 화소 정확도는 객체들이 차지하는 화소 수의 비율이 Table 2에서처럼 객체 간의 비율, 즉 화소의 개수가 불균등하면 분할 결과의 해석에 있어 과소 또는 과대 해석의 가능성이 존재한다. 그래서 분할의 정확도 평가에서는 정밀도와 재현율뿐만 아니라 F1와 IoU를 함께 사용한다(Long et al., 2015; Khalel and El-Saban, 2018; Yi et al., 2019). F1은 정밀도와 재현율의 조화평균을 의미하며, IoU는 참음성을 제외한 나머지 결과에서 참양성의 비율로 정답의 영역이 비율을 측정하기 위해 사용된다(Liu, 2019). IoU와 F1은 유사한 의미가 있는데 IoU는 F1보다 같거나 작으며, F1의 절반보다 크거나 같은 관계를 가진다. 본 연구에서는 학습된 모델의 평가에서 화소 정확도, 정밀도, 재현율, F1, 그리고 IoU를 이용하였다.

\(\text { Pixel accuracy }=\frac{T P+T N}{T P+T N+F P+F N}\) (4)

\(\text { Precision }=\frac{T P}{T P+F P}\) (5)

\(\operatorname{Recall}=\frac{T P}{T P+F N}\) (6)

\(F 1 \text { score }=\frac{2 T P}{2 T P+F P+F N}\) (7)

\(\text { IoU score }=\frac{T P}{T P+F N+F P}\) (8)

Where TP, TN, FP, FN is true positive, true negative, false positive, false negative.

3) 영상 정규화

일반적으로 신경망에서는 학습 속도의 향상과 비용함수의 최적화를 위해 입력 자료의 각기 다른 스케일을 일정한 범위로 변환하는 정규화가 이루어진다(Sameen et al., 2018). 정규화의 대표적인 방법은 입력 자료가 정규 분포일 때 평균과 표준편차를 0과 1로 변환하는 Zscore 정규화(Normalization) 기법이 있다. Z-score 정규화는 표준화(Standardization)와 동일한 것으로 식 (9)와 같이 입력 자료에 평균을 빼고 표준편차를 나누는 것으로 계산된다.

\(z=\frac{x-\mu}{\sigma}\) (9)

where z is Z-score normalized data, and μ, σ are the mean and standard deviation of x.

Z-score 정규화 이외에 입력 자료의 값의 범위를 0과 1 사이로 변환하는 Min-Max 정규화가 있으며, 기본적으로 식 (10)과 같이 원자료와 원자료의 최소치와 최대치를 이용한다. 여기서, X, x, x_min, x_max는 순서대로 정규화, 원자료, 최소, 최대값을 의미한다. Min-Max 정규화는 Zscore 정규화보다 표준편차의 값이 작고 이상치의 영향을 적게 해준다는 것으로 알려져 있다(Alickovic and Subasi, 2019).

\(X=\frac{x-x_{\min }}{x_{\max }-x_{\text {min }}}\) (10)

where x_max, x_min are maximum and minimum value of x.

의미론적 분할을 포함한 다양한 영상 인식 분야에서 영상을 Z-score, Min-Max 정규화 또는 이들을 조합한 정규화 방법들을 사용하기도 한다. 그러나 연구들에 따라 광학 영상의 범위가 0 ~ 255의 특정 범위로 고정된 점이 이미 정규화가 되어있다고 간주하고 원자료를 그대로 적용하기도 하였다. 이처럼 연구 경험을 바탕으로 정규화의 유무와 방법이 결정됨에 따라, 본 연구는 여러 개의 정사영상에서 잘피 서식지를 분류하는 초기 연구임으로 정규화의 유무와 방법에 따른 결과를 비교 및 분석하였다. 이를 위해 U-net을 개발한 Ronneberger et al. (2015)와 같이 광학영상을 흑백영상으로 변환한 후, 흑백 영상과 Z-score 정규화가 적용된 영상(Z-score 영상)과 Min-Max 정규화가 적용된 영상(Min-Max 영상)들에 의미론적 분할을 시도하고 그에 따른 결과를 비교하였다.

4) 타일과 배치 크기

학습 자료의 특정 크기 정사각형 형태인 타일과 학습 과정에서 한 번에 처리하는 데이터의 양을 의미하는 배치크기는 GPU 메모리에 영향을 주는 것으로 타일의 크기를 증가시키면 배치의 크기는 감소시켜야 하는 상충관계가 있다. 일반적으로 배치의 크기가 작을수록 상대적으로 일반화 성능과 극소점에서 쉽게 벗어나는 최적화 수렴 성능이 향상되며 적은 GPU 메모리가 필요하다는 장점이 있다. 그러나 신경망 모델이 과적합 될 가능성이 큰 특성이 있으며, 배치 크기가 너무 작을 때 배치에 노이즈가 포함되어 있으면 전체 데이터에 반영되어 정확도가 낮아질 가능성이 있다고 분석되었다(Ioffe, 2017; Yi et al., 2019). 그에 반면 배치의 크기가 크면 신경망 모델의 학습 속도가 증가하지만 일반화 성능이 하락하며 많은 메모리가 필요하다고 알려져 있다(You et al., 2017). Keskar et al.(2017)는 6개의 신경망 모델에 4개의 데이터 셋에 배치 크기의 범위를 512 이하와 60000 이하로 구분하여 학습한 모델의 성능을 분석하였다. 그 결과, 배치의 크기가 너무 크면 일반화의 성능이 약 5% 정도 안 좋아진다는 결과가 나타났으며 이러한 이유는 sharp minimizer에 수렴하기 때문이라고 주장하였다. 그러나 Goyal et al.(2017)는 학습을 진행하면서 학습률을 점차 증가시키는 warmup 기법을 이용하여 배치 크기를 256 ~ 64000으로 변화시킨 결과, 약 8000까지는 검증 자료의 정확도에서 변화가 발생하지 않는 것으로 분석하였다.

다만, 대부분의 딥러닝 연구 또는 이용자들이 선행 연구들과 같이 배치 크기를 10000 이상으로 하기에는 하드웨어에서 한계를 가지고 있음에 따라 현실적인 배치 크기의 변화에 따른 연구들이 수행되었다. Mastters and Luschi(2018)는 AlexNet, ResNet-8, ResNet-20, ResNet-32 모델과 CIFAR-10, CIFAR-100, ImageNet 등의 데이터 셋에 대하여 일반적으로 많이 사용하는 배치 크기인 2 ~ 2048 범위를 사용하였다. 그 결과, 모델과 데이터 셋에 따라 배치의 크기가 4, 8, 16, 32, 64 내에서 가장 좋은 성능을 보여주었으며, 배치 크기가 하나가 아닌 두 개에서 동일한 성능을 보이기도 하였다. 이처럼 현실적인 배치 크기 한도 내에서 학습의 속도를 빠르게 하기 위해 GPU 메모리 한도 내에서 배치 크기를 가장 크게 학습하는 방법이 주로 이루어졌다(Kampffmeyer et al., 2016; Sun and Wang, 2018; Yi et al., 2019).

그러나 U-net을 제안한 Ronnebergeret al.(2015)는 GPU 메모리 내에서 배치 크기보다는 입력 타일의 크기를 증가시키는 것을 선호하였으며, Buscombe and Ritchie(2018)에 의하면 타일의 크기가 신경망 모델의 학습 결과에 영향이 미치는 요소 중 하나인 것으로 분석되었다. 타일의 크기가 딥러닝 모델의 학습에서 고려되어야 할 요소 중 하나이지만, 대부분의 원격탐사 영상의 의미론적 분할 연구에서는 타일의 크기에 대한 특별한 언급 없이 임의의 크기로 사용하였다. 이에 따라 본 연구에서는 타일과 배치의 크기에 따른 결과를 분석하기 위해 일정 크기로 타일을 증가시키고 그와 동시에 배치는 메모리가 지원하는 최대로 하였을 때의 결과를 비교하였다.

4. 실험결과 및 토의

본 연구에서 모델의 학습에는 Google 사의 Colab(Colaboratory)를 이용하였으며, 그 이외의 자료 준비 및 타일 변환 등의 작업에 사용한 하드웨어의 CPU, GPU는 i7-8799K, GeForce GTX 1060 6GB였다. 이때 언어와 라이브러리는 Python 3.6, Tensorflow 1.14로 하였다.

1) 정규화 방법에 따른 결과 분석

정규화에 따른 실험 결과를 분석하기 위해 흑백영상, Z-score영상, 그리고 Min-Max 영상들을 사용하였다. 일반적으로 정규화를 적용할 때 모든 학습 영상에 대해 정규화에 필요한 상수를 계산하고 테스트 영상에 학습 영상으로부터 계산된 상수들을 적용한다. 하지만 각 정사 영상들은 2천만 ~ 6억개 가량의 많은 화소를 가지고 있기 때문에 이 방법을 적용하기 어렵다. 그래서 본 연구에서는 각각의 학습 및 테스트 정사영상들에 대해서만 정규화를 하고, 정규화된 정사영상들을 256×256 크기의 타일로 중복도 없이 분할하였다. 그리고 분할된 타일에서 값이 존재하지 않는 일부 타일들을 제거하였으며, 그에 따라 학습과 테스트에 사용한 타일의 개수는 각각 33422개, 9935개였다.

모델 학습에서 최적화 함수(Optimizer), 학습률, 배치 크기, 에포크(Epoch), 탈락률(Droprate)을 각각 Adam, 0.001, 16, 150, 0.25로 하였다.최적화 함수에 사용한 Adam은 운동량 개념과 적응형 방법(Adaptive method)을 이용하는 것으로 Kingma and Ba (2014)에 의해 제안된 기법이며 다른 최적화 기법과 비교하여 가장 효율적인 성능을 보여주었다(Ruder, 2017). 그리고 학습률은 경사 하강법에서 기울기의 갱신량 크기를 의미하는 것으로, 학습률에 크기에 따라 성능 비교한 연구에서 0.001이 가장 좋은 성능을 나타남에 따라 본 논문에서도 0.001을 선택하였다(Kingma and Ba, 2014). 배치 크기, 탈락률은 일반적으로 사용하는 값으로 하였으며, 에포크는 여러 조건으로 모델을 학습함에 따라 12시간 이내로 학습이 완료될 수 있도록 150으로 하였다. 그리고 학습과 검증 자료의 비율은 8:2의 비율로 임의 추출하였으며, 그에 따른 학습과 검증자료의 개수는 각각 26738개, 6684개이다.

학습 과정에서 에포크에 따른 학습과 검증 자료에 대한 화소 정확도, 손실값들의 변화를 Fig. 4와 Fig. 5에 가시화하였다. 먼저 Fig. 4의 에포크에 따른 학습 자료의 정확도와 손실값을 살펴보면, Z-score 영상의 정확도의 초기값이 다른 자료보다 높게 나타났으며 상대적으로 빠르게 안정적인 수치에 도달하였다. 그러나 Min-Max 영상은 에포크가 20회 이하에서는 정규화를 하지 않은 흑백영상보다 정확도가 낮게 나타난 것을 알 수 있다. 그러나 에포크가 증가할수록 정확도가 개선되어 흑백 영상의 정확도와 유사해졌으나 Z-score 정규화 영상보다는 정확도가 낮은 것을 확인할 수 있다. 손실값에서도 Min-Max 영상과 흑백영상의 그래프가 거의 같으며 에포크가 150일 때 Z-score 영상은 이들보다 수치가 낮게 나타났다.

OGCSBN_2020_v36n2_1_199_f0004.png 이미지

Fig. 4. Training accuracy and loss plots for different normalization.

OGCSBN_2020_v36n2_1_199_f0005.png 이미지

Fig. 5. Validation accuracy and loss for different normalization

검증자료 정확도는 초기값이 거의 같았고, 학습이 진행되어도 정확도 개선은 거의 없었다. 그러나 정규화된 영상의 정확도는 흑백영상보다 안정적으로 높은 것을 알 수 있다(Fig. 5). 손실값에서도 정확도와 마찬가지로 에포크의 증가와 관계없이 개선이 거의 없으며, 흑백영상의 손실값이 정규화된 영상들보다 손실값이 크고 불안정한 것을 알 수 있다. 이러한 이유는 학습과 검증 자료가 임의로 분배되는 과정에서 클래스 비율이 균등하지 못하였기 때문으로 판단되며, 향후 모델 학습 및 정확도 평가를 여러 번 반복하는 과정이 필요한 것으로 보인다.

테스트 영상의 정확도 평가는 방법론에서와 같이 화소 정확도, 정밀도, 재현율, F1, 그리고 IoU들을 이용하였으며 학습 과정과 마찬가지로 테스트 영상들도 흑백 영상, Z-score 정규화, Min-Max 정규화를 적용하고 256×256 크기의 타일로 분할하였다. 그에 따른 분할 평가 항목의 결과들의 값을 Table 3에 나타났으며, 테스트 영상의 분할된 결과들을 Fig. 6에 가시화하였다. 먼저, Table 3에서 테스트 영상들의 평가 항목들의 평균을 기준으로 비교하면 Z-score 영상의 화소 정확도가 다른 영상들보다 0.04 높게 나타났다. 그러나 다른 평가 항목들에서는 다소 차이가 있었는데, 특히 Min-Max 영상의 결과에서 정밀도는 가장 높은 0.93이지만 재현율이 가장 낮은 0.39로 나타났다. 정밀도와 재현율의 차이가 계산식의 분모에서 거짓양성과 거짓음성에 의해서 결정되는 것에 따르면, 분할 결과에서 잘피 서식지가 아닌 영역을 잘피 서식지로 예측한 거짓 양성보다 잘피 서식지 영역을 그 이외의 영역으로 예측한 거짓 음성이 월등히 높은 것으로 판단할 수 있다. 이는 Fig. 6의 Min-Max 영상의 분할 결과인 (b)에서 잘피 서식지 이외의 영역을 잘피 서식지로 판단한 화소의 수는 적지만, 잘피 서식지 영역을 그 이외의 영역으로 오인한 화소가 많은 것을 확인할 수 있다. 흑백영상의 정밀도는 0.73으로 Fig. 6의 (a)에서 잘피 서식지 이외의 영역에서 다른 영상들보다 잘피로 판단한 비율이 높은 것을 알 수 있으며 같은 식생이 산림 지역의 타일에 대해 이러한 현상이 발생한 것으로 보인다.

Table 3. Quantitative comparison of five used metrics obtained from the semantic segmentation results of the test datasets with different normalization

OGCSBN_2020_v36n2_1_199_t0003.png 이미지

OGCSBN_2020_v36n2_1_199_f0006.png 이미지

Fig. 6. Visual comparison of the semantic segmentation results. (a) Grayscale, (b) Min-Max normalization, (c) Z-score normalization.

정밀도와 재현율을 동시에 고려한 F1 과 IoU로 비교하면 Z-score 영상이 흑백영상과 Min-Max 영상보다 높았으며, 오히려 Min-Max 영상보다는 정규화를 하지 않은 흑백영상의 결과가 더 좋은 것으로 나타났다. 결과적으로 Z-score 정규화 방법이 다수의 광학 정사영상에서 잘피 서식지의 의미론적 분할에 적합한 것으로 판단할 수 있다. 다만 Min-Max 정규화 방법은 오히려 흑백 영상보다 낮은 정확도를 나타냈다. 이는 Min-Max 정규화와 Z-score 정규화의 결과 차이는 정사영상에 포함된 객체들의 종류와 촬영 조건에 따라 화소들의 최소값과최대값이 다르게 산출되는데, Z-score 정규화는 최소와 최대를 보존하여 변환하지만 Min-Max 정규화는 이를 0과 1 사이의 스케일로 강제 변환하였기 때문으로 판단된다. 다만, Min-Max 정규화를 위한 수식은 본 연구에서 사용한 기본적인 수식에서부터 Z-score 정규화와 혼합한 식까지 다양하게 존재하므로, 영상의 특성에 맞는 적절한 정규화 방법이 필요한 것으로 판단된다.

2) 타일과 배치 크기에 따른 결과 분석

타일과 배치의 크기가 정확도에 미치는 영향을 분석하기 위해 Z-score 영상을 타일 크기가 128부터 1024까지 128 간격을 가지는 8개의 데이터 셋으로 구분하였다. 그리고 값이 존재하지 않는 타일을 제거하여 타일 크기 순으로 130031/3805, 26738/6684, 15193/4517, 8724/2581, 5701/1657, 4017/1178, 3055/896, 2360/697개의 타일 수를 가진 학습/테스트 자료를 생성하였다. 학습에서 배치 크기를 제외한 하이퍼파라미터는 정규화 방법에 따른 결과 비교에서 사용한 값과 동일하게 하였으며, 이때 배치의 크기는 GPU 메모리를 최대한 활용할 수 있도록 하였다. 학습 자료와 검증 자료는 8:2의 비율로 임의로 추출하게 하였으며, 그에 따라 추출된 학습/검증 자료의 타일의 개수는 타일 크기 순서대로 104241/26060, 21390/5348, 12154/3039, 6979/1745, 4561/1140, 3214/803, 2444/611, 1888/473이다.

에포크에 따른 학습 과정에서 학습 및 검증 자료의 정확도와 손실값을 Fig. 7과 Fig. 8에 도식화하였다. 먼저, Fig. 7의 그래프를 보면 학습 과정에서 타일의 크기가 작고 배치 크기가 클수록 빠르게 높은 정확도와 낮은 손실값에 도달한 것을 알 수 있다. 그리고 동일한 에포크일 때 타일 크기가 클수록 정확도가 낮게 나타나며, 이러한 경향은 손실값 그래프에서도 같게 나타나는 것을 확인할 수 있다. 또한, 타일 크기가 클수록 배치 크기가 작아지다 보니 학습 충격(Training shock)에 민감하게 나타나는 것을 알 수 있다. 검증 자료의 정확도는 타일의 크기와 관계없이 대체로 비슷하게 나타났으나, 손실값에서는 타일의 크기가 384 이하일 때 크게 나타나는 것을 쉽게 확인할 수 있고 타일의 크기가 클수록 손실값이 적은 경향이 있는 것을 알 수 있다(Fig. 8).

OGCSBN_2020_v36n2_1_199_f0007.png 이미지

Fig. 7. Train accuracy and loss for different tile and batch sizes.

OGCSBN_2020_v36n2_1_199_f0009.png 이미지

Fig. 8. Validation accuracy and loss for different tile and batch sizes.

Table 4는 학습된 모델을 테스트 영상에 적용한 결과를 나타낸 것으로, 3개의 정사영상에 대한 결과를 평균하였다. 그리고 타일 크기에 따른 결과의 경향성을 확인하기 위해 각 테스트 영상의 결과를 Fig. 9에 가시화하였다. Table 4의 전체적인 경향성을 보면 화소 정확도는 타일 크기와 관계없이 일정한 수치를 보이나 나머지 정확도 평가 항목들에서는 타일의 크기에 영향이 있는 것으로 나타났다. 특히, 실험 조건에서 타일의 크기가 가장 작은 128과 가장 큰 경우 1024일 때 화소 정확도 이외의 평가 항목에서 다른 경우보다 낮은 수치를 보였다. 정밀도 기준으로 평가하면 Fig. 9에서 타일의 크기가 128과 1024인 경우에는 잘피 서식지의 내부 영역에서 오탐지한 화소가 많은 것을 알 수 있다. 즉, 잘피 서식지를 틀리게 예측한 거짓양성의 비율이 높음에 따라 정밀도가 낮게 나타나는 것으로 판단할 수 있다. 다만, 정밀도에서는 대부분 0.89 ~ 0.91 사이의 정확도를 나타냈으나 타일의 크기가 896인 경우에는 0.97의 높은 수치를 보여주었다. 그러나 재현율에서는 0.80으로 낮은 값으로 나타났는데 이는 동일한 참양성에서 거짓양성보다 거짓음성의 비율이 높음에 따라 나타나는 것으로, 잘피 서식지의 이외의 화소를 잘피 서식지로 오분류한 비율보다 잘피 서식지 화소를 정분류한 비율이 높기 때문으로 판단된다. 재현율에서는 평균적으로 타일의 크기가 128, 1024를 포함하여 896일 때 다른 경우보다 상대적으로 낮게 나왔다. 이는 잘피 서식지 이외의 화소에 대한 거짓 음성의 비율이 높은 것으로 해수면에서 잘피가 아닌 다른 해조류와 일부 산림 지역을 잘피로 분류하였기 때문이다(Fig. 9).

Table 4. Quantitative comparison of five used metrics obtained from the semantic segmentation results of the test datasets with different tile and batch sizes

OGCSBN_2020_v36n2_1_199_t0004.png 이미지

OGCSBN_2020_v36n2_1_199_f0008.png 이미지

Fig. 9. Visual comparison of the semantic segmentation results by different tile and batch sizes.

F1과 IoU를 기준으로 타일의 너무 크기가 작거나 큰 경우보다 256 ~ 768 사이의 크기에서 결과가 좋았으며, 특히 타일의 크기가 768일 때 잘피 서식지 오탐지가 가장 적을 뿐만 아니라 F1과 IoU 값도 가장 높게 나타났다. 특히 Fig. 9의 첫 번째 정사영상에서 잘피 서식지 내부의 오탐지가 적은 것을 가시적으로 확인할 수 있다. 그리고 타일의 크기가 128일 때 잘피 서식지 내부에 대한 결과 양상이 테스트 영상마다 다르게 나타났는데, 두 번째 테스트 영상에 대해서는 타일 크기가 작을 때도 잘피 서식지 내부를 분류한 결과가 다른 타일 크기와 비교해서 정확도에서 큰 차이가 없었다. 이는 타일에 포함된 모든 화소가 잘피인지 아닌지에 따라 결과의 차이가 나타나는 것으로 판단된다. 또한, Table 3에서 타일과 배치의 크기가 256, 16일 때와 Table 4에서 256, 96일 때를 비교하면 IoU가 0.02 정도 향상된 것으로 보아 배치 크기도 정확도에 영향을 미치는 것을 알 수 있다. 결과적으로 타일 크기에 변화에 따라 재현율과 IoU의 차이가 각각 최대 0.12, 0.09까지 보임에 따라, 임의의 타일과 배치 크기를 사용하기보다는 적절한 크기의 결정을 위한 실험이 선행되어야 할 것으로 판단된다.

5. 결론

본 연구는 우리나라 남해에서 획득된 드론 광학 영상으로부터 생성된 정사영상에서 합성곱 신경망 기반의 딥러닝 모델인 U-Net을 이용하여 잘피 서식지 영역을 파악하기 위한 의미론적 분할을 하였다. 의미론적 분할을 수행함에 있어 본 연구는 딥러닝을 이용하여 정사영상에서 잘피 서식지를 분류하는 것에 대한 기초연구라고할수 있다. 이에 따라 영상의 정규화와 타일과 배치 크기의 변화에 따른 결과를 비교 및 분석하였으며, 그에 따른 결론은 다음과 같다.

첫째, 흑백영상, Z-score 정규화, Min-Max 정규화에 따른 각의 영상의 분할 결과에서 Z-score 정규화가 적용된 영상의 결과가 흑백영상과 Min-Max 정규화가 적용된 영상보다 높은 정확도로 분할이 이루어진 것을 확인할 수 있었다. Min-Max 정규화의 경우에는 잘피 서식지 내부의 타일에 대해서는 흑백영상보다 정확도가 낮게 나타났다.

둘째, 타일 크기에 따른 결과 분석으로 타일 크기를 128 ~ 1024로 변화시키면서 배치 크기는 GPU 메모리가 지원하는 만큼 최대로 하여 실험을 수행하였다. 그 결과, 타일과 배치 크기의 변화에 따라 IoU가 0.73 ~ 0.82로 나타났으며 타일의 크기가 128에서 768까지 IoU가 증가하는 경향을 보였다.

연구결과부터 원본영상의 정규화 방법과 타일의 크기가 의미론적 분할의 결과에 영향을 주는 것을 확인하였다. 이로부터 딥러닝을 이용한 의미론적 분할을 위해서는 적절한 정규화 방법과 타일 및 배치 크기를 결정하기 위한 실험이 선행되어야 함을 알 수 있었다. 다만, 본 연구의 각 실험에서 한 번의 학습된 모델의 결과를 기준으로 분석하였기 때문에, 향후 더 객관적인 분석을 위해 모델의 학습과 결과 분석을 여러 번 반복 수행하고 그에 따른 결과를 분석해야 할 것으로 판단된다. 그리고 나머지 하이퍼파라미터들의 최적화 실험을 통한 정확도의 개선이 이루어진다면, 드론 영상을 활용한 잘피 서식지의 모니터링이 효율적으로 이루어질 것으로 기대된다.

References

Alickovic, E. and A. Subasi, 2019. Normalized neural networks for breast cancer classification, Proc. of International Conference on Medical and Biological Engineering, Banja Luka, Bosnia and Herzegovina, May 16-18, pp. 519-524.
Badrinarayanan, V., A. Kendall, and R. Cipolla, 2017. Segnet: A deep convolutional encoder-decoder architecture for image segmentation, IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495. https://doi.org/10.1109/TPAMI.2016.2644615
Buscombe, D. and A.C. Ritchie, 2018. Landscape classifi-cation with deep neural networks, Geosciences, 8(7): 244. https://doi.org/10.3390/geosciences8070244
Chen, L.C., G. Papandreou, I. Kokkinos, K. Murphy, and A.L. Yuille, 2017. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs, IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848. https://doi.org/10.1109/TPAMI.2017.2699184
Fu, G., C. Liu, R. Zhou, T. Sun, and Q. Zhang, 2017. Classification for high resolution remote sensing imagery using a fully convolutional network, Remote Sensing, 9(5): 498. https://doi.org/10.3390/rs9050498
Goyal, P., P. Dollear, R. Girshick, P. Noordhuis, L. Wesolowski, A. Kyrola, A. Tulloch, Y. Jia, and K. He, 2017. Accurate, large minibatch sgd:Training imagenet in 1 hour, arXiv:1706.02677.
Guo, Z., H. Shengoku, G. Wu, Q. Chen, W. Yuan, X. Shi, X. Shao, Y. Xu, and R. Shibasaki, 2018. Semantic segmentation for urban planning maps based on U-Net, Proc. of 2018 IEEE International Geoscience and Remote Sensing Symposium, Valencia, Spain, Jul. 22-27, pp. 6187-6190.
Ioffe, S., 2017. Batch renormalization: Towards reducing minibatch dependence in batch-normalized model, Proc. of 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, Jul. 22-27, pp. 1945-1953.
Kampffmeyer, M., A.B. Salberg, and R. Jenssen, 2016. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Las Vegas, NV, USA, Jun. 26-Jul. 1, pp. 1-9.
Keskar, N.S., D. Mudigere, J. Nocedal, M. Smelyanskiy, and P.T.P. Tang, 2016. On large-batch training for deep learning: Generalization gap and sharp minima, Proc. of 5th International Conference on Learning Representations, Palais des Congres Neptune, Toulon, France, Apr. 24-26, pp. 1-16.
Khalel, A. and M. El-Saban, 2018. Automatic pixelwise object labeling for aerial imagery using stacked u-nets, arXiv:1803.04953.
Kim, J.B., J.I. Park, C.S. Jung, P.Y. Lee, and K.S. Lee, 2009. Distributional range extension of the seagrass Halophila nipponica into coastal waters off the Korean peninsula, Aquatic Botany, 90(3):269-272. https://doi.org/10.1016/j.aquabot.2008.10.007
Kim, J.B., J.I. Park, W.J. Choi, J.S. Lee, and K.S. Lee, 2010. Spatial distribution and ecological characteristics of Zostera marina and Zostera japonica in the Seomjin Estuary, Korean Journal of Fisheries and Aquatic Sciences, 43(4): 351-361 (in Korean with English abstract). https://doi.org/10.5657/kfas.2010.43.4.351
Kingma, D.P. and J. Ba, 2014. Adam: A method for stochastic optimization, Proc. of 3rd International Conference on Learning Representations, San Diego, CA, USA, May 7-9, pp. 1-15.
Krizhevsky, A., I. Sutskever, and G.E. Hinton, 2012. Imagenet classification with deep convolutional neural networks, Proc. of Neural Information Processing Systems Conference, Lake Tahoe, Nevada, USA, Dec. 3-6, pp. 1097-1105.
LeCun, Y., L. Bottou, Y. Bengio, and P. Haffner, 1998. Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86(11):2278-2324. https://doi.org/10.1109/5.726791
Lee, K.S. and S.Y. Lee, 2003. The seagrasses of the Republic of Korea, In: Short, F.T., Green, E.P. (Ed.), World atlas of seagrasses: present status and future conservation, University of California Press, Berkeley, USA, pp. 193-198.
Li, R., W. Liu, L. Yang, S. Sun, W. Hu, F. Zhang, and W. Li, 2018. Deepunet: A deep fully convolutional network for pixel-level sea-land segmentation, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 11(11):3954-3962. https://doi.org/10.1109/JSTARS.2018.2833382
Li, W., C. He, J. Fang, and H. Fu, 2018. Semantic Segmentation Based Building Extraction Method Using Multi-Source GIS Map Datasets and Satellite Imagery, Proc. of 2018 Computer Vision and Pattern Recognition Workshops, Salt Lake City, Utah, USA, Jun. 18-22, pp. 238-241.
Liu, L., 2019. Semantic Segmentation of Urban Airborne Oblique Images, University of Twente, Enschede, Netherlands.
Long, J., E. Shelhamer, and T. Darrell, 2015. Fully convolutional networks for semantic segmentation, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, Utah, USA, Jun. 18-22, pp. 3431-3440.
Masters, D. and C. Luschi, 2018. Revisiting small batch training for deep neural networks, arXiv:1804.07612.
Okatani, T. and M. Saito, 2015. Deep learning, Koudansha, Tokyo, Japan, pp. 101-121.
Park, J.I., J.Y. Park, and M.H. Son, 2012. Seagrass Distribution in Jeju and Chuja Islands, Korean Journal of Environmental Biology, 30(4): 339-348 (in Korean with English abstract). https://doi.org/10.11626/KJEB.2012.30.4.339
Park, S.W. and Y.W. Lee, 2019. Detection of forest disaster using high-resolution satellite images with semantic segmentation, The Association of Korean Photo-Geographers, 28(4): 87-101 (in Korean with English abstract). https://doi.org/10.35149/jakpg.2018.28.4.006
Paszke, A., A. Chaurasia, S. Kim, and E. Culurciello, 2016. Enet: A deep neural network architecture for real-time semantic segmentation, arXiv:1606.02147.
Peng, B., Y. Li, L. He, K. Fan, and L. Tong, 2018. Road Segmentation of UAV RS Image Using Adversarial Network with Multi-Scale Context Aggregation, Proc. of 2018 IEEE International Geoscience and Remote Sensing Symposium, Valencia, Spain, Jul. 22-27, pp. 6935-6938.
Ronneberger, O., P. Fischer, and T. Brox, 2015. U-net:Convolutional networks for biomedical image segmentation, Proc. of International Conference on Medical Image Computing and Computerassisted Intervention, Munich, Germany, Oct. 5-9, pp. 234-241.
Ruder, S., 2016. An overview of gradient descent optimization algorithms, arXiv preprint, arXiv:1609.04747.
Sameen, M.I., B. Pradhan, and O.S. Aziz, 2018. Classification of very high resolution aerial photos using spectral-spatial convolutional neural networks, Journal of Sensors, 1-16.
Sun, W. and R. Wang, 2018. Fully convolutional networks for semantic segmentation of very high resolution remotely sensed images combined with DSM, IEEE Geoscience and Remote Sensing Letters, 15(3): 474-478. https://doi.org/10.1109/LGRS.2018.2795531
Thomas, F.I. and C.D. Cornelisen, 2003. Ammonium uptake by seagrass communities: effects of oscillatory versus unidirectional flow, Marine Ecology Progress Series, 247: 51-57. https://doi.org/10.3354/meps247051
Varia, N., A. Dokania, and J. Senthilnath, 2018. DeepExt: A Convolution Neural Network for Road Extraction using RGB images captured by UAV, Proc. of 2018 IEEE Symposium Series on Computational Intelligence, Bangalore, India, Nov. 18-21, pp. 1890-1895.
Yi, Y., Z. Zhang, W. Zhang, C. Zhang, W. Li, and T. Zhao, 2019. Semantic Segmentation of urban buildings from vhr remote sensing imagery using a deep convolutional neural network, Remote Sensing, 11(15): 1774. https://doi.org/10.3390/rs11151774
You, Y., I. Gitman, and B. Ginsburg, 2017. Scaling sgd batch size to 32k for imagenet training, arXiv:1708.03888.
Zhang, Z., Q. Liu, and Y. Wang, 2018. Road extraction by deep residual u-net, IEEE Geoscience and Remote Sensing Letters, 15(5): 749-753. https://doi.org/10.1109/LGRS.2018.2802944
Zhao, H., J. Shi, X. Qi, X. Wang, and J. Jia, 2017. Pyramid scene parsing network, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA, Jul. 21-26, pp. 2881-2890.

Cited by

Mapping of Subtidal and Intertidal Seagrass Meadows via Application of the Feature Pyramid Network to Unmanned Aerial Vehicle Orthophotos vol.13, pp.23, 2020, https://doi.org/10.3390/rs13234880

Korean Journal of Remote Sensing (대한원격탐사학회지)

Semantic Segmentation of Drone Imagery Using Deep Learning for Seagrass Habitat Monitoring

잘피 서식지 모니터링을 위한 딥러닝 기반의 드론 영상 의미론적 분할

Abstract

Keywords

1. 서론

2. 배경

1) 의미론적 분할

2) 관련 연구

3. 연구 자료 및 방법

1) 연구 자료

2) 정확도 측정 기준

3) 영상 정규화

4) 타일과 배치 크기

4. 실험결과 및 토의

1) 정규화 방법에 따른 결과 분석

2) 타일과 배치 크기에 따른 결과 분석

5. 결론

References

Cited by

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)