DOI QR코드

DOI QR Code

The Optimal GSD and Image Size for Deep Learning Semantic Segmentation Training of Drone Images of Winter Vegetables

드론 영상으로부터 월동 작물 분류를 위한 의미론적 분할 딥러닝 모델 학습 최적 공간 해상도와 영상 크기 선정

  • Chung, Dongki (Department of Geoinformatics, University of Seoul/Innopam Co., Ltd) ;
  • Lee, Impyeong (Department of Geoinformatics, University of Seoul)
  • 정동기 (서울시립대학교 공간정보공학과/(주)이노팸) ;
  • 이임평 (서울시립대학교 공간정보공학과 정교수)
  • Received : 2021.11.24
  • Accepted : 2021.12.15
  • Published : 2021.12.31

Abstract

A Drone image is an ultra-high-resolution image that is several or tens of times higher in spatial resolution than a satellite or aerial image. Therefore, drone image-based remote sensing is different from traditional remote sensing in terms of the level of object to be extracted from the image and the amount of data to be processed. In addition, the optimal scale and size of data used for model training is different depending on the characteristics of the applied deep learning model. However, moststudies do not consider the size of the object to be found in the image, the spatial resolution of the image that reflects the scale, and in many cases, the data specification used in the model is applied as it is before. In this study, the effect ofspatial resolution and image size of drone image on the accuracy and training time of the semantic segmentation deep learning model of six wintering vegetables was quantitatively analyzed through experiments. As a result of the experiment, it was found that the average accuracy of dividing six wintering vegetablesincreases asthe spatial resolution increases, but the increase rate and convergence section are different for each crop, and there is a big difference in accuracy and time depending on the size of the image at the same resolution. In particular, it wasfound that the optimal resolution and image size were different from each crop. The research results can be utilized as data for getting the efficiency of drone images acquisition and production of training data when developing a winter vegetable segmentation model using drone images.

드론 영상은 위성이나 항공 영상보다 공간 해상도가 수배 혹은 수십 배가 높은 초고해상도 영상이다. 따라서 드론 영상 기반의 원격탐사는 영상에서 추출하고자 하는 객체의 수준과 처리해야 하는 데이터의 양이 전통적인 원격탐사와 다른 양상을 보인다. 또한, 적용되는 딥러닝(deep learning) 모델의 특성에 따라 모델 훈련에 사용되는 최적의 데이터의 축척과 크기가 달라질 수밖에 없다. 하지만 대부분 연구가 찾고자 하는 객체의 크기, 축척을 반영하는 영상의 공간 해상도, 영상의 크기 등을 고려하지 않고, 관성적으로 적용하고자 하는 모델에서 기존에 사용했던 데이터 명세를 그대로 적용하는 경우가 많다. 본 연구에서는 드론 영상의 공간 해상도, 영상 크기가 6가지 월동채소의 의미론적 분할(semantic segmentation) 딥러닝 모델의 정확도와 훈련 시간에 미치는 영향을 실험 통해 정량적으로 분석하였다. 실험 결과 6가지 월동채소 분할의 평균 정확도는 공간 해상도가 증가함에 따라 증가하지만, 개별 작물에 따라 증가율과 수렴하는 구간이 다르고, 동일 해상도에서 영상의 크기에 따라 정확도와 시간에 큰 차이가 있음을 발견하였다. 특히 각 작물에 따라 최적의 해상도와 영상의 크기가 다름을 알 수 있었다. 연구성과는 향후 드론 영상 데이터를 이용한 월동채소 분할 모델을 개발할 때, 드론 영상의 촬영과 학습 데이터의 제작 효율성 확보를 위한 자료로 활용할 수 있을 것이다.

Keywords

1. 서론

월동채소는 늦가을에 심어 봄과 여름 동안 먹을 수 있는 채소를 말한다. 국내에서 월동채소를 재배할 수 있는 지역은 제주도와 남해안 일부 지역으로 한정되어 있으므로 농민의 재배의향에 따라 결정되는 재배면적과 기후에 따라 생산량이 매년 달라질 수 있다. 정부와 지방자치단체에서는 월동채소의 생산량을 조기에 예측하여 수급정책을 펴려는 노력을 해오고 있으나 한정된 표본 조사구에서 사람이 직접 작황을 조사하는 방식의 한계로 인해 적기에 정교한 정책 대응이 어려웠다. 이러한 한계를 극복하기 위해 최근 고해상도 영상을 신속하게 획득할 수 있는 드론과 영상 분류에 비약적인 발전을 가져온 딥러닝을 이용해 드론 영상에서 자동으로 월동채소의 면적을 산정하는 연구가 수행되고 있다.

드론 영상의 효율적인 활용을 위해서는 데이터 처리와 분석의 자동화가 필수적이다. 그간 지속적인 데이터 처리와 분석의 자동화를 위해 연구를 수행해 오고 있었지만, 복잡한 영상 데이터에 규칙기반 알고리즘(RuleBased Algorithm)을 적용해 데이터를 처리하기에는 한계가 있었다. 따라서 최근에는 다양한 기계학습(Machine Learning) 알고리즘을 복잡한 항공영상 데이터에 적용해 점차 성과를 내고 있다. 특히 영상 분야의 딥러닝은 LeCun et al. (1989)이 발표한 Convolutional Neural Network(CNN)의 적용 이후 다양한 분야에 성과를 내고 있다. 드론 영상에서 작물의 영역을 탐지하기 위해서는 픽셀 단위로 분류가 가능한 의미론적 분할 모델을 이용해야 한다. 딥러닝 의미론적 분할 모델은 영상의 특징을 추출하는 CNN의 마지막 Fully Connected Layer를 1×1 Convolution으로 변경하여 클래스별 히트맵을 생성하고 이를 업샘플링 해서 픽셀 단위의 분류 결과를 산출하는 Fully Convolutional Networks(FCN) 모델 이후 비약적인 발전을 이룬다(Long et al., 2015). FCN 이후 같은 개념을 적용하고, 문제점을 개선한 U-net이라는 의미론적 분할 모델이 개발되었다. 모델의 구조가 알파벳 U 모양을 닮은 U-Net은 주로 의학 분야에 많이 사용되는 모델로 대칭형 구조의 단계적 업샘플링과 Skip Architecture를 적용해 성능을 향상시켰다(Ronneberger et al., 2015). Zhao et al. (2017)는 다중 축척에서 특징을 추출해 전역적인 맥락파악을 효과적으로 할 수 있는 Pyramid Scene Parsing Network (PSPNet)을 개발하였다. Chen et al. (2018)은 2014년 이후 개발되어 지속적으로 발전해온 Deeplabv3에 Atrous Separable Convolution 적용하고 백본을 Xception 모델로 변경한 Deeplabv3+를 발표하였다. Tao et al. (2020)는 계층적 다중 축척에 어텐션(Attention) 개념을 적용한 모델을 개발해 Pascal VOC 데이터셋 정확도 평가에서 85% 정확도로 1위를 달성했다.

이렇게 딥러닝 의미론적 분할 모델의 성능이 발전함에 따라 원격탐사, 농업 분야에도 이를 적용한 연구가 이루어지고 있다. Lee and Lee (2021)은 U-Net과 Deeplabv3+ 모델을 이용해 위성영상 뿐만 아니라 항공영상에서 8가지 클래스에 대한 토지피복을 분류하는 연구를 수행하였다. 연구를 통해 각 모델별 토지피복 분류 정확도를 산정하여, 토지피복의 자동 분류 가능성을 확인하였다. Chew et al. (2020)은 드론 영상과 딥러닝을 이용해 아프리카 르완다 지역의 옥수수, 바나나, 채소를 분류하는 연구를 수행하였다. Huang et al. (2021)은 드론 영상과 대표적인 의미론적 분할 모델인 Deeplabv3+, PSPNet, SegNet, U-Net을 이용해 담배의 재배면적을 추출하는 연구를 수행하였다. Chiu et al. (2020)는 드론 영상에서 늪지의 연잎을 추출하기 위해서 U-Net과 Deeplabv3+ 을 적용하는 연구를 수행하였다. 앞에서 언급한 딥러닝 의미론적 분할을 적용하는 활용 연구의 한계점은 드론 영상과 같은 특수한 데이터에 대한 조건을 고려하여 학습 데이터를 구축한 것이 아니라, 단순히 적용하고자 하는 모델에서 요구하는 데이터의 명세에 따라 학습 데이터를 구축하고 적용했다는 것이다. 드론 영상은 위성이나 항공영상보다 공간 해상도가 수배 혹은 수십 배가 높은 초고해상도 영상이다. 하지만 드론 영상 기반의 원격탐사는 영상에서 추출하고자 하는 객체의 수준과 처리해야 하는 데이터의 양이 전통적인 원격탐사와 다른 양상을 보인다. 또한, 적용되는 딥러닝 모델의 특성에 따라 모델 훈련에 사용되는 최적의 데이터의 축척과 크기가 달라질 수밖에 없다. 하지만 대부분의 연구가 찾고자 하는 객체의 크기, 축척을 반영하는 영상의 공간 해상도(ground sampling distance), 영상의 크기 등을 고려하지 않고, 관성적으로 적용하고자 하는 모델에서 기존에 사용했던 데이터 명세를 그대로 적용하는 경우가 많다. 하지만 대부분의 인공지능 모델 학습 데이터는 개, 고양이, 사람과 같은 특정 객체를 중심으로 구축되었으며, 영상에서 객체가 차지하는 비율이 높은 경우가 대부분이다. 이처럼 일반적인 인공지능 모델 학습 데이터는 원격탐사에서 많이 다루는 수직 영상에서 적용할 수 있는 공간 해상도와 같은 개념을 고려하지 않았으며, 관심 있는 객체 또한 명확하게 확인할 수 있는 개별 객체가 아니라 경작지, 산림과 같은 영역인 경우가 많다. 공간 해상도는 영상에서 현실 세계의 축척을 표현하는 요소이다. 공간분석에 있어서 축척이 중요한 이유는 공간자료에 축척 의존성(scale dependency)이 존재한다는 점 때문이다(Clack and Avery, 1976). 특정 축척에서만 공간적 패턴을 보이는 지리 사상도 존재한다(Ku, 2000). 따라서, 본 연구에서는 드론 영상에 나타난 각 작물의 크기와 패턴에 따라 축척 의존성이 있을 것으로 가정하고, 드론 영상의 공간 해상도, 영상 크기가 무, 당근, 양배추, 마늘, 양파, 브로콜리와 같은 6가지 월동채소의 의미론적 분할 딥러닝 모델의 정확도 미치는 영향을 실험 통해 정량적으로 분석하였다. 또한, 각 실험 데이터별 학습 시간을 측정하여 학습 환경에 따라 가장 효율적인 학습 조건을 선택할 방안을 제시하였다.

2. 연구 방법

1) 연구 흐름

연구를 위해 먼저 월동채소 6종인 무, 당근, 양배추, 마늘, 양파, 브로콜리 재배지역의 드론 영상을 취득한다. 드론 영상은 공간 해상도 실험을 위해 동일한 지역에 대해 3개의 다중 공간 해상도로 촬영한다. 촬영한 드론 영상은 정사영상으로 제작하여, 작물이 재배되는 영역에 대해 디지타이징을 수행한다. 다음으로 디지타이징한 폴리곤에 작물의 속성을 입력하는 라벨링 과정을 거쳐 학습 데이터로 제작한 후 학습과 평가를 수행하게 된다. 실험을 위해 다중 공간 해상도와 영상의 크기별로 총 44개의 데이터셋을 구성하였다. 실험은 44개 데이터셋에 대해서 딥러닝 의미론적 분할 모델을 학습시키고 평가하는 방식으로 수행되었다(Fig. 1).

OGCSBN_2021_v37n6_1_1573_f0001.png 이미지

Fig. 1. Research Flow.

2) 연구 대상

지역 본 연구의 대상 지역은 국내 월동채소 생산의 대부분을 차지하고 있는 제주도의 작물 재배지역이다. 제주도는 작물별 주산지가 있으며, 연구에서는 이를 고려하여 각 6개 작물별 주산지에서 1:1000 도엽 2개 영역의 데이터를 획득하였다(Fig. 2).

OGCSBN_2021_v37n6_1_1573_f0002.png 이미지

Fig. 2. Study Area.

발전되었기 때문에 안정적인 성능을 보이고 최근 다양한 분야에 활용되고 있다. 본 연구에서 최적인 공간 해상도 및 영상 크기에 관한 연구를 수행하기 위해 안정적이며 우수한 성능을 보이며, 대표성을 띠는 Deeplabv3+ 의미론적 분할 모델을 이용하였다. 2018년에는 Deeplabv3+ 모델을 발표하면서 의미론적 분할에 고려해야 할 거의 모든 요소를 다루면서 모델의 완성도를 높였다. Deeplabv1은 Atrous의 알고리즘의 기원이라고 할 수 있는 Hole Algorithm을 제안하고, 일종의 후처리 과정이라고 할 수 있는 CRF (Conditional random field) 알고리즘을 이용해서 정확도를 향상 시켰다(Chen et al., 2014). 1년 후 발표된 v2는 Atrous Convolution과 ASPP 알고리즘을 적용하여 보다 향상된 성능을 실현하였다. deeplabv3는 Cascade Atruos 개념을 적용함과 ASPP (Atrous spatial pyramid pooling)와 Batch Normalization을 사용하였다. 또한, 구글의 JFT 데이터셋을 이용해 사전학습된 모델을 학습시킴으로 정확도를 향상하는 연구 결과를 발표하였다. 가장 최근 발표된 deeplabv3+ 모델은 Atrous Separable Convolution을 제안하였으며, 백본 모델로 사용하던 Resnet CNN모델을 Xception 모델로 변경함으로써 모델의 정확도를 향상시켰다. Deeplabv3+의 전체적인 구조는 Fig. 3과 같다.

OGCSBN_2021_v37n6_1_1573_f0003.png 이미지

Fig. 3. Deeplabv3+ Architecture (Chen et al., 2018).

3) 실험 데이터 구축

데이터 취득을 위해 활용한 드론은 DJI社의 Inspire2, Phantom4 Pro, Mavic2 Pro를 3가지 기종을 활용하였으며, 각 드론 센서의 제원은 Table 1과 같다.

Table 1. Specification of Drones and Sensors

OGCSBN_2021_v37n6_1_1573_t0001.png 이미지

실험을 위한 학습 데이터는 드론 영상으로 제작한 1:1,000 크기의 정사영상 54도엽을 이용하였다. 18도엽에 해당하는 영역을 2 cm, 3 cm, 4 cm 다중 공간 해상도로 촬영하였다. 실험 데이터에서 각 작물의 영역이 차지하는 비율은 월동무, 당근, 마늘 약 10%, 양배추 5%, 양파 8%, 브로콜리 5%로, 작물과 작물이 아닌 영역의 비율 1:1 정도로 확인되었다. 실험에 사용한 데이터의 자세한 명세는 Table 2와 같다.

Table 2. Area and rate of each crops

OGCSBN_2021_v37n6_1_1573_t0002.png 이미지

정사영상은 공간 해상도에 따라 영상 내의 객체의 판독력이 크게 다르다. 2 cm 해상도에서는 작물을 선명하게 식별할 수 있지만 10 cm 공간 해상도에서는 작은 작물의 경우 판독하기 어렵다(Fig. 4).

OGCSBN_2021_v37n6_1_1573_f0004.png 이미지

Fig. 4. Views of different GSD (cabbage).

공간 해상도의 높고 낮음은 딥러닝 모델이 데이터를 얼마나 선명하게 볼 수 있을 것인지에 대한 결정이며, 영상의 크기는 모델이 한꺼번에 어느 정도의 영역을 볼 것인가의 결정이다. 우선 각 작물 식별에 최적인 해상도를 찾기 위해 다양한 공간 해상도의 드론 영상이 필요하다. 이를 위해서는 각 해상도마다 드론으로 직접 촬영을 해야 하지만, 국내 법상 드론의 비행 높이가 150 m로 제한되어 있어 일정 해상도 이상은 촬영이 어려운 실정이다. 따라서 본 연구에서는 좀 더 다양한 공간 해상도의 실험 데이터를 제작하기 위해, 가장 공간 해상도가 높은 2 cm 영상을 다운샘플링 하는 방법으로 3 cm~10 cm 공간 해상도의 영상을 추가로 제작하였다. 이렇게 만들어진 구간별 해상도 영상은 영상의 크기에 대한 영향을 분석하기 위해서 1024, 512, 256, 128 크기로 자른 데이터셋으로 구성하였다(Fig. 5). 이를 통해서 공간 해상도 11개 종류, 영상 크기 4종류, 총 44개의 실험 데이터셋을 제작하였다. 자세한 데이터셋의 명세는 Table 3과 같다.

OGCSBN_2021_v37n6_1_1573_f0005.png 이미지

Fig. 5. Case of Dataset

Table 3. Specificatipn of Dataset

OGCSBN_2021_v37n6_1_1573_t0003.png 이미지

OGCSBN_2021_v37n6_1_1573_t0004.png 이미지

4) 딥러닝 정확도 평가 방법

Deeplabv3+는 의미론적 분할 모델로 픽셀 단위로 영상을 분류한다. 정확도 평가를 위한 데이터는 훈련 데이터와 평가 데이터를 7:3 나누어 70%는 훈련에 이용하고 30%는 평가에 이용하였다. 평가지표는 분류 영역과 클래스를 동시에 평가할 수 있는 IoU(Intersection over Union)라는 지표를 이용한다. IoU는 추론한 영역과 정답영역의 교집합을 합집합으로 나눈 값을 의미한다. 우선 Fig. 6과 같이 각 작물의 혼동행렬(Confusion Matrix)을 구한 후 수식(1)과 같이 배경을 포함한 7개의 클래스의 평균 IoU인 mIoU(mean IoU)를 계산하였다.

\(m I o U=\frac{\sum T P}{\sum T P+F P+F N}=\frac{1}{N} \sum \frac{\text { Area of Overlab }}{\text { Area of Union }}\)       (1)

OGCSBN_2021_v37n6_1_1573_f0006.png 이미지

Fig. 6. Confusion Matrix.

5) 실험 환경

연구에 사용된 학습 장비는 NVIDIA 社의 DGX Station을 이용하며, Deeplabv3+ 모델은 Pytorch로 구현된 모델을 활용하였다. 정사영상 제작을 위해서는 Agisoft社의 Metashape를 사용하였으며, 학습 데이터 구축을 위해서는 QGIS를 이용하였으며, 학습 데이터 가공을 위해서는 Python 기반의 OpenCV 라이브러리를 이용하였다(Table 4).

Table 4. Environment of experiment

OGCSBN_2021_v37n6_1_1573_t0005.png 이미지

3. 실험 및 결과분석

1) 매개변수 설정

제작된 44개의 실험 데이터셋을 이용해 공간 해상도와 영상 크기가 딥러닝 모델 학습에 미치는 영향을 실험하기 위해선 공통으로 사용할 매개변수의 설정이 필요하다. 딥러닝의 매개변수는 하이퍼파라미터(hyper parameter)라고 칭하며, 하이퍼파라미터는 모델의 종류에 따라 다르다. 실험에서 사용하는 Deeplabv3+의 주요 매개변수는 학습률(learning rate), 손실함수(cost function), 정규화파라미터(regularization parameter), 배치크기(batch size), 학습 반복횟수(training epoch) 등이 있다. 실험은 영상의 해상도와 크기의 변화에 따른 모델의 정확도를 산정하기 위한 실험으로 영상의 해상도와 크기 외에 정확도에 영향을 미치는 변수는 고정해야할 필요가 있다. 따라서 실험을 위해 Deeplabv3+ 모델에서 주로 사용하고 있는 영상의 크기인 512 영상 크기와 가장 높은 해상도인 2 cm 공간해상도 데이터 셋인 D-02-512 데이터셋을 이용해서 하이퍼파라미터 최적화를 진행하였으며, 해당 파라미터를 기본 값으로 설정하였다. 최적화된 하이퍼파라미터의 값은 Table 5와 같다.

Table 5. Hyper parameter setting

OGCSBN_2021_v37n6_1_1573_t0007.png 이미지

2) 모델 학습 및 평가

실험은 44개의 데이터셋에 대해 총 900시간(37일) 동안 진행되었다. 각각의 데이터셋에 대해 설정된 매개변수에 따라 50회 학습을 수행한 후 그중 가장 평가 정확도가 우수한 모델을 해당 데이터셋에 대한 최적 모델로 결정하였다. 결국 44개의 각 데이터셋에 대해 44개의 최적의 모델을 획득하였다. 획득한 모델은 해당 데이터셋의 평가 데이터로 정확도를 평가하였으며, 6개 작물과 배경 클래스의 평균 정확도와 각 작물의 개별 평가 정확도를 산출하였다(Table 6). 또한, 학습의 효율성을 측 정하기 위해서 각 데이터셋의 학습 시간을 측정하였으며, Fig. 7과 같이 데이터별 학습 및 손실 그래프, 결과분석을 위한 혼동행렬(Table 7)을 구하였다. 또한, 학습된 결과를 확인하기 위해 학습된 모델을 이용해 평가 데이터를 추론한 결과를 가시화하였다(Fig. 8).

Table 6. Evaluation result of crop semantic segmentation accuracy

OGCSBN_2021_v37n6_1_1573_t0006.png 이미지

OGCSBN_2021_v37n6_1_1573_t0008.png 이미지

OGCSBN_2021_v37n6_1_1573_f0007.png 이미지

Fig. 7. Dataset D-02-512 loss and accuracy : (a) Graph of training and validation loss (b) graph of accuracy (mIoU).

Table 7. Confusion matrix of Datset D-02-512 (Precision)

OGCSBN_2021_v37n6_1_1573_t0009.png 이미지

OGCSBN_2021_v37n6_1_1573_f0008.png 이미지

Fig. 8. Inference result of Dataset D-02-512.

2) 결과분석

44개의 데이터셋에 대한 전체 mIoU와 작물별 IoU를 계산하였다. 작물의 분류 정확도는 배경을 제외하고, 양 배추, 당근, 무, 브로콜리, 양파, 마늘 순으로 높게 나타났다. 마늘과 양파의 정확도가 상대적으로 낮은 이유는 크게 2가지를 들 수 있다. 첫째, 마늘과 양파의 영상을 분석한 결과, 마늘과 양파의 드론 영상을 취득한 시기가, 생육초기 단계여서 작물 자체가 영상에 명확하게 나타나지 않는 경우가 많았다. 둘째, Fig. 9와 같이 다른 작물은 서로 뚜렷하게 구별할 수 있는 특징이 있지만, 마늘과 양파의 경우 패턴이 유사해 서로 구분하기가 어려워 많은 오류가 발생한 것으로 분석된다. 실제 Fig. 10에서 보는 바와 같이 양파를 마늘로, 마늘을 양파로 분류한 경우가 많을 것을 확인할 수 있다. 또한 양배추와 브로콜리 또한 잘못 판단한 경우가 많을 것을 볼 수 있으며, 배경에서 많은 오분류가 발생하는 것을 볼 때, 배경으로 분류된 참값에 각각의 유사한 작물의 패턴이 있다는 것을 예상할 수 있다.

OGCSBN_2021_v37n6_1_1573_f0009.png 이미지

Fig. 9. Six wintering crops

OGCSBN_2021_v37n6_1_1573_f0010.png 이미지

Fig. 10. Confusion matrix(D-02-512 Dataset).

Fig. 11은 작물별 정확도가 높은 상위 5개 데이터셋을 정확도와 시간 그래프로 나타내었다. 작물 전체의 정확도를 나타내는 mIoU는 공간 해상도 2 cm, 영상 크기 256 픽셀인 M-02-256 데이터셋이 76.7%로 가장 높은 정확도를 나타냈다. 월동무는 공간 해상도 4 cm, 영상크기 128 픽셀인 D-04-128 데이터셋에서 80.9%로 가장 높은 정확도를 보였다. 당근은 D-03-128 데이터셋에서 89.0%, 양배추는 D-02-256에서 91.0%, 마늘은 D-03-256 에서 68.8%, 양파는 D-02-1024에서 70.1%, 브로콜리는 D-02-256에서 78.1%의 정확도를 보였다. 작물 외의 배경 클래스의 경우 D-2T04-128 데이터셋에서 87.4%의 정확도를 보였다. 실험 결과 작물별 모델 학습을 위한 최적의 공간 해상도와 영상의 크기가 차이가 남을 확인할 수 있었다(Table 8). 작물별로 최적의 공간 해상도와 영상의 크기가 다른 이유는 경작되는 작물의 크기와 식재 패턴에 기인한 것으로 분석된다. 양파의 경우 다른 작물보다 작물이 식재되는 고랑의 크기가 크고, 상대적으로 작물은 크지 않아, 딥러닝 모델이 개별 작물의 형태보다는 식재된 작물의 패턴을 학습한 것으로 분석된다. 학습의 효율성 측면에서 볼 때 당근은 D-03-256 데이터 셋으로 학습시킨 모델의 경우 최고 정확도인 D-03-128보다 정확도는 0.4% 적은 데 반해 학습 시간은 5배가 넘게 차이가 남을 알 수 있다.

OGCSBN_2021_v37n6_1_1573_f0011.png 이미지

Fig. 11. Each Classe accuracy (mIoU) according to GSD and image size.

Table 8. Optimal GSD and image size for each crops

OGCSBN_2021_v37n6_1_1573_t0010.png 이미지

영상의 크기와 해상도에 따른 실험 결과를 분석하면, 공간 해상도가 높을수록 영상 크기에 따른 정확도 변화의 영향을 적게 받으며, 영상의 크기가 줄어들수록 클래스별 정확도의 차이도 줄어드는 경향을 보인다. 클래스별 결과에 따르면 배경 클래스의 경우 영상의 공간 해상도의 차이에 따라 학습 정확도의 차이가 크지 않을 것을 볼 수 있으며, 나머지 6개 작물의 경우, 공간 해상도가 크면 영상의 크기를 줄임으로써 정확도를 어느 정도 향상시킬 수 있음을 알 수 있다(Fig. 12). 실험에서 공간 해상도는 영상에 대한 선명도를 의미하며, 영상의 크기는 사물에 대한 거리 즉 축척을 의미한다. 모델의 기준으로 볼 때, 선명도가 높은 영상은 가까이 보이거나 멀리 보여도 정보를 취득하는 데 큰 차이를 보이지 않지만, 선명도 자체가가 낮은 영상의 경우 멀리 보여주면 아예 식별이 잘 안 되고, 가깝게 보여주면 어느 정도까지는 식별이 되는 것으로 분석할 수 있다.

OGCSBN_2021_v37n6_1_1573_f0012.png 이미지

Fig. 12. Each class mIoU according to image size depending on GSD

4. 결론

본 연구에서는 드론 영상의 공간 해상도, 영상 크기가 6가지 월동채소의 의미론적 분할(semantic segmentation) 딥러닝 모델의 정확도와 학습 시간에 미치는 영향을 실험 통해 정량적으로 분석하였다. 실험 결과 6가지 월동채소 분할의 평균 정확도는 공간 해상도가 증가함에 따라 증가하지만, 개별 작물에 따라 증가율과 수렴하는 구간이 다르고, 동일 해상도에서 영상의 크기에 따라 정확도와 시간에 큰 차이가 있음을 발견하였다. 특히 각 작물에 따라 최적의 해상도와 영상의 크기가 다름을 알 수 있었다. 또한, 여러 작물을 동시에 분류할 때, 단순히 전체 mIoU가 높은 데이터 명세로 학습된 모델을 통해 얻을 수 있는 정확도는 76.7%이지만 클래스별 최적의 데이터 명세를 이용해 개별 모델을 학습시킬 경우 80.8%로 데이터의 취득 조건과 가공 조건의 최적화만으로도 약 4% 정도의 정확도를 향상할 수 있는 것으로 확인되었다. 본 연구의 정량적인 성과는 향후 드론 영상 데이터를 이용한 월동채소 분할 모델을 개발할 때, 드론 영상의 촬영과 학습 데이터 제작의 효율성 확보를 위한 기준 자료로 활용할 수 있을 것이다. 또한, 연구에서 수행한 작물별 최적 해상도와 영상 크기를 추출하는 절차는 새로운 작물에도 유용하게 적용할 수 있을 것으로 판단된다.

사사

이 논문은 2015년 정부(국토교통부)의 재원으로 공간정보 융복합 핵심인재 양성사업의 지원을 받아 수행된 연구임(2015-04-01).

References

  1. Clack, W. and K. Avery, 1976. The effects of Data Aggregation in Statistical Analysis, Geographica Analysis, 8(4): 428-438.
  2. Chen, L., Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation, Proc. of the European conference on computer vision (ECCV), Munich, DE, Sep. 8-14, pp. 801-818.
  3. Chen, L.C., G. Papandreou, I. Kokkinos, K. Murphy and A.L. Yuille, 2014. Semantic image segmentation with deep convolutional nets and fully connected crfs, Proc. of In International Conference on Learning Representations, Banff, CAN, Apr. 14-16, arXiv preprint arXiv: 1412.7062.
  4. Chew, R., J. Rineer, R. Beach, M. O'Neil, N. Ujeneza, D. Lapidus, and D.S. Temple, 2020. Deep Neural Networks and Transfer Learning for Food Crop Identification in UAV Images, Drones, 4(1): 7. https://doi.org/10.3390/drones4010007
  5. Chiu, W.-T., C.-H. Lin, C.-L. Jhu, C. Lin, Y.-C. Chen, M.-J. Huang, 2020. Semantic Segmentation of Lotus Leaves in UAV Aerial Images via U-Net and DeepLab-based Networks, Proc. of International Computer Symposium (ICS), Tainan, TPE, Dec. 17-19, pp. 535-540.
  6. Huang, L., X. Wu, Q. Peng, and X. Yu, 2021. Depth Semantic Segmentation of Tobacco Planting Areas from Unmanned Aerial Vehicle Remote Sensing Images in Plateau Mountains, Journal of Spectroscopy, 2021: 1-14. https://doi.org/10.1155/2021/6687799
  7. Ku, C.Y., 2000. The scale characteristics of satellite imagery with spatial resolution, the instituts for Korean Regional Studies, Seoul, KOR (in Korean with English abstract).
  8. Lee, S. and M. Lee, 2021. A Study of Establishment and application Algorithm of Artificial Intelligence Training Data on Land use/cover Using Aerial Photograph and Satellite Images, Korean Journal of Remote Sensing, 37(5-1): 871-884 (in Korean with English abstract). https://doi.org/10.7780/KJRS.2021.37.5.1.4
  9. LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., and Jackel, L.D., 1989. Backpropagation applied to handwritten zip code recognition, Neural Computation, 1(4): 541-551. https://doi.org/10.1162/neco.1989.1.4.541
  10. Long, J., E. Shelhamer, and T. Darrell, 2015. Fully convolutional networks for semantic segmentation, Proc. of the IEEE conference on computer vision and pattern recognition, Boston, MA, USA, Jun. 7-12, pp. 3431-3440.
  11. Ronneberger, O., P. Fischer, and T. Brox, 2015, U-net: Convolutional networks for biomedical image segmentation, Proc. of in International Conference on Medical image computing and computerassisted intervention, Springer, Cham, Oct. 5-9, pp. 234-241.
  12. Tao, A., K. Sapra, and B. Catanzaro, 2020, Hierarchical multi-scale attention for semantic segmentation. arXiv preprint arXiv: 2005.10821.
  13. Zhao, H., J. Shi, X. Qi, X. Wang, and J. Jia, 2017, Pyramid scene parsing network, Proc. of the IEEE conference on computer vision and pattern recognition, Honolulu, HI, USA, Jul. 21-26, pp. 2881-2890.