DOI QR코드

DOI QR Code

Combining 2D CNN and Bidirectional LSTM to Consider Spatio-Temporal Features in Crop Classification

작물 분류에서 시공간 특징을 고려하기 위한 2D CNN과 양방향 LSTM의 결합

  • Kwak, Geun-Ho (Department of Geoinformatic Engineering, Inha University) ;
  • Park, Min-Gyu (Department of Geoinformatic Engineering, Inha University) ;
  • Park, Chan-Won (National Institute of Agriculture Sciences, Rural Development Administration) ;
  • Lee, Kyung-Do (National Institute of Agriculture Sciences, Rural Development Administration) ;
  • Na, Sang-Il (National Institute of Agriculture Sciences, Rural Development Administration) ;
  • Ahn, Ho-Yong (National Institute of Agriculture Sciences, Rural Development Administration) ;
  • Park, No-Wook (Department of Geoinformatic Engineering, Inha University)
  • 곽근호 (인하대학교 공간정보공학과) ;
  • 박민규 (인하대학교 공간정보공학과) ;
  • 박찬원 (농촌진흥청 국립농업과학원) ;
  • 이경도 (농촌진흥청 국립농업과학원) ;
  • 나상일 (농촌진흥청 국립농업과학원) ;
  • 안호용 (농촌진흥청 국립농업과학원) ;
  • 박노욱 (인하대학교 공간정보공학과)
  • Received : 2019.09.18
  • Accepted : 2019.10.23
  • Published : 2019.10.31

Abstract

In this paper, a hybrid deep learning model, called 2D convolution with bidirectional long short-term memory (2DCBLSTM), is presented that can effectively combine both spatial and temporal features for crop classification. In the proposed model, 2D convolution operators are first applied to extract spatial features of crops and the extracted spatial features are then used as inputs for a bidirectional LSTM model that can effectively process temporal features. To evaluate the classification performance of the proposed model, a case study of crop classification was carried out using multi-temporal unmanned aerial vehicle images acquired in Anbandegi, Korea. For comparison purposes, we applied conventional deep learning models including two-dimensional convolutional neural network (CNN) using spatial features, LSTM using temporal features, and three-dimensional CNN using spatio-temporal features. Through the impact analysis of hyper-parameters on the classification performance, the use of both spatial and temporal features greatly reduced misclassification patterns of crops and the proposed hybrid model showed the best classification accuracy, compared to the conventional deep learning models that considered either spatial features or temporal features. Therefore, it is expected that the proposed model can be effectively applied to crop classification owing to its ability to consider spatio-temporal features of crops.

이 논문에서는 작물 분류를 목적으로 작물의 시공간 특징을 고려할 수 있는 딥러닝 모델 2D convolution with bidirectional long short-term memory(2DCBLSTM)을 제안하였다. 제안 모델은 우선 작물의 공간 특징을 추출하기 위해 2차원의 합성곱 연산자를 적용하고, 추출된 공간 특징을 시간 특징을 고려할 수 있는 양방향 LSTM 모델의 입력 자료로 이용한다. 제안 모델의 분류 성능을 평가하기 위해 안반덕에서 수집된 다중시기 무인기 영상을 이용한 밭작물 구분 사례 연구를 수행하였다. 비교를 목적으로 기존 딥러닝 모델인 2차원의 공간 특징을 이용하는 2D convolutional neural network(CNN), 시간 특징을 이용하는 LSTM과 3차원의 시공간 특징을 이용하는 3D CNN을 적용하였다. 하이퍼 파라미터의 영향 분석을 통해, 시공간 특징을 이용함으로써 작물의 오분류 양상을 현저히 줄일 수 있었으며, 제안 모델이 공간 특징이나 시간 특징만을 고려하는 기존 딥러닝 모델에 비해 가장 우수한 분류 정확도를 나타냈다. 따라서 이 연구에서 제안된 모델은 작물의 시공간 특징을 고려할 수 있기 때문에 작물 분류에 효과적으로 적용될 수 있을 것으로 기대된다.

Keywords

1. 서론

원격탐사 자료는 다양한 규모에서 작물의 생육 정보를 제공할 수 있다는 장점을 갖기 때문에 농업 분야에서 활발하게 이용되어 왔다(Kim et al., 2017; Kwak and Park, 2019; Wei et al., 2019). 최근에는 다양한 분광채널과 공간해상도를 갖는 위성영상뿐만 아니라 항공사진, 무인기 영상 등의 이용이 가능해지면서 자료 이용과 활용 측면에서의 다양성은 더욱 증대되고 있다. 농업 분야에서 원격탐사 자료는 작물구분도 제작과 생육 관련 식생지수 분석을 통한 생육 모델링과 생산량 추정 등에 이용되어 왔다. 특히 작물구분도는 적시에 정확한 생육 모델링과 생산량 추정 정보 제공을 위한 필수 주제도 중 하나로 간주되기 때문에 신뢰성 높은 작물구분도 제작연구가 많이 수행되어 왔다(Siachalou et al., 2015; Tatsumi et al., 2015; Kussul et al., 2016).

분류 방법론 측면에서 최근 딥러닝은 비디오 인식, 신호처리뿐만 아니라 원격탐사 자료를 이용한 분류에도많이 적용되고 있다(Liu et al., 2017; Song and Kim, 2017; Lee and Kim, 2019). Support vector machine, random forest와 같은 전통적인 기계학습과 비교했을 때, 딥러닝의 가장 큰 장점은 특징 추출부터 분류까지 여러 단계의 처리 과정을 사용자 개입 없이 일괄 처리가 가능하다는 점이다(Mou et al., 2019). 이러한 특징을 갖기 때문에 딥러닝을 적용하기 위해서는 특정 자료로부터 분류에 유용한 특징 정보를 추출할 수 있는 모델 구축이 매우 중요하다. 이와 관련하여 입력 자료 특성을 반영하는 특징정보 추출을 위해 다양한 딥러닝 알고리즘들이 개발 및 적용되고 있다.

작물 분류에서는 작물의 생육 주기와 같은 시간 정보가 매우 중요하기 때문에 다중시기 원격탐사 자료가 주로 이용되어왔다. 이러한 시계열 자료 특성을 고려하기 위해 순차적인 시간 정보를 특징으로 이용하는 recurrent neural network(RNN)과 RNN 계열인 long shortterm memory(LSTM)은 대표적인 딥러닝 모델로 적용되었다(Zhong et al., 2019). 일반적으로 RNN 계열의 모델은 단방향의 순차적인 시간 정보를 이용하여 모델을 학습한다. 그러나 시간 특징이 뚜렷한 항목의 경우, 특정 시기로부터 이전 시기 정보와 더불어 이후 시기의 정보와도 연관성이 존재한다(Hua et al., 2019). 이와 관련하여 작물 분류에서 분류 성능 향상을 위해 순방향의 순차적인 시간 특징과 더불어 역방향의 시간 특징을 같이 이용하는 양방향(bidirectional) LSTM(biLSTM)이 제안되었다(Liu et al., 2017; Rußwurm and Körner, 2018). 기존 인식과 분류 연구에서는 양방향 LSTM은 더 많은 시간 정보를 이용할 수 있기 때문에 단방향 시간 정보만을 이용할 때 나타나는 특정 시간으로의 편향된 양상을 완화할 수 있다고 보고하였다(Chiu and Nichols, 2016; Liu et al., 2017; Ullah et al., 2017). 그러나 RNN 계열 모델은 자료 처리과정에서 2차원 원격탐사 자료를 1차원 형태로 변환하기 때문에 공간 특징 정보를 완전히 이용하지 못하는 단점이 있다.

밭 필지 고유의 패턴이나 고랑, 작물 모양 등과 같이 원격탐사 자료에서 개별 작물들은 서로 다른 공간 특징을 갖는다. 이러한 특성을 고려해서 인접 화소간 상관성을 이용하여 공간 특징을 추출하는 2차원 convolutionalneural network(2D CNN)은 작물 분류에 효과적으로 적용할 수 있는 또 다른 딥러닝모델 중 하나이다(Xie et al., 2019). 2D CNN은 RNN 계열에서 발생하는 공간 정보손실 문제를 해결할 수 있지만, 2D CNN의 합성곱 계층 (convolution layer)은 영상 밴드와 시간 차원을 하나의축으로 간주하고 처리하기 때문에 시간 특징 추출에 한계가 있다(Ji et al., 2018). 따라서 작물 분류에서 시간 특징만을 이용하는 RNN 계열의 모델과 공간 특징을 이용하는 2D CNN 모델은 상호 보완적인 특성을 갖는다고 볼 수 있다.

시간 특징 혹은 공간 특징만을 이용하는 딥러닝 모델의 단점을 극복하기 위해 개별 특징들을 결합하는 모델들이 제안되었다. Ji et al.(2018)은 작물 분류에서 2D CNN과 시공간 특징을 이용하는 3차원 CNN(3D CNN)을 비교하여 3D CNN의 분류 성능이 우수하다고 보고하였다. 그러나 3D CNN은 복잡한 구조로 인해 모델 학습에 필요한 파라미터의 수가 많아 제한된 수의 훈련 자료를 이용할 때 훈련 자료로의 과적합 문제가 발생할 수 있다고 알려져 있다(Liu et al., 2017; Kim et al., 2018). 또한 RNN 계열 모델과 다르게 3D CNN은 순차적인 시간 정보를 이용하지 않는 단점이 있다. 이러한 단점을 보완하기 위해 순차적인 시간 특징을 이용하는 RNN 계열모델과 공간 특징을 추출하는 CNN 모델을 결합하는 방법론들이 변화 탐지, 초분광 영상 분류 등에 적용되었다(Mou et al., 2019; Seydgar et al., 2019; Zhou et al., 2019). RNN 계열 모델과 CNN 모델의 결합 모델은 서로 다른 특징을 갖는 두 모델이 결합하기 때문에 각 하위 네트워크별 최적의 하이퍼 파라미터가 결정되어야 하지만 선행 연구에서 아직 진행된 사례는 미비한 실정이다. 또한 작물 분류의 특성에 맞게 RNN 계열 모델과 CNN을 결합하는 모델의 적용 사례도 매우 드문 상황이다.

이 연구에서는 원격탐사자료를 이용한 작물분류에서 양방향의 시공간 특징을 고려할 수 있는 2D convolution with bidirectional LSTM(2DCBLSTM) 모델을 제안하였다. 2DCBLSTM 모델은 다중시기 원격탐사 자료로부터 작물의 공간적인 특징을 추출하기 위해 2차원 합성곱 연산자를 적용한다. 그 후 추출된 시간별 공간 특징들을 양방향의 시간 특징을 고려하는 LSTM의 입력자료로 이용한다. 제안 2DCBLSTM 모델의 분류 성능 평가를 위해 고랭지 배추 주산지인 안반덕 지역을 대상으로 시계열 무인기 영상 기반 작물 분류를 수행하였다. 시간 및 공간 특징을 추출하는 하위 네트워크별 하이퍼 파라미터의 영향을 고려하여 최적의 2DCBLSTM 모델을 구성하였으며, 기존 딥러닝 모델인 2D CNN, LSTM, 3D CNN과 비교 실험을 수행하였다.

2. 연구 지역 및 사용 자료

이 연구에서는 강원도 강릉시 왕산면에 위치한 국내 고랭지 배추 주산지인 안반덕 내 일부 지역을 대상으로 사례 연구를 수행하였다(Fig. 1). 사례 연구 지역은 고랭지배추와 더불어 양배추와 감자도 함께 재배되고 있으며, 일부 필지는 병해충으로 인해 휴경지로 관리되고 있다. 분류 대상이 작물이기 때문에 분류 항목으로 도로, 산림 등의 비작물을 제외하고 고랭지 배추, 양배추, 감자, 휴경지 등 총 4개를 정의하였다. 작물의 필지 크기와 대상 지역의 규모를 고려하여 작물 분류의 입력 자료로 시계열 무인기 영상을 이용하였다. 촬영에 사용된 무인기는 Cannon IXUS/ELPH 카메라가 탑재된 고정익으로(Ebee, Sensefly, Swiss), red(660 nm), green(520 nm), blue (450 nm) 채널을 제공한다. 일반적으로 서로 다른 작물들은 육안으로 구분하기 어려워 영상 기반 분류에서 red, green, blue 채널만을 이용하지 않고 근적외선 혹은 단파적외선 채널을 이용한다. 그러나 이 연구의 분류 대상 작물들은 가시광선 채널을 이용하더라도 육안으로 충분히 구분이 가능해서 가시광선 채널 정보를 이용하였다(Fig. 2). 또한 연구 지역에서 재배되는 3개 작물은 서로 다른 수확 및 파종 시기를 보이기 때문에 사례 연구 지역 내 대상 작물의 생육주기 정보를 분류에 이용하기 위해 2018년에 촬영된 총 6장의 시계열 영상을 분류에 이용하였다(Table 1). 무인기 영상의 촬영과 전처리는 국립농업과학원에서 수행하였으며, 최종적으로 50 cm 공간해상도의 시계열 영상을 분류에 이용하였다.

OGCSBN_2019_v35n5_1_681_f0001.png 이미지

Fig. 1. Location of the study area and a UAV image acquired on August 15, 2018.

OGCSBN_2019_v35n5_1_681_f0002.png 이미지

Fig. 2. Spatial characteristics of crops in the study area: (a) potato, (b) highland Kimchi cabbage, and (c) cabbage.

Table 1. List of UAV images acquired in the study area

OGCSBN_2019_v35n5_1_681_t0001.png 이미지

작물 분류와 분류 결과의 검증을 위해 현장 조사 자료를 통해 제작한 ground truth 지도로부터 훈련 자료와 검증 자료를 추출하였다. 일반적으로 하나의 필지 내에서 동일 작물을 재배하기 때문에 영상 내에서 동일 필지에 포함되는 화소들은 공간 자기상관성이 높다고 할 수 있다(Rußwurm and Körner, 2017). 이 연구에서는 훈련 자료와 검증 자료의 독립을 보장하기 위해 우선 훈련 자료와 검증 자료로 사용할 필지를 구분한 후에, 훈련 자료 필지에서 일부 화소를 임의로 추출하여 훈련 자료로 이용하였다. 무인기 영상의 높은 공간해상도로 인해 하나의 필지에 매우 많은 화소가 포함되기 때문에 훈련 자료는 실험적으로 검증 자료의 약 0.3%에 해당하는 화소만 추출하여 감독 분류에 사용하였다(Table 2). 무인기 영상의 초고해상도 특성을 고려할 때, 검증 자료의 약 0.3%만 사용해도 매우 많은 픽셀을 포함하게 되며, 각 작물을 대표하는 충분한 훈련 자료가 수집되었기 때문에 검증 자료의 0.3%보다 더 많은 수의 훈련 자료를 이용해도 분류 성능에서 큰 차이를 보이지 않았다. 이를 기반으로 검증 자료의 약 0.3%에 해당하는 화소를 훈련 자료로 이용한 결과만 제시하였다.

Table 2. Numbers of training and reference pixels

OGCSBN_2019_v35n5_1_681_t0002.png 이미지

3. 연구 방법

이 연구에서는 기존 딥러닝 모델 중에서 공간, 시간 등 서로 다른 특징을 추출하는 모델들의 분류 성능을 제안 모델과 비교하였다. 기존 딥러닝 모델로 공간, 시간특징을 각각 고려하는 2D CNN, LSTM과 시공간 결합특징을 고려하는 3D CNN을 선정하였다.

1) CNN

CNN은 깊은 층을 갖는 인공 신경망 모델로 훈련 자료를 이용해서 분류에 유용한 특징을 자동으로 추출한 후에 분류를 수행하며, 영상 분석, 신호 처리 등 다양한 분야에서 많이 이용되고 있다(Zhang et al., 2018). CNN은 일반적으로 합성곱 계층, 풀링 계층(pooling layer)과 전결합 계층(fully-connected layer)의 다양한 조합으로 구성되며, 영상 내 다양한 객체의 구분을 위해 인접한 계층 간의 상관성을 통해 공간 특징을 추출한다. 이러한공간 특징 추출을 위해 CNN 모델의 입력 자료는 화소가 아닌 패치(patch) 단위로 구성된다. 일반적으로 CNN모델은 합성곱 계층과 풀링 계층이 교대로 적용되는 구조를 갖는다. 합성곱 계층은 패치 단위의 입력 자료로부터 필터를 통해 특정 특징을 추출하고, 다음 계층으로 전달하기 위해 sigmoid 혹은 ReLU(rectified linear unit)와 같은 활성화 함수를 적용한다. 이 때 추출하고자 하는 특징의 차원에 따라 입력 자료의 형태와 합성곱 계층은 다르게 구성할 수 있다.

일반적으로 x, y 축의 평면 정보와 밴드 축을 포함하는 3차원의 영상 정보에 각 밴드 별로 2차원의 합성곱계층을 적용하여 공간 특징을 추출하는 CNN을 2D CNN이라고 한다. 그리고 다중 시기로 취득된 영상 정보에 시공간 차원과 밴드 축을 함께 고려하는 3차원의합성곱 계층을 적용하여 시공간 특징을 추출하는 CNN을 3D CNN이라고 한다(Fig. 3). 3D CNN은 다중 시기영상처리 뿐만 아니라 다량의 밴드를 포함하는 초분광영상의 분류에도 적용될 수 있으며, 이 때 3차원의 합성곱 계층은 시간 차원과 밴드 축이 아닌 수 많은 분광 차원에 대해 연산을 수행하게 된다. 합성곱 계층으로부터 출력된 자료는 특징 영상(feature map)이라고 부른다. 합성곱 계층에서 많은 공간 혹은 시공간 특징들이 추출되는데, 특징 영상에 다양한 객체를 구분하기 위한 특징이 충분히 포함되어 있다면 주요 특징들로 간소화하기 위해 풀링 계층을 적용한다. 추출된 주요 특징들은 1차원 형태로 변환되어 전결합 계층으로 전달되고, 합성곱계층과 마찬가지로 ReLU와 같은 활성화 함수를 적용하여 학습을 계속 진행하거나 softmax와 같은 다층 분류기를 적용하여 최종 분류 결과를 생성한다.

OGCSBN_2019_v35n5_1_681_f0003.png 이미지

Fig. 3. Comparison of convolution operations applied in 2D CNN and 3D CNN: (a) 2D convolution and (b) 3D convolution.

2) LSTM

RNN은 hidden state가 순차적인 방향으로 다음 계층에 연결되는 순환구조의 딥러닝 모델이다. 그러나 RNN은 관련 정보와 그 정보를 사용하는 지점 사이의 거리가 멀어질수록 성능이 크게 저하되는 장기 의존성 (long-term dependency) 문제를 갖고 있다(Liu et al., 2017). LSTM은 이러한 RNN의 한계를 보완한 모델로 자연어처리나 언어 번역뿐만 아니라 최근에는 다중시기로 획득된 원격탐사 자료 처리에도 적용되고 있다(Ma et al., 2019). 순환 구조 형태의 LSTM은 크게 hidden state와 cell state로 구성된다(Fig. 4). 먼저 cell state는 이전 시기에서 전달받은 정보를 현재 시기와 그 다음 시기 등 모든 시기에 걸쳐 순차적으로 전달하는 역할을 한다. 이때 cellstate는 hidden state의 forget, input, output으로 구성된 3가지 gate에 sigmoid 함수, 하이퍼볼릭 탄젠트(tanh) 함수와 점 단위의 곱하기 연산을 적용하여 시간 정보를 더하거나 제거하는 기능을 수행한다. 추출된 순차적인 시간 특징들은 CNN과 마찬가지로 전결합 계층으로 전달되고 활성화 함수를 통해 학습하거나 softmax 함수를 이용하여 분류를 수행한다.

OGCSBN_2019_v35n5_1_681_f0004.png 이미지

Fig. 4. Basic structure of LSTM unit and layer (modified from Rußwurm and Körner (2017)).

3) 제안 모델: 2DCBLSTM

지금까지 설명한 모델들은 공간, 시간 특징을 개별적으로 이용하거나 혹은 시공간 결합 특징을 이용한다. 이 연구에서는 분류 과정에서 시공간 특징이 모두 중요한 역할을 하는 작물 분류를 목적으로 서로 다른 모델 구조인 2D CNN과 LSTM을 결합한 2DCBLSTM 모델을제안하였다(Fig. 5). 다중시기 영상들에 2차원 합성곱 연산을 각각 적용하여 작물의 특정 생육 시기에서 나타나는 공간 특징을 추출한다. 추출된 공간 특징은 전결합계층을 통해 1차원 형태로 변환되어 LSTM 모델의 입력 자료로 이용된다. 제안 모델은 2D CNN을 통해 공간특징을 추출하고, 이를 시계열 특징을 고려할 수 있는 LSTM의 입력 자료로 이용함으로써 시공간 특징을 모두 분류 과정에 사용할 수 있다. 즉 합성곱 연산으로 추출된 1차원의 공간 특징을 이용한다는 점에서 원 영상을 1차원화하여 입력 자료로 이용하는 기존 LSTM과 차별성을 갖는다.

OGCSBN_2019_v35n5_1_681_f0005.png 이미지

Fig. 5. Architecture of 2DCBLSTM proposed in this study.

LSTM 구조는 이전 상태가 미래 상태에 영향을 미친다는 가정하에 순차적인 정보를 학습할 때 매우 우수한것으로 알려져 있다(Rußwurm and Körner, 2018). 그러나 이전 상태와 미래의 상태를 동시에 알고 있을 때 양방향의 순차적인 정보를 이용한다면 LSTM 구조는 시계열 특징을 더욱 유용하게 추출할 수 있다. Schusterand Paliwal(1997)은 양방향의 순차적인 정보를 모두 이용하여 모델링이 가능한 RNN 구조를 제안하였다. 작물 분류에서도 작물의 파종시기 정보와 더불어 파종과수확시기 정보를 모두 이용할 경우, 단방향의 정보를 이용하는 것보다 작물 구분이 용이해질 수 있다. 이에 이연구에서는 2D CNN과 LSTM을 결합할 때, 기존 단방향 LSTM 대신 양방향 LSTM 구조를 적용하였다(Fig. 5). 양방향 구조는 입력 자료가 순방향과 역방향 순서로각각 LSTM 구조에 공급되는 형태다. 순방향과 역방향으로부터 추출된 각 특징들은 전결합 계층에서 하나의벡터로 연결되고, softmax 분류기를 통해 분류를 수행한다.

4. 결과 및 토의

1) 하이퍼 파라미터의 영향 분석

딥러닝 모델을 이용한 분류에서는 자료 특성을 반영하는 유용한 특징들의 추출을 위해 다양한 하이퍼 파라미터들의 영향 분석이 필요하다. 연구 지역의 분류 대상은 고랭지 배추, 양배추, 감자, 휴경지 등 총 4개 항목으로 그 수가 많지 않고, 각 항목별 공간 및 분광 특성이 다소 뚜렷한 편이다. 사전 실험에서 각 계층마다 특징수를 증가시키더라도 분류 정확도에는 거의 변화가 없었기 때문에, 이 연구에서는 딥러닝 모델들에 공통적으로 계층 별 32개 혹은 64개의 특징을 추출하도록 설정하였다. 그리고 입력 자료의 패치 크기가 커질수록 패치를 대표하는 중앙 화소 대비 상관성이 낮은 화소의 정보가 포함될 가능성이 높기 때문에 분류 성능이 감소하는 양상을 보일 수 있고(Ji et al., 2018; Feng et al., 2019), 필터 크기가 커질수록 분류 결과는 지나치게 평활화 될 수 있다고 알려져 있다(Xie et al., 2019). 이러한 특성을 고려해서 패치 단위의 입력 자료를 이용하는 CNN 모델의 패치 크기와 필터 크기는 각각 5×5와 3×3으로 설정하였다. 또한 3D CNN 모델에서는 시간 차원 필터가 추가되기 때문에 필터 크기는 3×3×2로 설정하였다. 2D CNN, 3D CNN과 LSTM은 앞서 언급한 특징 수, 패치와 필터 크기의 파라미터들과 함께 풀링 계층의 종류, dropout 적용의 여부 등에 대해 사전 실험을 수행하여 가장 우수한 분류 성능을 보인 최적의 모델을 이용하였다 (Table 3). 특히 이 연구에서 적용된 2D CNN과 3D CNN 모델은 Kim et al.(2018)의 연구에서 하이퍼 파라미터 비교를 통해 제안한 최적의 모델과 유사하게 나타났다.

Table 3. Parameters of 2D CNNLSTMand 3D CNN (N denotes the nmber of classes)

OGCSBN_2019_v35n5_1_681_t0003.png 이미지

2DCBLSTM은 시간 및 공간의 서로 다른 특징을 갖는 두 개의 모델을 하나의 모델로 결합하기 때문에 공간 특징과 시간 특징을 추출하는 각각의 계층 구성에 따른 영향 분석이 필요하다. 이러한 특성을 검토하기에 m앞서 공간 특징에 영향을 미치는 2DCBLSTM 모델의 입력 패치 크기에 대한 영향을 분석하였다. 총 4개의 입력 패치 크기를 비교한 결과, 앞에서 언급한 바와 같이 패치 크기가 커질수록 분류 정확도가 낮게 나타났다 (Table 4). 그리고 2DCBLSTM은 서로 다른 구조를 갖는 3개 모델로 구성하여 공간 특징에 따른 각각의 분류 성능을 비교하였다(Table 5). Case A~C에서는 공간 특징을 추출하는 합성곱 계층의 수와 풀링 계층의 수를 각각 다르게 적용하였다. 이 중 case B의 분류 정확도가 상대적으로 가장 낮게 나타났는데 5×5의 작은 패치 크기로 인해 풀링 계층 수가 늘어날수록 정보 손실이 크게 발생한 것에 기인한 것으로 판단된다. 그리고 합성곱 계층수에 따른 분류 정확도를 비교한 결과, 3개의 계층을 이용한 case C에서 가장 높은 분류 정확도를 보였다. Case A~C의 분류 정확도를 비교했을 때, 2DCBLSTM 모델은 추출된 공간 특징에 따라 분류 성능이 크게 달라질 수 있음을 보여준다.

Table 4. Overall accuracy of 2DCBLSTM with respect to different patch sizes

OGCSBN_2019_v35n5_1_681_t0004.png 이미지

Table 5. Overall accuracy of 2DCBLSTM with respect to different parameters

OGCSBN_2019_v35n5_1_681_t0005.png 이미지

시간 특징의 영향을 비교하기 위해 공간 특징 비교에서 가장 높은 분류 정확도를 보인 case C를 기준으로 LSTM 계층 수를 감소 혹은 증가시킨 후 분류 정확도를 비교하였다. 2DCBLSTM 모델은 case C보다 LSTM 계층수를 감소 혹은 증가시켰을 때 분류 정확도가 감소하는 양상을 보였다. LSTM 계층 수를 감소시킨 case D는 caseC와 분류 정확도에서 큰 차이를 보이지 않았다(Table 5). 반대로 LSTM 계층 수를 증가시켰을 경우 특정 분류 항목을 분류하지 못하는 결과를 보였는데, 이러한 결과는 LSTM의 내부 구조가 많은 수의 파라미터를 필요로 하기 때문에 LSTM 계층 수가 늘어날수록 기울기 손실(vanishing gradient) 문제가 발생한 것이 주된 이유로 판단된다. 마지막으로 case C와 E의 비교를 통해 2DCBLSTM 모델의 양방향 구조에 따른 영향을 분석하였다. 분석 결과 순방향 구조보다 양방향을 이용할 경우 분류 정확도가 다소 증가하는 것으로 나타났다. 이러한 하이퍼 파라미터의 영향 분석 결과를 토대로 가장 높은 분류 정확도를 보인 case E의 파라미터들을 2DCBLSTM에 적용하였다(Table 6).

Table 6. Parameters of the 2DCBLSTM model (N denotes the number of classes)

OGCSBN_2019_v35n5_1_681_t0006.png 이미지

2) 다른 딥러닝 모델과의 성능 비교

이 연구에서는 Table 3과 Table 6에 제시한 총 4개의 모델을 시계열 무인기 영상에 적용하여 분류 결과를 생성한 후에 검증 자료와의 비교를 통해 분류 정확도 기반 정량적 평가와 시각적 검증을 함께 수행하였다.

Table 7과 Fig. 6은 각각 이 연구에서 제시된 4개의 모델로 얻어진 전체 정확도와 오차 행렬을 나타낸다. 4개의 비교 모델 중에서 2D CNN은 92.46%로 가장 낮은 분류 정확도를 보였다. 2D CNN은 작물 분류에 중요한 생육주기 등 시간 차원 정보를 이용하지 못하기 때문에 분류 정확도가 낮게 나타난 것으로 판단된다. 예를 들어, 연구 지역에서 겨울철을 제외하고 식생활력도가 항상 높은 휴경지와 파종과 수확시기가 뚜렷한 감자는 시계열특성 정보를 이용할 경우 구분력이 높아질 수 있다. 그러나 2D CNN의 경우, 휴경지의 정확도가 두 번째로 낮은 3D CNN보다 정확도가 약 16.6%p 더 낮게 나타났다. Fig. 7(a)에서 확인할 수 있듯이 2D CNN은 대부분의 휴경지 필지에서 감자와의 혼재 양상을 보였다. 반면 LSTM은 2D CNN에 비해 분류 정확도가 높게 나타났는데, 특히 2D CNN에서 나타났던 휴경지의 오분류 양상이 크게 완화된 것을 확인할 수 있다(Fig. 7(b)). 그러나 LSTM은 공간특징을 이용하지 않기 때문에 고랭지 배추 필지에서 밭고랑 등이 양배추로 오분류되었고, 대부분의 밭 필지의 경계 부근에서 고립된 화소들이 나타났다. 3D CNN은 2D CNN이나 LSTM과 달리 시공간 결합 특징을 이용하지만, 두드러진 분류 정확도의 향상은 보이지 않았다. 공간 특징을 이용하는 2D CNN에 비해 분류 정확도가 다소 향상되었지만(1.24%p), 시간 특징을 이용하는 LSTM과는 거의 유사한 분류 정확도를 보였다. 이러한 결과는특정 시간 차원의 필터 적용으로 인해 인접하지 않은 시간 차원의 정보를 학습할 수 없다는 3D CNN의 한계에 기인한 것으로 판단된다(Liu et al., 2017). 즉, 3D CNN의 적용 시 작물 생육주기에 대한 정보 일부가 손실된다고 간주할 수 있다. 반면 이 연구에서 제안한 2DCBLSTM은 순차적, 반복적으로 연결된 네트워크 구조로 모든 시간정보를 학습할 수 있으며, 이와 함께 작물의 공간 패턴도 학습이 가능하다. 이러한 장점으로 2DCBLSTM의 분류 정확도가 기존 딥러닝 모델과 비교했을 때 가장 높았으며, 특히 고랭지 배추와 휴경지의 정확도가 가장 크게 향상되었다. 분류 결과의 공간 분포를 살펴보면, Fig. 7(d)에서 확인할 수 있듯이 각 모델에서 나타났던 오분류 양상이 2DCBLSTM에서는 모두 완화되었다.

Table 7. Overall accuracy of 2D CNN, LSTM, 3D CNN and 2DCBLSTM

OGCSBN_2019_v35n5_1_681_t0007.png 이미지

OGCSBN_2019_v35n5_1_681_f0006.png 이미지

Fig. 6. Confusion matrix maps from (a) 2D CNN, (b) LSTM, (c) 3D CNN, and (d) 2DCBLSTM. C1, C2, C3, and C4 denote highland Kimchi cabbage, cabbage, potato, and fallow, respectively.

OGCSBN_2019_v35n5_1_681_f0007.png 이미지

Fig. 7. Classification results: (a) 2D CNN, (b) LSTM, (c) 3D CNN, and (d) 2DCBLSTM. The ground truth map is shown in (e).

5. 결론

이 연구에서는 작물 분류에서 중요한 생육 주기, 재배패턴 등과 같은 시공간 특징을 모두 고려하는 분류 모델로 2D CNN과 LSTM을 결합한 2DCBLSTM을 제안하였다. 특히 작물의 생육 특성상 양방향의 시간 특징 정보가 유용할 수 있기 때문에 제안한 2DCBLSTM 모델의 하위 네트워크에서 양방향의 LSTM을 적용하였다.

우리나라의 대표적인 고랭지 배추 주산지인 안반덕지역을 대상으로 사례 연구를 수행하였으며, 시간 및 공간 특징을 개별적으로 이용하거나 이의 결합 특징을 이용하는 전통적인 딥러닝 모델인 LSTM, 2D CNN, 3D CNN과 분류 성능을 비교하였다. 다양한 하이퍼 파라미터 조합에 따른 분류 성능을 비교한 결과, 작물 분류에서 공간 특징과 시간 특징이 분류 성능에 크게 영향을 미친다는 것을 확인할 수 있었다. 또한 작물 특성상 개별 작물들은 공간 및 시간적인 특징이 매우 뚜렷하기 때문에 이러한 특성을 모두 고려할 수 있는 2DCBLSTM 모델은 기존 딥러닝 모델에 비해 가장 높은 분류 정확도를 나타냈다. 특히 제안 모델은 시공간 결합 특징을 이용하는 3D CNN 모델보다도 높은 분류 정확도를 보여서, 작물 분류에서 시공간 특징을 효과적으로 고려할 수 있는 제안 모델의 우수성을 확인할 수 있었다.

이 연구에서 제안한 모델은 기본적으로 성격이 다른 두 개의 모델 구조가 결합된 형태를 갖는다. 따라서 이 모델은 기존 전통적인 딥러닝 모델들에 비해 입력 자료특성을 반영할 수 있는 하이퍼 파라미터의 튜닝이 매우 중요하다. 향후 최적의 하이퍼 파라미터 설정을 위해 다른 특성을 갖는 작물 재배지에서의 하이퍼 파라미터 영향 분석을 수행하고 이를 기반으로 입력 자료 특성에 큰 영향을 받지 않는 하이퍼 파라미터 설정 조건을 제시할 예정이다.

사사

본 논문은 농촌진흥청 공동연구사업(과제번호: PJ01 350004)의 지원을 받았으며, 이에 감사드립니다. 논문 보완에 많은 조언을 해주신 두 분의 심사자분들께 감사드립니다.

References

  1. Chiu, J. P. C. and E. Nichols, 2016. Named entity recognition with bidirectional LSTM-CNNs, Transactions of the Association for Computational Linguistics, 4: 357-370. https://doi.org/10.1162/tacl_a_00104
  2. Feng, Q., D. Zhu, J. Yang, and B. Li, 2019. Multisource hyperspectral and LiDAR data fusion for urban land-use mapping based on a modified two-branch convolutional neural network, ISPRS International Journal of Geo-Information, 8(1): 28. https://doi.org/10.3390/ijgi8010028
  3. Hua, Y., L. Mou, and X. X. Zhu, 2019. Recurrently exploring class-wise attention in a hybrid convolu - tional and bidirectional LSTM network for multilabel aerial image classification, ISPRS Journal of Photogrammetry and Remote Sensing, 149: 188-199. https://doi.org/10.1016/j.isprsjprs.2019.01.015
  4. Ji, S., C. Zhang, A. Xu, Y. Shi, and Y. Duan, 2018. 3D convolutional neural networks for crop classification with multi-temporal remote sensing images, Remote Sensing, 10(1): 75. https://doi.org/10.3390/rs10010075
  5. Kim, Y., N.-W. Park, and K.-D. Lee, 2017. Selflearning based land-cover classification using sequential class patterns from past land-cover maps, Remote Sensing, 9(9): 921. https://doi.org/10.3390/rs9090921
  6. Kim, Y., G.-H. Kwak, K.-D. Lee, S.-I. Na, C.-W. Park, and N.-W. Park, 2018. Performance evaluation of machine learning and deep learning algorithms in crop classification: Impact of hyper-parameters and training sample size, Korean Journal of Remote Sensing, 34(5): 811-827 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2018.34.5.9
  7. Kussul, N., G. Lemoine, F. J. Gallego, S. V. Skakun, M. Lavreniuk, and A. Y. Shelestov, 2016. Parcelbased crop classification in Ukraine using Landsat-8 data and Sentinel-1A data, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 9(6): 2500-2508. https://doi.org/10.1109/JSTARS.2016.2560141
  8. Kwak, G.-H. and N.-W. Park, 2019. Impact of texture information on crop classification with machine learning and UAV images, Applied Sciences, 9(4): 643. https://doi.org/10.3390/app9040643
  9. Lee, S. and J. Kim, 2019. Land cover classification using sematic image segmentation with deep learning, Korean Journal of Remote Sensing, 35(2): 279-288 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2019.35.2.7
  10. Liu, Q., F. Zhou, R. Hang, and X. Yuan, 2017. Bidirectional-convolutional LSTM based spectralspatial feature learning for hyperspectral image classification, Remote Sensing, 9(12): 1330. https://doi.org/10.3390/rs9121330
  11. Ma, A., A. M. Filippi, Z. Wang, and Z. Yin, 2019. Hyperspectral image classification using similarity measurements-based deep recurrent neural networks, Remote Sensing, 11(2): 194. https://doi.org/10.3390/rs11020194
  12. Mou, L., L. Bruzzone, and X. X. Zhu, 2018. Learning spectral-spatial-temporal features via a recurrent convolutional neural network for change detection in multispectral imagery, IEEE Transactions on Geoscience and Remote Sensing, 57(2): 924-935. https://doi.org/10.1109/tgrs.2018.2863224
  13. Russwurm, M. and M. Korner, 2017. Temporal vegetation modelling using long short-term memory networks for crop identification from medium-resolution multi-spectral satellite images, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition Workshops 2017, Honolulu, HI, Jul. 21-26, pp. 11-19.
  14. Russwurm, M. and M. Korner, 2018. Multi-temporal land cover classification with sequential recurrent encoders, ISPRS International Journal of Geo-Information, 7(4): 129. https://doi.org/10.3390/ijgi7040129
  15. Schuster, M. and K. K. Paliwal, 1997. Bidirectional recurrent neural networks, IEEE Transactions on Signal Processing, 45(11): 2673-2681. https://doi.org/10.1109/78.650093
  16. Seydgar, M., A. Alizadeh Naeini, M. Zhang, W. Li, and M. Satari, 2019. 3-D convolution-recurrent networks for spectral-spatial classification of hyperspectral images, Remote Sensing, 11(7): 883. https://doi.org/10.3390/rs11070883
  17. Siachalou, S., G. Mallinis, and M. Tsakiri-Strati, 2015. A hidden Markov models approach for crop classification: Linking crop phenology to time series of multi-sensor remote sensing data, Remote Sensing, 7(4): 3633-3650. https://doi.org/10.3390/rs70403633
  18. Song, A. and Y. Kim, 2017. Deep learning-based hyperspectral image classification with application to environmental geographic information systems, Korean Journal of Remote Sensing, 33(6-2): 1061-1073 (in Korean with English abstract). https://doi.org/10.7780/kjrs.2017.33.6.2.3
  19. Tatsumi, K., Y. Yamashiki, M. A. C. Torres, and C. L. R. Taipe, 2015. Crop classification of upland fields using Random forest of time-series Landsat 7 ETM+ data, Computers and Electronics in Agriculture, 115: 171-179. https://doi.org/10.1016/j.compag.2015.05.001
  20. Ullah, A., J. Ahmad, K. Muhammad, M. Sajjad, and S. W. Baik, 2017. Action recognition in video sequences using deep bi-directional LSTM with CNN features, IEEE Access, 6: 1155-1166. https://doi.org/10.1109/access.2017.2778011
  21. Wei, S., H. Zhang, C. Wang, Y. Wang, and L. Xu, 2019. Multi-temporal SAR data large-scale crop mapping based on U-Net model, Remote Sensing, 11(1): 68. https://doi.org/10.3390/rs11010068
  22. Xie, B., H. K. Zhang, and J. Xue, 2019. Deep convolutional neural network for mapping smallholder agriculture using high spatial resolution satellite image, Sensors, 19(10): 2398. https://doi.org/10.3390/s19102398
  23. Zhang, C., X. Pan, H. Li, A. Gardiner, I. Sargent, J. Hare, and P. M. Atkinson, 2018. A hybrid MLPCNN classifier for very fine resolution remotely sensed image classification, ISPRS Journal of Photogrammetry and Remote Sensing, 140: 133-144. https://doi.org/10.1016/j.isprsjprs.2017.07.014
  24. Zhong, L., L. Hu, and H. Zhou, 2019. Deep learning based multi-temporal crop classification, Remote Sensing of Environment, 221: 430-443. https://doi.org/10.1016/j.rse.2018.11.032
  25. Zhou, F., R. Hang, Q. Liu, and X. Yuan, 2019. Hyperspectral image classification using spectralspatial LSTMs, Neurocomputing, 328: 39-47. https://doi.org/10.1016/j.neucom.2018.02.105

Cited by

  1. Potential of Hybrid CNN-RF Model for Early Crop Mapping with Limited Input Data vol.13, pp.9, 2019, https://doi.org/10.3390/rs13091629