DOI QR코드

DOI QR Code

Comparison of Off-the-Shelf DCNN Models for Extracting Bark Feature and Tree Species Recognition Using Multi-layer Perceptron

수피 특징 추출을 위한 상용 DCNN 모델의 비교와 다층 퍼셉트론을 이용한 수종 인식

  • Kim, Min-Ki (Dept. of Computer Engineering, Gyeongsang National University Engineering Research Institute)
  • Received : 2020.08.09
  • Accepted : 2020.09.09
  • Published : 2020.09.30

Abstract

Deep learning approach is emerging as a new way to improve the accuracy of tree species identification using bark image. However, the approach has not been studied enough because it is confronted with the problem of acquiring a large volume of bark image dataset. This study solved this problem by utilizing a pretrained off-the-shelf DCNN model. It compares the discrimination power of bark features extracted by each DCNN model. Then it extracts the features by using a selected DCNN model and feeds them to a multi-layer perceptron (MLP). We found out that the ResNet50 model is effective in extracting bark features and the MLP could be trained well with the features reduced by the principal component analysis. The proposed approach gives accuracy of 99.1% and 98.4% for BarkTex and Trunk12 datasets respectively.

Keywords

1. 서론

스마트폰이 널리 보급되고 손쉽게 영상을 획득할 수 있는 환경이 갖추어짐에 따라 Leaf Snap, Pl@ntNet, Folia 등 식물을 식별하는데 도움을 주는 스마트폰 앱에 대한 관심이 증대되고 있다. 컴퓨터비전 분야에서도 지난 10여 년간 영상 인식 기술을 활용하여 식물들을 자동으로 식별하기 위한 연구가 꾸준히 이루어져 왔다[1]. 꽃과 잎은 식물을 식별할 수 있는 중요한 시각적 정보로 널리 이용되어 왔다. 본 논문은 나무의 껍질(수피)에 나타난 텍스처 정보를 이용하여 나무의 종류(수종)를 식별하기 위한 연구이다. 수피는 열매나 꽃에 비하여 계절에 무관하게 관찰이 가능하고 꽃이나 잎에 비하여 상대적으로 장기간 시각적 형태가 변하지 않는 장점이 있다[2]. 그리고 수피에서 추출한 특징은 꽃이나 잎, 열매 등에서 추출한 정보와 결합하여 수종 인식의 정확도를 향상시킬 수 있는 정보를 제공한다[3,4].

수피를 식별하기 위한 시각적 특징은 색상이나 형태보다는 텍스처를 통해 이루어져 왔다. L. J. Blaanco 외[5]는 텍스처의 특징을 효과적으로 나타내는 것으로 알려진 국소이진패턴(Local Binary Pattern, LBP)[6] 히스토그램을 이용하여 수피의 특징을 추출하고 최소자승 지지벡터머신(LSSVM) 분류기를 사용하여 수피를 인식하는 방법을 제안하였다. M. Sule 외 [7]는 중심 화소에서 반경이 R인 이웃 화소 P개에 대한 LBP를 ㅣLBPP, R로 나타냈을 때, LBPS, 1을 LBPS, R(R∈R1, R2, ....RS)로 확장한 c개의 LBPS, R을 연결한 다중스케일 기술자(multi-scale descriptor) 를 제안하였다. 다중스케일 기술자는 특징을 추출하기 위한 영역의 크기를 달리하는 것으로 c는 스케일의 개수를 의미한다. 다양한 스케일로 획득된 수피의 텍스처를 효과적으로 기술하기 위하여 S. Boudra 외 [8]는 다중해상도 LBP, 다중블럭 LBP, LBP 필터링, 피라미드 기반의 LBP를 제안하였고, 이중에서 가우시안 저주파 필터를 이용한 LBP 필터링 방식이 수피 인식에 가장 좋은 성능을 나타내었다. 그리고 후속 연구[9]에서 LBP에 따른 이웃 화소의 밝기 값에 대한 L개의 스케일에 대한 통계적 정보(평균값, 중앙값, 최소값, 최대값, 분산값)로 매크로 패턴을 인코딩 하는 방식을 제안하였다. T. Le-Viet 외[10]는 화소 값 기반의 전통적인 LBP와 화소의 밝기 변화를 나타내는 그레이디언트(gradient)의 방향과 크기 값을 이용한 LBP 히스토그램을 결합한 방식을 제안하였다.

이와 같이 수피의 텍스처 특징을 기술하기 위한 LBP 기반의 다양한 연구가 수행되었으나 수종 인식 성능은 크게 향상되지 않았다. 이러한 인식 성능의 한계를 극복하기 위한 방안으로 심층 합성곱 신경망 (DCNN)을 이용한 특징 추출 방식이 부상하고 있다. P. Barre 외[11]는 2개의 합성곱 레이어와 최대풀링 레이어로 구성된 모듈을 전반부에 5개 배치하고 후 반부에 합성곱 레이어, 최대풀링 레이어, 그리고 3개의 완전연결 레이어로 구성한 LeafNet이라는 DCNN 을 식물 잎 인식에 적용하였다. Y. Park 외[12]는 입력 데이터에 대한 합성곱 후 3단계의 밀집블록과 그 사이의 합성곱과 풀링과정으로 구성된 수정된 Dense Net을 이용하여 잎을 분류하였다. S. Lee 외[13]는 ILSVRC(ImageNet Large-Scale Visual Recognition Challenge) 데이터세트로 학습된 AlexNet을 이용하여 특징을 추출하고 최종 단계인 완전연결 레이어를 인식 대상의 클래스에 맞게 변경한 후 미세조정에 의해 우수한 인식 성능을 보고하였다. 최근에 들어 서야 나무를 식별하기 위한 용도로 DCNN을 적용한 연구들이 발표되고 있다. M. Hu 외[14]는 AlexNet, VggNet16, InceptionV3를 이용한 전이학습을 통해 10종의 나무, 1,593개의 나무 영상에 대하여 최대 93.75 %의 인식 성능을 얻었다. M. Carpentier 외[15]는 DCNN의 깊이가 늘어나면서 나타나는 오류를 최소화하기 위한 바로가기 연결(shortcut connection)에 의한 잔여학습(residual learning) 구조를 갖는 ResNet18과 ResNet34의 전이학습을 통해 수피 인식을 수행하였는데 신경망의 깊이에 따른 인식 성능의 차이는 1% 정도로 그다지 크지 않았다. M. Kim[16]은 모델의 크기가 작아 모바일이나 임베디드 비전 응용에 적합한 MobileNet을 이용하여 기존의 LBP 기반의 특징 추출 방식보다 우수한 인식 성능을 얻었다.

DCNN을 적용하여 수종을 인식하기 위해서는 수피 영상 데이터의 확보가 필수적이나 깊은 신경망을 학습시키는데 충분한 다량의 데이터를 확보하는 것은 쉬운 일이 아니다. 따라서 본 연구에서는 ImageNet [17] 데이터세트로 사전 학습된 상용 DCNN 모델들을 대상으로 수피의 특징을 추출하는데 적합한 모델을 탐색하고, 해당 모델을 이용하여 수피의 특징을 추출한 후 다층 퍼셉트론을 이용하여 수종을 인식하는 접근 방식을 택하였다. 일반적으로 DCNN 모델의 깊이가 깊을수록 일반화 능력이 우수한 것으로 알려져 있으나, 수피에 나타난 특징이 ImageNet 데이터세트에 나타나는 사람, 동물, 가구 등에 나타나는 특징과는 달리 단순한 텍스처가 주된 특징임을 감안할 때 어떤 상용 DCNN 모델이 수피를 식별하는데 효과적인지 파악할 필요가 있다. 또한 DCNN 모델에 존재하는 여러 레이어들의 출력 중에서 수피 식별에 최적화된 특징 벡터를 선택하는 것이 필요하다.

본 논문의 구성은 다음과 같다. 2장에서는 DCNN 모델의 기본 구조와 탐색 대상이 되는 상용 DCNN 모델의 특성에 대하여 살펴본다. 3장에서는 DCNN 모델을 이용하여 수피 영상으로부터 특징을 추출하고 다층 퍼셉트론을 통해 수종을 인식하는 방법을 기술한다. 4장에서는 수피의 특징 추출에 적합한 DCNN 모델과 출력 레이어를 탐색하기 위한 실험 방법 및 결과를 제시한다. 끝으로 5장에서 결론 및 향후 과제에 대하여 논의한다.

2. DCNN 모델

본 장에서는 DCNN을 구성하는 기본 요소들과 상용 DCNN 모델들의 특징에 대하여 살펴본다. 본 연구에서는 수피 영상에서 추출되는 텍스처가 저차원 특징임을 고려하여 상용 DCNN모델 중 모델의 크기가 100MB 미만인 InceptionV3, ResNet50, DenseNet121, MobileNet을 탐색 대상으로 하였다.

2.1 DCNN의 구성 요소

Fig. 1은 DCNN 모델을 촉발시킨 계기가 된 AlexNet[18]의 구조를 나타낸 것이다. DCNN을 구성하는 기본 요소들을 살펴보면 합성곱 레이어(convolution layer), 풀링 레이어(pooling layer), 완전연결 레이어 (fully connected layer)가 있다.

합성곱 레이어는 필터의 크기에 대응되는 영상의 영역에 합성곱 연산을 통해 공간적으로 서로 연관된 특징을 추출한 후 비선형 활성화 함수(activation function)를 적용한다. 활성화 함수는 입력과 각 노드의 가중치를 곱한 값들의 합에 대하여 신경망의 출력을 결정하는 함수로 시그모이드(sigmoid), 하이퍼볼 릭탄젠트(tanh), 맥스아웃(maxout), ReLU(Rectified Linear Unit) 등이 있다. 적절한 활성화 함수의 선택은 학습 과정을 촉진한다. 풀링 레이어는 차원을 줄이는 역할을 수행하며 학습할 파라미터가 존재하지 않는다. 풀링 레이어에 대한 하이퍼파라미터는 필터와 스트라이드로, 필터의 크기가 2이고 스트라이드가 2인 것이 널리 사용된다. DCNN은 여러 개의 합성곱 레이어와 풀링 레이어를 거친 후 최종적으로 완전 연결 레이어로 완성이 된다. 완전연결 레이어가 과적합되는 것을 방지하기 위하여 드롭아웃(drop out)이라는 기법이 적용된다. 드롭아웃은 확률적으로 일부 뉴런의 가중치를 제거하여 어떤 특징이 특정 뉴런에 고정되는 것을 막아 가중치의 균형을 이루도록 한다.

MTMDCW_2020_v23n9_1155_f0001.png 이미지

Fig. 1. Overview of AlexNet Architecture [18].

2.2 InceptionV3 모델

Inception[19] 모델은 계산 양을 줄이면서도 높은 인식 성능을 나타낼 수 있도록 인셉션 모듈이라는 새로운 개념을 도입하였다. 인셉션 모듈은 특징 추출을 위해 분리, 변환, 병합을 통해 다중스케일 합성곱 변환을 수행한다. Fig. 2는 인셉션 모듈의 구조를 나타낸 것이다. 필터의 크기가 클수록 계산 양이 크게 늘어나기 때문에 작은 크기의 필터로 분해하면 계산양을 줄일 수 있다. 예를 들어 Fig. 2 좌측에 있는 5×5 회선 필터는 우측에 제시된 바와 같이 연속된 3×3로 대치하여 계산 양을 줄일 수 있다. InceptionV3 모델은 11개의 인셉션 모듈을 사용한다.

MTMDCW_2020_v23n9_1155_f0002.png 이미지

Fig. 2. Architecture of inception module [19].

2.3 ResNet50 모델

ResNet[20] 모델은 DCNN 모델의 깊이가 늘어나면서 증가하는 학습 과정의 오류를 최소화하기 위하여 바로가기 연결을 도입하였다. 이 방식은 기존 망의 구조를 크게 변경하지 않기 때문에 학습할 파라미터의 개수가 증가하지 않고, DCNN의 깉이가 더욱 깊어지더라도 학습 과정에서 역전파되는 기울기(gradient)가 점차 사라져 학습이 잘 이루어지지 않는 기울기 소실 문제를 해결할 수 있는 장점이 있다. 이것은 전체 신경망에 걸쳐 가중치들을 최적화하는 것이 아니라, 2∼3개의 레이어로 이루어진 잔여 블록(residual block)마다 부분적인 학습이 이루어지기 때문이다. ResNet50 모델은 Fig. 3과 같이 3개의 레이어마다 바로가기 연결이 되어 있으며, 이러한 바로가기 연결이 총 16개 존재한다. 1×1 합성곱 레이어는 차원을 축소하고 나중에 복원함으로써 3×3 합성곱 레이어의 입출력 차원을 축소하여 병목(bottlenect)을 구성한다.

MTMDCW_2020_v23n9_1155_f0003.png 이미지

Fig. 3. Bottlenect building block for ResNet50 [20].

2.4 DenseNet121 모델

전통적인 신경망은 연속된 레이어간에만 연결이 존재한다. 그러나 DenseNet[21] 모델은 각 레이어를 다른 모든 레이어에 전방향으로 연결하는 밀집 블록(dense block)을 도입하였다. L개의 레이어로 구성된 한 개의 밀집 블록은 L(L+1)/2개의 연결이 존재한다. 어떤 레이어의 전단에 존재하는 모든 레이어의 특징 맵이 입력으로 사용되고, 자신의 특징 맵은 후속되는 모든 레이어의 입력으로 사용된다. 이렇게 함으로써 기울기 소실의 문제를 해소하고, 특징 전파의 강화와 특징 재사용을 통해 실질적으로 파라미터의 수를 감소시키게 된다. Fig. 4는 5개의 레이어를 갖는 밀집 블록을 개념적으로 나타낸 것이다. 배치 정규화(batch normalization, BN)는 활성화 함수의 출력 값 분포가 평균은 0, 분산은 1이 되도록 정규화 한다. DenseNet 121은 4개의 밀집 블록으로 구성되어 있다. 밀집 블록은 각각 6개, 12개, 24개, 16개의 1×1 합성곱과 3×3 합성곱으로 이루어져 있고, 전환 레이어는 1×1 합성곱과 2×2 평균 풀링 레이어로 구성되어 있다.

MTMDCW_2020_v23n9_1155_f0004.png 이미지

Fig. 4. 5-layer dense block [21].

2.5 MobileNet 모델

모바일 및 임베디드 비전 응용에 이용할 수 있도록 설계된 MobileNet[22]은 모델의 크기가 16MB로 InceptionV3와 ResNet50 모델에 비하여 크기가 1/6에 불과하지만 인식 성능은 크게 떨어지지 않는 것으로 보고되었다. MobileNet 구조의 특징은 표준 합성곱을 깊이단위(depthwise) 합성곱과 화소단위(pixelwise) 합성곱으로 불리는 1×1 합성곱으로 분해한 것이다. 이것은 한 단계의 합성곱에서 입력에 대한 필터링과 추출된 특징의 결합에 의한 출력을 수행하던 것을 각각 필터링 레이이와 결합 레이어로 분리함으로써 연산 시간과 모델의 크기를 대폭 줄이게 된다. Fig. 5는 배치정규화와 활성화 함수 ReLU를 갖는 3×3 표준 합성곱 레이어를 깊이단위 합성곱과 화소단위 합성곱 레이어로 분리시킨 것은 개념적으로 나타낸 것이다. MobileNet은 총 13개의 3×3 깊이단위 합성곱과 1×1 화소단위 합성곱 쌍으로 구성되어 있다.

MTMDCW_2020_v23n9_1155_f0005.png 이미지

Fig. 5. Depthwise separable convolutions [22].

3. 수피의 특징 추출 및 수종 인식

DCNN을 학습시킬 수 있는 충분한 양의 수피 영상을 확보하는 것이 현실적으로 쉽지 않다는 점을 고려하여 ImageNet으로 사전 학습된 상용 DCNN모델을 적용하여 수피의 특징을 추출하는 접근 방식을 택하였다. ImageNet 데이터세트로 학습된 DCNN 은 1,000개의 클래스를 갖는 약 3백만 개의 영상으로 학습되었기 때문에 특정 물체의 특징에 종속되지 않는 일반적인 특징을 추출한다고 볼 수 있다. 따라서 ImageNet 데이터세트로 사전 학습된 DCNN에 수피 영상을 입력하여 수피를 식별할 수 있는 특징 벡터를 얻을 수 있다. 이러한 접근 방식에서는 상용 DCNN 모델들 중에서 수피의 특징을 효과적으로 추출할 수 있는 모델을 탐색하는 선행 작업이 요구된다. 어떤 DCNN 모델이 수피를 식별하는데 필요한 유효한 특징을 얼마나 잘 추출하는지는 결국 추출된 특징으로 부터 얼마나 정확한 인식 결과를 얻을 수 있는가의 문제로 귀결된다. 본 연구에서는 이러한 문제에 대한 접근 방식으로 각 DCNN 모델의 완전연결 신경망 이전의 레이어에서 얻은 출력을 k-최근접이웃(kNearest Neighbor, k-NN) 분류기를 이용하여 해당 특징 벡터의 적합성을 검증한다. k-NN 분류기는 분류하려는 샘플의 특징 벡터와 가장 유사한 k개의 최근접 이웃을 탐색한 후 다수결 투표를 통해 클래스를 식별한다. k-NN 알고리즘은 아주 단순하기 때문에 DCNN을 이용하여 수피로부터 추출한 다양한 특징 벡터들이 갖는 식별성을 비교하는데 효과적이다. Fig. 6은 수피 영상을 각각의 상용 DCNN 모델에 입력하여 수피의 특징을 추출하고, 테스트 영상으로부터 수피의 특징을 추출한 후 k-NN 분류기를 이용한 인식 성능을 비교함으로써 추출한 특징 벡터의 상대적인 적합성을 비교하는 개념을 도식화한 것이다. 인식 성능에 대한 평가는 식 (1)에 제시된 정인식률(Correct Recognition Rate, CRR)로 측정한다. C는 올바르게 인식한 수피 영상의 개수, N은 테스트 데이터세트에 존재하는 영상의 총수를 나타낸다.

\(C R R(\%)=\frac{C}{N} \times 100\)       \((1)\)
   

MTMDCW_2020_v23n9_1155_f0006.png 이미지

Fig. 6. Comparison of feature suitability by a k-NN classifier.

공개된 수피 영상 데이터세트를 통해 실험한 결과 ResNet50 모델이 수피의 특징을 추출하는데 가장 효과적인 것으로 나타났다. ResNet 모델을 이용한 기존의 연구[15]에서 단순히 DCNN 모델의 최종 잔여 블록의 출력을 특징 벡터로 사용한 것과는 달리, 본 연구에서는 ResNet 모델에 존재하는 여러 잔여 블록의 출력 중 최적의 특징 벡터를 탐색하였다. 이와 같은 과정을 거쳐 수피를 식별하는데 적합한 DCNN 모델과 출력 레이어를 선정한 후 수피 영상에서 추출한 특징 벡터를 다층 페셉트론(Multi-layer Perception, MLP)에 입력하여 수종을 인식한다. MLP에 입력되는 벡터의 차원이 크면 클수록 신경망을 학습하는데 보다 많은 양의 학습데이터가 필요하기 때문에 주성분분석(PCA)을 이용하여 MLP에 입력되는 특징 벡터의 차원을 축소하였다. PCA는 고차원 공간의 데이터를 저차원의 특징 공간으로 변환함으로써 MLP의 가중치 파라미터 개수가 지나치게 커지는 것을 방지하고 소요되는 기억 공간을 줄일 수 있다. Fig. 7은 본 연구에서 사용한 은닉층이 1개인 MLP 구조를 제시한 것이다.

MTMDCW_2020_v23n9_1155_f0007.png 이미지

Fig. 7. Multi-layer perception with one hidden layer.

4. 실험 결과 및 분석

4.1 실험 데이터

ResNet50 모델을 이용하여 수피의 특징을 추출하고 MLP 분류기로 수종을 인식하는 방법에 대한 타당성과 기존 연구결과들과의 비교를 위하여 공개된 수피 데이터세트인 BarkTex, 와 Trunk12 데이터세트를 사용하였다. BarkTex 데이터세트는 6개의 클래스, 총 408개의 컬러 영상으로 구성되어 있으며, 영상의 해상도는 256×384 이다. 각 클래스는 균등하게 68개의 영상으로 이루어져 있다. Trunk12 데이터세트는 12개의 클래스, 총 393개의 고해상도(3,000× 4,000) 영상으로 구성되어 있다. 각 클래스는 최소 30개에서 최대 45개의 영상으로 이루어져 있다. Fig. 8은 BarkTex와 Trun12 데이터세트에서 각 클래스별로 한 개씩 추출한 샘플 영상을 제시한 것으로 시각적 정보를 통해 수피를 식별하는 것이 쉽지 않은 문제임을 직감할 수 있다.

MTMDCW_2020_v23n9_1155_f0008.png 이미지

Fig. 8. Sample images selected at BarkTex (top row) and Trunk12 (last two rows).

4.2 수피의 특징 추출에 적합한 DCNN 모델의 탐색

4개의 DCNN 모델(InceptionV3, ResNet50, Dense Net121, MobileNet)을 대상으로 어떤 모델이 수피를 식별하는데 적합한 특징 추출기로 사용될 수 있는지 실험을 통해 살펴보았다. 각 DCNN 모델은 ImageNet 데이터세트로 학습된 파라미터를 이용하였다. 완전 연결 신경망의 앞단에 존재하는 최종 레이어의 출력 을 평균풀링(average pooling) 레이어를 통과시켜 특징 벡터를 구하고, 이렇게 구한 특징 벡터를 k-NN 분류기를 이용하여 분류하게 된다. Table 1은 각 DCNN 모델로부터 추출한 특징을 k-NN 분류기를 통해 얻은 정인식률(CRR)을 보여주고 있다. 전체 데이터세트 중 80%를 학습 데이터로 사용하고, 나머지 20%를 테스트 데이터로 사용하였다. BarkTex 데이터세트에서는 ResNet50 모델이 월등한 인식 성능을 나타냈으며, Trunk12 데이터세트에서도 k=5인 경우를 제외하고는 ResNet50 모델이 가장 좋은 인식 성능을 나타냈다. 이러한 결과는 ImageNet 데이터세트에 대하여 ResNet50 모델보다 InceptionV3와 DenseNet121 모델의 인식 성능이 더 우수한 점을 감안할 때 주목해야 할 결과이다. 이것은 ImageNet 데이터세트에 나타난 1,000개의 객체를 식별하는 능력이 수피에도 그대로 적용되는 것이 아님을 나타낸다. 이것은 수피의 특징을 효과적으로 추출할 수 있는 DCNN 모델을 탐색하는 작업이 필요한 과정임을 의미한다.

4.3 ResNet50 모델을 이용한 인식 실험 및 결과

ResNet50 모델을 이용한 인식 실험은 크게 두 가지 관점에서 설계하였다. 첫째는 ResNet50 모델에 존재하는 16개의 잔여 블록에서의 활성화 함수 출력 결과 중 어떤 것이 수피를 식별하는데 효과적인지 탐색하는 것이다. 둘째는 학습해야할 MLP의 파라미터 개수에 영향을 미치는 PCA에 의한 차원 축소가 인식 성능에 미치는 영향을 탐색하기 위한 실험이다.

첫 번째 실험은 k-NN 분류기를 이용하였다. Trunk12 데이터세트를 대상으로 각 활성화 함수의 출력으로 얻은 특징 벡터를 k-NN 분류기에 적용하여 Fig. 9에 제시된 결과를 얻었다. 잔여 블럭의 활성화 레이어에 따라 차이는 있지만 대체로 k=1인 경우가 더 좋은 성능을 나타냈다. 정인식률(CRR)의 평균값을 살펴보면 ResNet50 모델의 중반 이후인 Act34∼Act43 레이어가 상대적으로 우수한 성능을 보였으며, 최고 성능은 k=1로 설정하였을 때 Act34에서 94.9%였다. BarkTex 데이터세트에 대한 실험에서도 Act34∼Act43 레이어가 Act49보다 우수한 성능을 나타냈다. 이러한 결과는 ResNet50 모델을 이용하여 수피의 특징을 추출할 때, 일반적으로 널리 사용하는 완전연결 레이어 이전의 최종 레이어 보다는 그 보다 몇 단계 앞에 있는 활성화 레이어의 출력을 사용하는 것이 더 효과적임을 나타내는 것이다.

MTMDCW_2020_v23n9_1155_f0009.png 이미지

Fig. 9. Classification results with different activation layers.

두 번째 실험은 PCA에 의한 특징 벡터의 차원을 200에서 시작하여 100, 50, 25로 절반씩 줄어가면서 MLP 분류기의 성능을 측정하였다. MLP 분류기의 은닉층은 1개, 노드의 개수는 50개로 설정하였고, 활성화 함수는 ReLU, 가중치 갱신은 Adam을 사용하였으며 최대 반복 횟수는 1000으로 설정하였다. Table 2는 Act34∼Act43 활성화 레이어에서 생성한 특징 벡터를 PCA에 의해 d차원으로 축소하여 MLP 분류기로 수종을 인식할 결과이다. 학습 과정에서 가중치 파라미터가 비결정적으로 이루어지기 때문에 이로 인한 인식률의 차이를 최소화하기 위하여 3회의 실험을 거쳐 얻은 평균 인식률을 구하였다.

Table 2. Correct recognition rate with different activation layers and dimensions​​​​​​​

MTMDCW_2020_v23n9_1155_t0002.png 이미지

특징 벡터의 차원을 50이나 25로 축소하였을 때 오히려 인식 성능이 약간 상승한 것은 MLP가 학습할 파라미터의 개수가 대폭 줄어들어 소량의 학습 데이터로도 다층 신경망에 대한 학습이 충분히 이루어졌기 때문으로 판단된다. 은닉층의 노드의 개수를 두 배로 늘려도 인식 성능은 유사하게 나타났으며, 은닉층의 개수를 2개로 늘렸을 때는 인식 성능이 저하되는 것으로 나타났다.

4.4 수종 인식 성능 비교

수피 식별에 대한 제안된 방법의 효과성을 비교하기 위하여 동일한 실험 데이터를 이용한 최근의 연구 결과들을 정리하여 Table 3에 제시하였다. 위에서 차례대로 3개의 연구는 국소이진패턴(LBP)를 기반으로 특징을 추출한 연구이고, 나머지는 DCNN으로 수피의 특징을 추출한 연구이다. S. Boudra 외[9]는 입력 영상으로부터 평균값, 중앙값, 최소값, 최대값, 분산값에 해당하는 영상을 만들어 각 영상을 매크로 이진패턴(MBP)으로 인코딩하고 이들을 연결하여 특징 벡터를 생성하였고, R. Ratajczak 외[2]는 통계적 LBP 특징과 30개의 빈(bin)을 갖는 색상 히스토그램으로 특징을 기술하였다. T. Le-Viet 외[10]는 그레이디언트 영상을 이용하여 LBP를 공간적으로 확장한 연구이다. M. Kim[16]은 사전 학습된 Mobile Net의 가중치를 미세 조정하여 수피를 식별하였다. Table 3에 제시된 제안된 방법의 인식 성능은 Act43 활성화 레이어의 출력을 PCA에 의해 50차원으로 축소하여 입력층과 은닉층 노드의 개수가 각각 50개인 다층퍼셉트론으로 분류한 결과이다. Table 3에 제시된 바와 같이 LBP 기반의 기존 연구들은 물론 MobileNet을 이용한 이전 연구에 비하여 ResNet50 모델과 MLP 분류기를 이용한 본 연구가 BarkTex는 물론 Trunk12 데이터세트에 대해서도 두드러진 인식 성능의 향상이 이루어졌음을 확인할 수 있었다.

Table 3. Performance comparison with different researches​​​​​​​

MTMDCW_2020_v23n9_1155_t0003.png 이미지

5. 결론

전통적으로 텍스처를 기술하는데 사용되어 왔던 국소이진패턴(LBP)를 기반으로 수피의 특징을 추출하려는 다양한 연구들이 이루어져 왔음에도 불구하고 수종 인식 성능은 크게 개선되지 못하였다. DCNN 이 컴퓨터비전 분야에서 많은 관심을 끌고 있으나 아직까지 수종 인식에 적용한 연구는 미미한 상태이다. 이것은 DCNN을 학습시키는데 필요한 대용량의 수피 영상 데이터를 확보하는 것이 어렵기 때문인 것으로 판단된다. 본 연구에서는 소량의 수피 영상 데이터를 DCNN에 적용하는 방법으로 DCNN의 학 습 과정을 과감히 없애고 사전 학습된 상용 DCNN 모델을 사용하는 접근 방식을 사용하였다. 수피 식별에 적합한 DCNN 모델을 탐색한 결과 ResNet50 모델이 수피의 특징을 효과적으로 추출함을 알 수 있었다. 이것은 ImageNet 데이터세트에 대하여 Inception V3와 DenseNet121 모델의 인식 성능이 ResNet50 모델보다 더 우수한 점을 감안할 때 주목할 만한 결과이다. ResNet50 모델에 존재하는 16개의 잔여 블록의 활성화 함수로부터 생성된 출력을 탐색하여 수피의 특징 벡터를 선택하고 이를 다층 퍼셉트론(MLP)으로 분류한 결과 기존의 인식 성능을 뛰어넘는 결과를 얻을 수 있었다. MLP의 입력으로 사용되는 특징 벡터를 주성분분석(PCA)를 통해 차원을 축소하는 것이 소량의 학습데이터로 MLP를 효과적으로 학습 시키는데 기여한 것으로 판단된다. 향후 과제는 본 연구의 접근 방식이 식물의 잎이나 꽃등에 동일하게 적용될 수 있는지 확인하는 것이고, 앙상블 기법을 통해 수종 인식의 성능을 개선하는 연구를 수행할 계획이다.​​​​​​​

References

  1. J. Waldchen and P. Mader, "Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review," Archives of Computational Methods in Engineering, Vol. 25, No. 1, pp. 507-543, 2018. https://doi.org/10.1007/s11831-016-9206-z
  2. R. Ratajczak, S. Bertrand, C.C. Junior, and L. Tougne, "Efficient Bark Recognition in the Wild," Proceedings of the International Conference on Computer Vision Theory and Applications, pp. 240-248, 2019.
  3. A. He and X. Tian, "Multi-organ Plant Identification with Multi-column Deep Convolutional Neural Networks," Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, pp. 20-25, 2016.
  4. Y. Zhao, X. Gao, J. Hu, Z. Chen, Z. Chen, and Z. Chen, "Tree Species Identification Based on the Fusion of Bark and Leaves," Mathematical Biosciences and Engineering, Vol. 17, No. 4, pp. 4018-4033, 2020. https://doi.org/10.3934/mbe.2020222
  5. L.J. Blaanco, C.M. Traviesco, J.M. Quinteiro, P.V. Hernandez, M.K. Dutta, and A. Singh, "A Bark Recognition Algorithm for Plant Classification Using a Least Square Support Vector Machine," Proceedings of the International Conference on Contemporary Computing, pp. 1-5, 2016.
  6. L. Nanni, A. Lumini, and S. Brahnam, "Survey of LBP Based Texture Descriptors for Image Classification," Expert Systems with Applications, Vol. 39, No. 3, pp. 3634-3641, 2012. https://doi.org/10.1016/j.eswa.2011.09.054
  7. M. Sule and J. Matas, "Kernel-mapped Histograms of Multi-scale LBPs for Tree Bark Recognition," Proceedings of the IEEE International Conference on Image and Vision Computing New Zealand, pp. 82-87, 2013.
  8. S. Boudra, I. Yahiaoui, and A. Behloul, "A Comparison of Multi-scale Local Binary Pattern Variants for Bark Image Retrieval," Proceedings of the International Conference on Advanced Concepts for Intelligent Vision Systems, pp. 764-775, 2015.
  9. S. Boudra, I. Yahiaoui, and A. Behloul, "Plant Identification Form Bark: A Texture Description Based on Statistical Macro Binary Pattern," Proceedings of the International Conference on Pattern Recognition, pp. 1530-1535, 2018.
  10. T.L. Viet and V.T. Hoang, "Local Binary Pattern Based on Image Gradient for Bark Image Classification," Proceedings of the International Conference on Signal Processing Systems, 11071, 2019.
  11. P. Barre, B.C. Stover, K.F. Muller, and V. Steinhage, "LeafNet: A Computer Vision System for Automatic Plant Species Identification," Ecological Imformatics, Vol 40, No. 4, pp. 50-56, 2017. https://doi.org/10.1016/j.ecoinf.2017.05.005
  12. Y. Park, S. Gang, J. Chae, and J. Lee, "Classification Method of Plant Leaf Using Dense Net," Journal of Korea Multimedia Society, Vol. 25, No. 5, pp. 571-582, 2018.
  13. S.H. Lee, C.S. Chan, P. Wilkin, and P. Remagnino, "Deep-plant: Plant Identification with Convolutional Neural Networks," Proceedings of the IEEE International Conference on Image Processing, pp. 452-456, 2015.
  14. M. Hu, H. Feng, Y. Yang, K. Xia, and L. Ren, "Tree Species Identification Based on the Fusion of Multiple Deep Learning Models Transfer Learning," Proceedings of the Conference on Chinese Automation Congress, pp. 2135-2140, 2018.
  15. M. Carpentier, P. Giguere, and J. Gaudreault, "Tree Species Identification from Bark Images Using Convolutional Neural Networks," Proceedings of the IEEE International Conference on Intelligent Robots and Systems, pp. 1075-1081, 2018.
  16. M. Kim, "Bark Identification Using a Deep Learning Model," Journal of Korea Multimedia Society, Vol. 22, No. 10, pp. 1133-1141, 2019.
  17. D. Jia, D. Wei, S. Richard, L.J. Li, K. Li, and F.F. Li, "ImageNet: A Large-scale Hierarchical Image Database," Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition, pp. 248-255, 2009.
  18. A. Krizhevsky, B. Sutskever, G.E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," Proceedings of the Advances in Neural Information Processing Systems, pp. 1097-1105, 2012.
  19. C. Szegedy. V. Vanhoucke, S. Ioffe, and J. Shlens, "Rethinking the Inception Architecture for Computer Vision," Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, pp. 2818- 2826, 2016.
  20. K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.
  21. G. Huang, Z. Liu, L. Maaten, and K.Q. Weinberger, "Densely Connected Convolutional Networks," Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, pp. 2261-2269, 2017.
  22. A.G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, et al., "Mobile Nets: Efficient Convolutional Netural Networks for Mobile Vision Applications," arXiv Preprint arXiv:1704.04861, 2017.