DOI QR코드

DOI QR Code

딥러닝 기반 다중 객체 추적 모델을 활용한 조식성 무척추동물 현존량 추정 기법 연구

A Study on Biomass Estimation Technique of Invertebrate Grazers Using Multi-object Tracking Model Based on Deep Learning

  • 박수호 ((주)아이렘기술개발 기업부설연구소) ;
  • 김흥민 ((주)아이렘기술개발 기업부설연구소) ;
  • 이희원 ((주)아이렘기술개발 기업부설연구소) ;
  • 한정익 ((주)아이렘기술개발 기업부설연구소) ;
  • 김탁영 ((주)아이렘기술개발 원격탐사팀) ;
  • 임재영 ((주)아이렘기술개발) ;
  • 장선웅 ((주)아이렘기술개발)
  • 투고 : 2022.05.04
  • 심사 : 2022.05.11
  • 발행 : 2022.06.30

초록

본 연구에서는 딥러닝 기반 다중 객체 추적 모델을 활용하여 수중드론으로 촬영된 영상으로부터 특정 해역의 조식동물 현존량을 추정하는 방법을 제안한다. 수중드론 영상 내에 포함된 조식동물을 클래스 별로 탐지하기 위해 YOLOv5 (You Only Look Once version 5)를 활용하였으며, 개체수 집계를 위해 DeepSORT (Deep Simple Online and real-time tracking)를 활용하였다. GPU 가속기를 활용할 수 있는 워크스테이션 환경에서 두 모델의 성능 평가를 수행하였으며, YOLOv5 모델은 평균 0.9 이상의 모델의 정확도(mean Average Precision, mAP)를 보였으며, YOLOv5s 모델과 DeepSORT 알고리즘을 활용하였을 때, 4 k 해상도 기준 약 59 fps의 속도를 보이는 것을 확인하였다. 실해역 적용 결과 약 28%의 과대 추정하는 경향이 있었으나 객체 탐지 모델만 활용하여 현존량을 추정하는 것과 비교했을 때 오차 수준이 낮은 것을 확인하였다. 초점을 상실한 프레임이 연속해서 발생할 때와 수중드론의 조사 방향이 급격히 전환되는 환경에서의 정확도 향상을 위한 후속 연구가 필요하지만 해당 문제에 대한 개선이 이루어진다면, 추후 조식동물 구제 사업 및 모니터링 분야의 의사결정 지원자료 생산에 활용될 수 있을 것으로 판단된다.

In this study, we propose a method to estimate the biomass of invertebrate grazers from the videos with underwater drones by using a multi-object tracking model based on deep learning. In order to detect invertebrate grazers by classes, we used YOLOv5 (You Only Look Once version 5). For biomass estimation we used DeepSORT (Deep Simple Online and real-time tracking). The performance of each model was evaluated on a workstation with a GPU accelerator. YOLOv5 averaged 0.9 or more mean Average Precision (mAP), and we confirmed it shows about 59 fps at 4 k resolution when using YOLOv5s model and DeepSORT algorithm. Applying the proposed method in the field, there was a tendency to be overestimated by about 28%, but it was confirmed that the level of error was low compared to the biomass estimation using object detection model only. A follow-up study is needed to improve the accuracy for the cases where frame images go out of focus continuously or underwater drones turn rapidly. However,should these issues be improved, it can be utilized in the production of decision support data in the field of invertebrate grazers control and monitoring in the future.

키워드

1. 서론

갯녹음이란 연안에 서식하는 엽상바닷말이 소실되 고 무절석회조류(Crustose coralline algae)가 암반 표면을 광범위하게 피복하면서 암반에 서식하던 해양생물의 종다양성과 생체량이 급격히 감소하여 바다 암반이 황 폐화되는 현상이다(Hwang et al., 2017). 갯녹음의 원인으로 해양오염의 증가, 지구 온난화로 인한 수온 상승 및 성게, 불가사리 등 해조류를 섭취하는 해양생물(조식동 물)이 증가하면서 해조류가 감소하는 것으로 추정된다 (Korea Fisheries Resources Agency, 2016). 갯녹음은 1980년 대부터 제주도와 남해안 일대에서 피해가 발생하였고, 1990년대 이후에는 동해 연안에도 그 피해가 관찰되기 시작하여 현재는 동해, 남해, 제주도 연안의 암반지역에 빈번하게 관찰된다(Choi, 2021). 최근 성게 개체수의 증가가 갯녹음의 주 생물학적 원인으로 주목되고 있다 (Choi et al., 2002). 갯녹음이 심화됨에 따라 해조 자원뿐만 아니라 기타 연안 수산자원의 감소에 따른 연안생태 계 보전 및 복원에 많은 노력이 필요하여 심각한 문제로 제기되고 있다(Kwon, 2008; Jung et al., 2019). 따라서 갯녹음으로부터 연안 수산자원 및 연안생태계 보전을 위한 갯녹음 유발 해양생물의 실태조사 및 모니터링이 필요한 실정이다.

갯녹음을 유발하는 해양생물의 조사를 위해 잠수부가 투입되어 일정한 간격으로 방형구를 해저면에 설치하여 방형구 내에 출현하는 해양생물의 사진을 촬영하 거나 직접 채집한다(Kim et al., 2014). 잠수부가 촬영한 사진을 분석하여 해양생물의 개체 수를 파악하는 경우, 개체 수를 정확하게 파악할 수 있으나 잠수조사는 짧은 잠수 시간과 수심의 제한으로 넓은 범위의 조사가 불가 능하다. 이로 인해 한정된 점 단위의 모니터링 결과를 광범위한 전체에 적용함으로써 해양생물 분포 실태 파악의 오차 발생 가능성이 크다. 또한, 반복적인 잠수 조사로 인하여 작업에 많은 인력, 시간, 비용, 위험성이 수반된다.

기존 잠수 조사 방식의 시·공간적 범위와 분석의 한계를 극복하기 위한 방안으로 다양한 수중 무인 이동체 (Unmanned Underwater Vehicle, UAV)를 이용한 조사 방식이 대두되고 있으며, 이 가운데 수중드론(Remote Operated Vehicle, ROV)을 이용한 해양 생태환경 모니터링 방식이 도입되고 있다. Ludvigsen et al. (2015)은 Synthetic Aperture SONAR를 이용하여 산호 서식지를 확인하였고, AUV (Autonomous Underwater Vehicle) 및 ROV를 활용하여 영상 촬영을 수행하여 서식지의 이미지 자료를 수집하였다. Buscher et al. (2020)은 캐나다의 Tl’ches 군도에서 수중드론을 이용하여 해양 생태 데이터 수집 능력을 평가하고 문화적으로 중요한 저서생물 25종 중 14종과 해조류 28종을 분류하여 문서화하였다. Lambertini et al. (2022)은 지속가능한 어업을 위한 생태계 조사를 위해 Blucy UUV (Unmanned Underwater Vehicle)을 개발하여 해저면의 생태 영상과 3D Cloud point, DSM (Digital Surface Model) 등 영상정보를 취득하였다.

수중드론을 이용한 영상 수집 시 잠수부 투입과 비교하여 수중 조사시간을 대폭 증가시킬 수 있다. 특히, 최근 컴퓨터 비전 분야의 딥러닝 기술 발달로 탐지 성능과 탐지 가능 대상물이 대폭 증가하면서 해양생물 모니터링에 적용을 위한 연구가 진행되고 있다. Qiu et al. (2019) 은 독성을 가진 해삼을 딥러닝 기반 객체 탐지 모델인 SSD (Single Shot Detector)를 활용하여 탐지하는 방법을 제안하였다. Gao et al. (2021)은 유해생물의 일종인 해파리 7종에 대해 딥러닝 기반 객체 탐지 모델인 YOLOv3를 활용하여 탐지하는 방법을 제안하였다.

갯녹음을 유발하는 해양생물의 효율적인 구제 및 관리가 이루어질 수 있도록 넓은 해역을 대상으로 해양생물 실태 조사가 필요하다. 또한 육안 판독과 비교하여 정확하고 신속하게 수중에서 수집된 영상정보를 이용하여 해양생물의 개체수, 시계열 변화 등을 파악하기 위한 탐지 기법이 요구된다. 따라서 본 연구에서는 수중 드론과 딥러닝 기법을 활용한 갯녹음 유발 해양생물을 탐지하고 집계할 수 있는 시스템을 제안하고자 한다.

2. 자료 및 방법

본 연구에서는 수중드론을 활용하여 조식동물 서식지의 데이터를 수집하였으며, 촬영된 영상 내에서 조식 동물을 탐지 및 개체수 집계를 위해 딥러닝 기반 객체 탐지 기술과 딥러닝 기반 객체 추적 기술을 활용하였다.

1) 연구 자료

본 연구에서는 조식동물 탐지를 위해 딥러닝 기반 객체 탐지 모델을 활용하였으며, 딥러닝 모델의 학습 및 최적화를 위해 딥러닝 모델 학습용 데이터셋을 구축하였다. 딥러닝 모델 학습용 데이터셋 구축을 위해서는 원시데이터 수집, 원천데이터 생산, 라벨링 데이터 생산의 과정을 수행하였다.

OGCSBN_2022_v38n3_237_f0001.png 이미지

Fig. 1. Raw data collection area.

원시데이터 수집을 위해 Blue Robotics사의 BlueROV를 활용하였으며, 수중 카메라는 GoPro사의 GoPro Hero 9 모델을 방수 케이스와 함께 수중드론에 탑재하여 촬영 하였다. 수집된 원시데이터는 mp4 형식의 동영상 데이터이며, 4 k (3,840×2,160 px) 해상도로 촬영되었다.

OGCSBN_2022_v38n3_237_f0002.png 이미지

Fig. 2. Remotely-operated vehicle (ROV) System for Raw data collection.

원천데이터(Source Data)는 원시데이터를 라벨링 작업에 투입하기 위해 필요한 전처리 등 정제 작업을 수행한 데이터를 의미하며, 원천데이터 생산을 위한 전처리는 데이터 분할, 차원 변환, 비식별화, 품질개선, 불량 데이터 선별 등이 포함될 수 있다. 본 연구에서는 원시 데이터 정제 과정에서 프레임 이미지 분할 작업과 이미지 화질 개선 작업, 불량 이미지 선별 작업을 수행하여 총 970분의 원시데이터로부터 3,238장의 원천데이터를 생산하였다.

Table 1. Specification table for ROV and camera system used for raw data collection

OGCSBN_2022_v38n3_237_t0001.png 이미지

ROV, remotely-operated vehicle.

프레임 이미지 분할 작업은 조식동물 탐지를 위한 딥러닝 모델의 학습용 데이터셋 구축에 활용될 이미지 데이터를 추출하는 과정으로 동영상을 구성하고 있는 프레임 이미지를 3–5초 간격으로 임의 추출하여 활용하였다.

이미지 화질 개선 작업은 수중 환경의 특수조건으로 인해 왜곡이 발생한 이미지의 화질을 개선하는 작업을 의미한다. 본 연구에서 활용된 원시데이터는 수중환경 이라는 특수한 조건에서 수집되어 이미지 내에서 딥러닝 모델이 특징 추출의 어려움이 있을 수 있어 이미지의 품질을 개선하기 위한 전처리를 수행하였다.

OGCSBN_2022_v38n3_237_f0003.png 이미지

Fig. 3. Comparison of before (a) and after(b)image quality improvement through data refining

태양광은 해수를 통과하는 과정에서 해수에 존재하는 물질(식물플랑크톤, 부유물질, 용존유기물)에 의해 흡수(Absorption), 산란(Scattering), 반사(Reflectance)를 거치는 광경로를 가지며 이를 통해 초기 입사 에너지가 수심에 따라 왜곡 및 소실될 수 있다(Wozniak and Dera, 2007). 이는 파장대에 따라 흡수, 산란, 반사되는 정도의 차이를 보이며 이로 인해 도달 가능한 최대 수심 차이가 발생한다. 따라서 수중영상은 수심에 따라 명도 왜곡으로 인해 대상물의 형상 정보 및 분광 정보가 소실된 상태로 저장될 가능성이 높으며, 이러한 이미지를 활 용하여 딥러닝 모델 훈련 시 검출 성능에 큰 영향을 미칠 수 있다. 본 연구에서는 수심에 따른 태양광 소실로 인한 명암 왜곡을 보정하기 위해 히스토그램 평활화 (Histogram Equalized) 기법 중 하나인 대비제한 적응 히스토그램 평활화(Contrast Limited Adaptive Histogram Equalization,CLAHE)와 히스토그램 스트레칭(Histogram Stretching)을 활용하였다.

불량 이미지 선별 작업은 프레임 이미지 분할 과정에서 추출된 이미지 중 학습용 데이터로 활용되기 어려운 데이터를 선별하는 작업을 의미한다. 본 연구에서는 대상물이 존재하지 않거나 초점이 맞지 않아 흔들린 이미지를 부적합 데이터로 정의하고 선별 작업을 통해 제거 하였다.

라벨링 데이터는 원천데이터에 부여한 참값(Ground Truth)으로 예측 대상에 대한 설명, 주석 등을 포함한 어노테이션(Annotation)을 학습 대상 딥러닝 모델의 입력 구조에 맞게 작성한 데이터 집합을 의미한다. 이미지 처리 또는 컴퓨터 비전을 위한 딥러닝 모델의 경우 이미지 데이터인 원천데이터와 라벨링 데이터가 쌍으로 구축되며, 원천데이터 내 대상물의 위치를 표시하는 방식에 따라 바운딩 박스(Bounding Box), 폴리곤(Polygon), 키포인트(Key Point)로 구분된다. 본 연구에서는 조식동물의 원천데이터 내 위치를 바운딩 박스로 어노테이션 하였다.

2) 연구 방법

본 연구에서는 조식동물 탐지를 위해 1-Stage 객체 탐지 모델인 YOLOv5를 활용하였으며, 탐지된 객체의 추적(Tracking)을 위해 DeepSORT 알고리즘을 활용하였다.

딥러닝 기반 객체 탐지 모델은 바운딩 박스의 추천과 추천된 바운딩 박스의 클래스 분류를 별도의 네트워크 구조로 수행하는 2-Stage 방식과 하나의 네트워크 구조로 수행하는 1-Stage 방식이 있다. 2-Stage 모델은 탐지 정확도가 우수하다는 장점이 있으나 학습 및 추론 시간이 느리다는 단점이 있으며, 1-Stage 모델은 학습 및 추론 시간이 빠르다는 장점이 있으나 2-Stage 모델에 비해 탐지 정확도가 다소 떨어진다는 단점이 있다.

1-Stage 모델은 Joseph Redmon et al. (2015)에 의해 처음 제안된 YOLO (You Only Look Once)가 대표적이며, 현재 YOLOv5까지 공개되어 있다. YOLO가 공개되기 전에 많이 활용되던 R-CNN 계열의 모델들이 관심영역 (Region of Interest) 검출과 분류(Classification)를 별도 작업으로 수행하던 것과 달리 YOLO는 관심영역 검출과 분류 문제를 단일 회귀(Regression) 문제로 재정의함으로써 하나의 신경망으로 1회 연산으로 바운딩 박스와 클래스 확률을 예측 가능하도록 구현하였다. 이를 통해 기존 방식에 비해 추론 속도를 개선할 수 있었으며, 실시간에 가까운 탐지를 가능케 하였다.

Table 2. Compare 1-stage and 2-stage models (Lin et al., 2018)

OGCSBN_2022_v38n3_237_t0002.png 이미지

YOLO는 2017년에 초기버전을 개선한 YOLOv2가 공개된 이후로 2018년에 YOLOv3가 공개되었으며, 이 때부터 2-Stage 방식의 모델인 R-CNN 계열의 모델과 탐지 정확도에 있어서도 차이를 보이지 않게 되었으며, 2020년에는 YOLOv4와 YOLOv5가 각각 공개되면서 최근에는 2-Stage 모델 대비 탐지 성능이 더 높은 사례들이 많이 보고되고 있다(Kim et al., 2020).

OGCSBN_2022_v38n3_237_f0004.png 이미지

Fig. 4. Performance of Deep Learning Models (Kim et al., 2020).

YOLOv4는 이전 버전의 모델의 정확도(mAP)와 검출 속도(FPS)를 개선하기 위한 다양한 기법들을 추가하였으며 YOLOv5는 YOLOv4와 유사한 성능을 보이면서 더 낮은 모델 파라미터 수와 더 빠른 검출 속도를 보인 다는 장점이 있다. 두 모델은 CSPNet 기반의 Backbone 을 활용한다는 유사점이 있으나, 둘 이상의 학습용 이미지를 서로 이어 붙여 학습하는 Mosaic data augmentation 과 Anchor Box를 K-means 알고리즘과 유전자 알고리즘을 활용하여 데이터셋에 맞게 최적화하는 Auto Learning Bounding Box Anchor를 적용하여 일부 데이터셋에서는 더 높은 성능을 보인다는 보고도 있다. 본 연구에서는 딥러닝 기반 조식동물 개체수 집계 프로그램의 추론 성능을 고려하여 유사한 성능에서 더 빠른 검출 속도를 보이는 YOLOv5를 활용하여 객체 탐지 기능을 구현하고자 하였다.

YOLOv5의 Backbone은 Model Depth Multiple과 Layer Channel Multiple에 따라 n (nano), s (small), m (medium), l (large), x (xlarge)의 5가지 네트워크로 구분된다. Model Depth Multiple은 Backbone의 BotteneckCSP 모듈의 반 복횟수를 의미하며, 반복횟수가 많을수록 더 깊은 모델을 생성할 수 있다. 반면 Layer Channel Multiple은각레이어의 합성곱 필터 수가 증가하게 되어 더 많은 특징 추출이 가능해진다. YOLOv5n 모델이 가장 작은 수의 Model Depth Multiple과 Layer Channel Multiple 값을 가지며, YOLOv5x 모델이 가장 큰 수를 가진다. 탐지 성능은 모델의 크기가 큰 YOLOv5x 모델이 일반적으로 가장 높으며, YOLOv5n 모델이 가장 낮은 탐지 정확도를 보인다. 탐지 속도는 모델의 크기와 반비례하므로 YOLOv5n 모델이 가장 빠른 속도를 보인다.

객체 탐지 모델은 동영상에서 추출된 이미지 내에 존재하는 대상물의 위치정보와 클래스 정보를 예측하므로 각 프레임에서 탐지된 결과물 간의 연관성은 파악할 수 없다. 따라서 동영상 데이터를 별도의 전처리 없이 객체 탐지 모델에 적용할 경우 매 프레임마다 반복적으로 등장하는 동일 객체에 대해 과대 추정 결과를 도출 할 수 있는 위험성을 내포하고 있다.

카메라 또는 플랫폼이 이동하는 방식으로 데이터를 수집하는 경우 상기 문제를 해결하기 위해 카메라(또는 플랫폼)의 이동 속도를 고려하여 동영상 내에서 특정 간격(시간 또는 프레임 수)으로 프레임 이미지를 추출 하여 객체 탐지 모델에 입력하는 방식을 활용하지만 대상물의 출현 빈도가 불규칙하거나 대상물의 피복 면적 변화가 큰 경우 오차가 크게 발생한다는 단점이 있다.

반면 동영상의 각 프레임에서 탐지된 동일 객체에 대해 ID (Identification)를 부여할 수 있는 객체 추적(Object Tracking) 기법을 적용하면 동일 객체에 대해 반복 집계 되는 문제를 해결할 수 있다. 객체 추적 기법은 배경 차감(Background Subtraction) 기법, Optical Flow기법, Frame Differencing 기법, Kernel 기반 기법 등이 있으며, 최근에는 딥러닝을 기반으로 구현된 방법들도 제안되고 있다. 본 연구에서는 Wojke et al. (2017)이 제안한 다중 객체 추적 알고리즘인 DeepSORT를 활용하여 YOLOv5를 통 해 탐지 된 객체에 ID를 부여하여 중복 문제를 해결한 집계 알고리즘을 구현하였다.

DeepSORT는 칼만 필터를 활용한 다중 객체 추적 알고리즘인 SORT의 ID Switching 문제를 해결하기 위해 Deep Appearance Descriptor를 추가한 알고리즘이다. ID Switching 문제는 추적 중인 대상물이 서로 교차하거나 방향을 전환하는 과정에서 이미 부여된 ID가 서로 뒤바뀌거나 전혀 다른 ID가 부여되는 현상을 의미한다. 기존의 SORT는 탐지된 바운딩 박스의 중첩 영역을 정량 화하여 IoU (Intersection over Union)가 높으면 서로 동일한 객체로 인식하기 때문에 서로 인접한 대상물이 서로 교차하는 상황이 발생하면 서로 다른 두 대상물의 IoU가 순간적으로 높게 평가되어 ID가 서로 뒤바뀔 수 있었다. DeepSORT를 이러한 문제를 해결하기 위해 합성곱 신경망을 활용한 Descriptor로 대상물의 특징 (Feature)을 추출하여 비교하는 방식을 추가하였다.

제안하는 딥러닝 기반 조식동물 개체수 집계 시스템은 데이터 전처리, 조식동물 탐지, 클래스별 ID 부여 순으로 작동하도록 구현되었다. 데이터 전처리 단계는 입력된 동영상 데이터에서 프레임 이미지를 분할하고 화질을 개선하는 작업을 수행하며, 화질 개선 작업은 데이터셋 구축 시 정제 작업에서 적용했던 방법을 동일하게 적용한다. 조식동물 탐지는 사전 학습된 YOLOv5 모델을 활용하여 대상물을 탐지하는 작업을 수행한다. 마지막 단계인 클래스별 ID 부여 단계에서는 DeepSORT 알고리즘을 활용하여 YOLOv5 모델이 출력한 바운딩 박스 정보(위치, 크기)를 토대로 이미지 내 조식동물을 클래스별로 추적하여 ID를 부여하며, 클래스별 ID수를 조사 해역의 총 개체수로 출력하는 작업을 수행한다.

OGCSBN_2022_v38n3_237_f0005.png 이미지

Fig. 5. Comparison of SORT and DeepSORT. SORT, simple online and real-time tracking; DeepSORT, deep simple online and real-time tracking.

OGCSBN_2022_v38n3_237_f0006.png 이미지

Fig. 6. The working process of an invertebrate grazers biomass estimation technique using a multi-object tracking model based on deep learning.

OGCSBN_2022_v38n3_237_f0007.png 이미지

Fig. 7. Comparison of biomass estimation methods between the proposed method (detection + tracking) and the object detection method.

3. 연구 결과 및 토의

1) 객체 탐지 및 추적 모델의 성능 평가 지표

본 연구에서는 전체 데이터셋의 10%를 임의 추출하여 객체 탐지 모델과 객체 추적 모델의 성능을 평가하는 데 활용하였다. 객체 탐지 모델의 성능은 mAP, Precision, Recall, F1-Score로 평가하였으며, 객체 추적 모델의 성능은 FPS로 평가하였다. 성능 평가는 GPU 가속기를 탑재한 워크스테이션 환경에서 수행하였으며, 객체 추적 모델의 속도 평가는 동일한 조건에서 3회 반복하여 평균값을 활용하였다.

Table 3. Specifications of workstation for object detection and tracking model testing

OGCSBN_2022_v38n3_237_t0003.png 이미지

mAP는 탐지 대상 클래스별로 Precision-Recall 그래프의 면적을 구한 AP (Average Precision)값을 평균하여 얻을 수 있으며. 이 때, Precision과 Recall은 Confusion Matrix를 통해 산출할 수 있으며, Confusion Matrix는 탐지 대상물이 2개인 경우 다음과 같이 정의할 수 있다.

Table 4. Example of confusion matrix

OGCSBN_2022_v38n3_237_t0004.png 이미지

또한 정확도 산출에 필요한 지표(Precision, Recall, AP) 는 다음과 같이 정의된다.

\(Precision = \frac{True\ Positive}{Ture\ Positive + False\ Positive}\)      (1)

\(Recall= \frac{True\ Positive}{Ture\ Positive + False\ Negative}\)       (2)

\(AP =\sum(Recall_{n+1} - Recall_n)Precision_{interp}(Recall_{n+1})\)      (3)

F1-Score는 Precision과 Recall의 조화평균 값이며, 다음과 같이 정의된다.

\(f_1 = \frac{2\cdot Precision \cdot Recall}{Precision+Recall}\)      (4)

FPS는 1초당 처리 가능한 프레임 수를 의미하며, 대상물이 존재하는 프레임의 처리에 소요되는 시간(프레임 시간)을 1초당 처리 가능한 프레임수로 환산하여 활용하였다.

2) 모델의 성능 평가 결과

객체 탐지 모델의 성능을 평가한 결과 선행연구 및 모델의 Jocher (2020)의 결과처럼 YOLOv5n 모델이  장 낮은 정확도를 보였으며, YOLOv5x 모델이 가장 높은 정확도를 보였다. Precision과 Recall을 기준으로 각 모델을 평가해보았을 때, Precision은 YOLOv5s 모델이 가장 높았으며, Recall은 YOLOv5x 모델이 가장 높은 값을 보였다. 조식동물 확산 방지를 위한 방제적 차원에서 볼때, 실제 조식동물의 대량으로 분포하고 있는 해역을 정확히 재현하는 능력인 Recall이 더 중요하다고 판단된다. 따라서 Precision보다 Recall에 더 높은 가중치 를 부여하는 F2-Score를 기준으로 보았을 때, YOLOv5x 모델이 방제적 측면에서 가장 적합한 모델로 판단된다.

Table 5. Comparison of accuracy evaluation results by YOLOv5 Backbone networks

OGCSBN_2022_v38n3_237_t0005.png 이미지

클래스별로비교한결과모든모델에서 성게(Echinoid) 클래스의 탐지 정확도가 불가사리(Starfish) 클래스의 탐지 정확도보다 높게 나타났으며, 이는 학습용 데이터셋에 불가사리보다 성게가 포함된 이미지 및 이미지 내 개 체수가 더 많은 것에 기인한 것으로 판단 된다.

Table 6. Comparison of invertebrate grazers detection performances by YOLOv5 Backbone networks

OGCSBN_2022_v38n3_237_t0006.png 이미지

객체 추적 모델의 성능 평가를 위해 앞서 학습시킨 YOLOv5 모델을 활용하여 다양한 입력 이미지 해상도 환경에서 속도를 측정한 결과 HD (High Definition) 해상도에서는 YOLOv5x 모델을 제외하고는 실시간(Real Time, 30 fps 이상) 추적이 가능하였으며, 데이터 수집 시 활용한 4 k 해상도에서는 YOLOv5n과 YOLOv5s를 활용했을 때만 실시간 추적이 가능하였다(Table 7).

Table 7. Comparison of inference speeds according to object detection models and input image resolution

OGCSBN_2022_v38n3_237_t0007.png 이미지

실해역 투입 상황을 가정하여 탐지 정확도와 추적 속도(분석 속도)를 고려한 모델별 성능평가를 실시하였다. 실해역 투입 시 30 fps의 촬영속도로 데이터 수집을 가정하였을 때, 시간당 108,000 프레임을 촬영하며, 이를 각 모델별로 분석 시간을 비교했을 때, YOLOv5x가 가장 많은 시간이 소요되었으며, YOLOv5n이 가장 적은 시간이 소요되었다. 탐지 정확도와 추적 속도를 모두 고려하여 비교하기 위해 각 항목(mAP, FPS)을 0에서 1까지의 수로 정규화한 후 조화평균하여 F1-Score를 기준으로 평가하였다. 평가 결과 YOLOv5s 모델과 DeepSORT 알 고리즘을 함께 활용하여 시스템을 구성하였을 때, 가장 높은 효율을 보이는 것으로 나타났다.

Table 8. Comparison of performances by YOLOv5 Backbone networks considering detection accuracy and inference speed

OGCSBN_2022_v38n3_237_t0008.png 이미지

Table 9. Comparison of the results of the proposed method on biomass estimation applied in the real field and the biomass estimation method using the object detection model

OGCSBN_2022_v38n3_237_t0009.png 이미지

3) 개체수 집계 정확도 평가

실해역에서 촬영한 검증용 동영상을 활용하여 특정 해역의 성게와 불가사리의 총 개체수를 파악하여 그 결과를 비교하였다. 비교 대상은 본 연구에서 제안하는 집계 방법인 YOLOv5와 DeepSORT를 활용한 방법과 원시동영상에서 각각 0.1초, 3초, 5초, 10초 간격으로 프레임 이미지를 추출하여 YOLOv5에 입력 후 그 결과를 집계하는 방식으로 설정하였으며, 정답값(Ground Truth) 과 비교하여 오차를 산출하였다. 비교결과 제안하는 방법은 성게와 불가사리 모두 과대추정하는 경향을 보였으나 객체 탐지 모델(YOLOv5)만 활용하는 방법에 비해서 오차가 적은 것을 확인할 수 있었다.

프레임 이미지 추출 간격을0.1초로 설정하여 YOLOv5에 입력하면 30 fps 동영상을 기준으로 3프레임 당 1프레임을 입력하여 탐지 결과를 산출하는 것을 의미한다. 이때, 특정 프레임 이미지에 대상물이 노출될 경우 수중드론의 이동속도에 비해 프레임 이미지의 전개 속도가 상대적으로 빠르기 때문에 동일한 대상물이 여러 번 집계에 반영될 수 있다. 실해역 적용 결과 실제 현존량 에 비해 추정된 값이 약 10배 정도로 과대 추정되었으며, 모든 프레임을 YOLOv5에 입력했을 경우 2–3배 가량 더 많은 추정치가 산출될 수 있다. 반면, 수중드론의 이동 속도를 고려하여 프레임 이미지 추출 간격을 3초, 5초, 10초로 조정하여 탐지 후 집계했을 때는 YOLOv5에 입력되는 이미지 간의 중복을 피할 수 있다는 장점이 있으나 동시에 YOLOv5에 입력되지 않는 구간이 존재할 가능성도 높아진다는 단점이 있다. 따라서 프레임 추출 간격이 길어짐에 따라 탐지에 활용되지 않는 구간이 발생할 확률도 높아지며 이로 인해 과소추정되는 경향도 강해진다.

4) 개체수 집계 추정 오류 발생 원인

제안하는 현존량 추정 방법을 적용 시 과대추정 경향이 나타나는 원인은 첫째, 객체 탐지 모델 자체의 정확도 의존성 문제(Case-1)와 둘째, 카메라 방향 전환 또는 초점 변화 시간이 길어지는 경우(Case-2)로 판단된다.

Case-1 문제의 경우 DeepSORT 알고리즘이 YOLOv5 의 탐지 결과(바운딩 박스 정보)를 바탕으로 객체 추적 을 하는 방식으로 작동하기 때문에 발생하는 문제이다. YOLOv5 모델에 입력된 각 프레임 이미지 내에서 대상물을 탐지하는데 실패한 경우 바운딩 박스 정보가 DeepSORT로 제대로 입력되지 않아 기부여된 ID가 유지되지 않고, 새로운 ID가 부여되는 현상이 발생할 수 있다.

Case-2 문제의 경우 촬영 과정에서 초점이 흐려져 YOLOv5가 대상물을 탐지하지 못함으로써 DeepSORT 가 ID 추적에 실패하여 초점이 복원된 이후에 동일한 대상에 대해 새로운 ID를 부여하는 과정에서 발생하는 문제이다. 조식동물 모니터링을 위한 영상 촬영은 수중에서 불규칙한 기복을 보이는 해저면을 향해서 이루어지기 때문에 수동 초점 모드(Manual Focus Mode)로 촬영할 수 없다. 현재 기술로 소형 수중드론의 자세와 해저면 간의 거리를 일정하게 유지하는 것은 어려우며, 피사체와의 거리가 불규칙할 경우 수동 초점 모드로 초점을 조정하는 것은 불가능하다. 그러나 자동 초점 모드 (Auto Focus Mode)로 촬영하게 될 경우 물방울 또는 수 중생물로 인해 해저면의 피사체에 대한 초점을 상실하는 경우가 발생하게 된다. 이때, 초점을 상실한 이후 다 시 해저면에 초점이 맞춰지는 시간 동안 촬영된 프레임 이미지들의 조식동물은 학습용 데이터에 포함되지 않은 특징으로 이루어져 있어 탐지 가능성을 저하시키게 된다.

상기 두 가지 오류는 모두 추적 대상물이 일정 시간 이상 소실 되었다가 다시 등장하면서 발생하는 문제로 DeepSORT의 Tracking Life Cycle 조정을 통해 개선 가능 하다.

DeepSORT는 추적하던 객체를 발견하지 못했을 때, 다시 나타날 가능성을 염두에 두고 “time since update” 변수를 활용하여 상태를 모니터링 한다. 만약 Max age 보다 time since update 변수의 값이 더 커지면 Track에서 해당 객체를 제거하며, Max age에 도달하기 전에 재등 장할 경우 time since update 변수를 0으로 초기화하여 다 시 추적 상태로 관리하게 된다. DeepSORT의 Max age는 30으로 설정되어 있어 30 fps 동영상을 기준으로 1초 이 내에 추적 객체가 재등장하지 않을 경우 제거된다. 따 라서 1초 이후 YOLOv5에 의해 재탐지되거나 초점이 복원되는 경우 새로운 ID가 부여되어 현존량이 과대추 정될수 있는 것이다. 따라서 DeepSORT의 Max age 조 정 통해 Tracking Life Cycle를 제어할 수 있다. Case-1과 2를 비교했을 때, 일반적으로 Case-2의 지속 시간(문제 발생부터 복원까지 걸리는 시간)이 길게 나타났다. Case-2의 경우 촬영 환경(광량, 촬영 해역의 생물상 등) 에 따라 차이를 보였으나 학습용 데이터 수집 기간 내 촬영 영상의 경우 4초 이내에 복원되었다. 따라서 최대 지속 시간을 4초로 가정하고 Max age를 120(30 fps×4 seconds)으로 조정 후 정확도를 재평가하였다.

DeepSORT의 Max age 조정 결과 성게와 불가사리 클래스 모두 현존량이 하향 조정되었다. Max age 조정 전 에는 두 클래스 모두 과대 추정 경향을 보였으나, 조정 후에는 두 클래스 모두 과소 추정 경향으로 반전되었다.

조식동물 탐지에 활용된 YOLOv5s 모델의 mAP (0.915)와 Recall (0.845)을 고려하였을 때, 이미지 내에 존재하는 대상물의 일부를 탐지하지 못할 수 있으며, 이로 인해 DeepSORT의 추적 단계에서 식별된 클래스별 ID의 수가 과소 추정되는 것이 합리적인 결과로 판단 된다. 그러나 두 클래스 모두 현존량이 과소추정되는 현상은 개선이 필요하다. 해당 문제에 대한 개선은 객체 탐지를 수행하는 수준에서 이루어져야 한다.

수중 환경은 탁도, 계절, 시간 등의 요인에 따라 매우 다양한 변화가 발생할 수 있다. 따라서 동일한 대상물이라 할지라도 이미지 데이터셋 내에 포함된 배경의 다양성에 따라 학습된 모델의 탐지 성능에 영향을 미칠 수 있다. 본 연구 기간 중 수집된 데이터는 대상 생물의 모든 서식환경을 포함하고 있지 않으므로 추후에는 데이터 수집 대상 해역과 시기를 확대하여 데이터셋을 보강함으로써 객체 탐지 모델의 성능 향상을 기대할 수 있 을 것으로 판단된다.

OGCSBN_2022_v38n3_237_f0008.png 이미지

Fig. 8. Examples of overestimation due to detection failure of YOLOv5.

OGCSBN_2022_v38n3_237_f0009.png 이미지

Fig. 9. Examples of overestimation due to loss of focus.

Table 10. Comparison of accuracy before and after max age adjustment of DeepSORT

OGCSBN_2022_v38n3_237_t0010.png 이미지

DeepSORT, deep simple online and real-time tracking.

4. 결론

본 연구에서는 수중드론을 활용하여 수집된 조식동물 영상으로부터 딥러닝 기반 객체 탐지 및 추적 모델을 활용하여 현존량을 추정하는 방법을 제안하였다. 제안하는 방법은 데이터셋 수준에서 정량적으로 평가하였고, 실해역 적용을 통해 실제 현존량과 비교하였다. 성능 평가 및 그 결과의 분석을 통해 다음과 같은 결론을 얻을 수 있었다.

1) 딥러닝 기반 객체 탐지 모델 중 하나인 YOLOv5 를 활용하여 수중 환경에서 촬영된 영상으로부터 성게 및 불가사리에 대한 탐지가 가능함을 확인하였다.

2) 딥러닝 기반 객체 추적 알고리즘 중 하나인 DeepSORT를 활용하여 특정 해역에서 촬영된 동영상 내에서 성게 및 불가사리에 대한 현존량(개 체수) 추정이 가능함을 확인하였다.

3) 수중 영상 특성 상 초점을 상실할 수 있으며, 이로 인해 DeepSORT의 객체 추적 성능에 부정적인 영향을 미칠 수 있다. 이 경우 DeepSORT 알고리즘의 Max age를 조정함으로써 개선 가능하다.

본 연구에서는 탐지 대상물이 성게와 불가사리로 2 종에 불과하여 향후에는 탐지 대상 조식동물의 확대 및 객체 탐지 모델의 성능 개선이 필요하다. 본 연구의 탐지 대상물에 포함되지 않은 조식동물 중 보호색 유무 및 서식지를 고려하여 수중 드론 시스템을 활용하여 탐지 가능성을 평가한 후 대상물을 확대할 필요가 있다. 또한 본 연구에서 객체 탐지 모델 학습에 활용한 학습용 데이터셋은 삼척과 영덕의 2개 해역에서 약 1년간 수집 되어 데이터셋에 포함된 사례가 다소 부족하다. 따라서 삼척과 영덕 이외 해역에서 촬영된 조식동물 이미지를 확보하여 데이터셋 내 다양성을 개선할 필요가 있다.

본 연구에서 제안하는 현존량 추정 기법을 활용하면, 단위 시간 당 모니터링 가능한 공간적 범위를 확대할 수 있으며 정량적인 분석 결과 및 시계열자료 생산이 가능 할 것으로 판단된다. 또한 전국 지방자치단체 및 관련 공공기관에서 수행되고 있는 갯녹음 모니터링, 조식동물 구제, 바다숲 조성 사업을 위한 과학적 의사결정 지원자료 제공이 가능할 것으로 보이며, 이를 통해 사업 성과의 확대 및 예산절감이 가능할 것으로 기대된다.

참고문헌

  1. Buscher, E., D.L. Mathews, C. Bryce, K. Bryce, D. Joseph, and N.C. Ban, 2020. Applying a low cost, mini Remotely Operated Vehicle (ROV) to assess an ecological baseline of an indigenous seascape in Canada, Frontiers in Marine Science, 7: 669. https://doi.org/10.3389/fmars.2020.00669
  2. Choi, C.G., M. Ohno, and C.H. Sohn, 2002. Seaweed Succession on Artificial Reefs Placed in Different Depths at Ikata, Japan, Journal of Fisheries Science and Technology, 5(4): 281-286. https://doi.org/10.5657/fas.2002.5.4.281
  3. Choi, I.H., 2021. A Study on the Managements and Distribution Characteristics of the Barren Ground in the Coastal Waters of East Sea, Korea, Chonnam National University, Gwangju, Korea.
  4. Korea Fisheries Resources Agency, 2016. Investigation of the cause of barren ground and establishment of countermeasures: barren ground restoration advancement project by sea area, Korea Fisheries Resources Agency, Busan, Korea.
  5. Gao, M., Y. Bai, Z. Li, S. Li, B. Zhang, and Q. Chang, 2021. Real-Time Jellyfish Classification and Detection Based on Improved YOLOv3 Algorithm, Sensors, 21(23): 8160. https://doi.org/10.3390/s21238160
  6. Hwang, S.I., D.K. Kim, B.J. Sung, S.K. Jun, J.I. Bae, and B.H. Jeon, 2017. Effects of Climate Change on Whitening Event Proliferation the Coast of Jeju, Korean Journal of Environment and Ecology, 31(6): 529-536. https://doi.org/10.13047/KJEE.2017.31.6.529
  7. Jocher, G., 2020. Ultralytics/yolov5, https://github.com/ultralytics/yolov5.git, Accessed on May 17, 2022.
  8. Jung, S.W., B.H. Jeon, and C.G. Choi, 2019. Characteristics of Summer Marine Algal Community and Barren Ground in the Southern Coast of Jeju, Korea, Journal of the Korean Society of Marine Environment & Safety, 25(2): 212-219. https://doi.org/10.7837/kosomes.2019.25.2.212
  9. Kim, C.S., Y.S. Kim, H.G. Choi, and K.W. Nam, 2014. Variations of Seaweed Community Structure and Distribution of Crustose Coralline Algae at Gallam, Samchuk, Eastern Coast of Korea, Korean Journal of Environment and Ecology, 28(1): 10-23. https://doi.org/10.13047/KJEE.2014.28.1.10
  10. Kim, J.A., J.Y. Sung, and S.H. Park, 2020. Comparison of Faster-RCNN, YOLO, and SSD for real-time vehicle type recognition, Proc. of 2020 IEEE International Conference on Consumer Electronics-Asia (ICCE-Asia), Seoul, Korea, Nov. 1-3, pp. 1-4. https://doi.org/10.1109/ICCE-Asia49877.2020.9277040
  11. Kwon, H.O., 2008. Manual of seaweed restoration in whitening coastal area, Pukyong National University, Busan, Korea.
  12. Lambertini, A., M. Menghini, J. Cimini, A. Odetti, G. Bruzzone, M. Bibuli, E. Mandanici, L. Vittuari, P. Castaldi, M. Caccia, and L. De Marchi, 2022. Underwater Drone Architecture for Marine Digital Twin: Lessons Learned from SUSHI DROP Project, Sensors, 22(3): 744. https://doi.org/10.3390/s22030744
  13. Lin, T.Y., P. Goyal, R. Girshick, K. He, and P. Dollar, 2017. Focal loss for dense object detection, Proc. of 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 22-29, pp. 2980-2988. https://doi.org/10.1109/ICCV.2017.324
  14. Ludvigsen, M., T. Thorsnes, R.E. Hansen, A.J. Sorensen, G. Johnsen, P.A. Lagstad, O. Odegard, M. Candeloro, S.M. Nornesm, and C. Malmquist, 2015. Underwater vehicles for environmental management in coastal areas, Proc. of OCEANS 2015-Genova, Genova, Italy, May 19-21, pp. 1-6. https://doi.org/10.1109/OCEANS-Genova.2015.7271728
  15. Qiu, Z., Y. Yao, and M. Zhong, 2019. Underwater sea cucumbers detection based on pruned SSD, Proc. of 2019 IEEE 3rd Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC), Chongqing, China, Oct. 11-13, pp. 738-742. https://doi.org/10.1109/IMCEC46724.2019.8983935
  16. Wozniak, B. and J. Dera, 2007. Light absorption in sea water, Springer-Verlag, New York, NY, USA.
  17. Wojke, N., A. Bewley, and D. Paulus, 2017. Simple online and realtime tracking with a deep association metric, Proc. of 2017 IEEE International Conference on Image Processing (ICIP), Beijing, China, Sep. 17-20, pp. 3645-3649. https://doi.org/10.1109/ICIP.2017.8296962