Realtime Detection of Benthic Marine Invertebrates from Underwater Images: A Comparison betweenYOLO and Transformer Models

Ganghyun Park;Suho Bak;Seonwoong Jang;Shinwoo Gong;Jiwoo Kwak;Yangwon Lee;

doi:10.7780/kjrs.2023.39.5.3.3

Korean Journal of Remote Sensing (대한원격탐사학회지)

Volume 39 Issue 5_3
/
Pages.909-919
/
2023
/
1225-6161(pISSN)
/
2287-9307(eISSN)

Korean Society of Remote Sensing (대한원격탐사학회)

DOI QR Code

Realtime Detection of Benthic Marine Invertebrates from Underwater Images: A Comparison betweenYOLO and Transformer Models

수중영상을 이용한 저서성 해양무척추동물의 실시간 객체 탐지: YOLO 모델과 Transformer 모델의 비교평가

Ganghyun Park (Department of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyong National University) ;
Suho Bak (Research Institute, IREM Tech Inc.) ;
Seonwoong Jang (IREM Tech Inc.) ;
Shinwoo Gong (Bukyeong Ocean Engineering and Consultants Inc.) ;
Jiwoo Kwak (ALLBIGDAT Inc.) ;
Yangwon Lee (Department of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyong National University)

박강현 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공) ;
박수호 ((주)아이렘기술개발 기업부설연구소) ;
장선웅 ((주)아이렘기술개발) ;
공신우 ((주)부경해양기술) ;
곽지우 ((주)올빅뎃) ;
이양원 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공)

Received : 2023.09.30
Accepted : 2023.10.14
Published : 2023.10.31

https://doi.org/10.7780/kjrs.2023.39.5.3.3 Citation PDF HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Benthic marine invertebrates, the invertebrates living on the bottom of the ocean, are an essential component of the marine ecosystem, but excessive reproduction of invertebrate grazers or pirate creatures can cause damage to the coastal fishery ecosystem. In this study, we compared and evaluated You Only Look Once Version 7 (YOLOv7), the most widely used deep learning model for real-time object detection, and detection tansformer (DETR), a transformer-based model, using underwater images for benthic marine invertebratesin the coasts of South Korea. YOLOv7 showed a mean average precision at 0.5 (mAP@0.5) of 0.899, and DETR showed an mAP@0.5 of 0.862, which implies that YOLOv7 is more appropriate for object detection of various sizes. This is because YOLOv7 generates the bounding boxes at multiple scales that can help detect small objects. Both models had a processing speed of more than 30 frames persecond (FPS),so it is expected that real-time object detection from the images provided by divers and underwater drones will be possible. The proposed method can be used to prevent and restore damage to coastal fisheries ecosystems, such as rescuing invertebrate grazers and creating sea forests to prevent ocean desertification.

Keywords

1. 서론

저서성 해양무척추동물은 해양 바닥의 모래, 진흙 또는 바위 위에서 서식하는 무척추동물로서, 해양 생태계 양분순환과안정성유지에기여하는중요한구성원이다. 하지만 이 중 해조류를 먹이로 삼는 조식동물이나, 다른 해양 생물체에 부착하여 기생하는 해적생물이 과도하게 번식하여 개체수가 늘어나게 되면, 연안어장 생태계에 피해를 야기할 수 있다. 대표적인 피해로는 미역, 다시마, 모자반, 감태 등의 해조류가 고사하거나 일부가 소실된 이후 무절석회조류(crustose coralline algae)가 암반에 피복되는 갯녹음 현상이 있다(National Institute of Fisheries Science, 2010). 갯녹음은 해조류가 줄어들고 무절석회조류가 확산되어 해조류의 서식지를 대체하는 현상이며, 이로 인해 바다숲이 사라져 바다 사막화 현상이 발생하기도 한다. 바다 사막화는 해양 생태계의 변화를 초래하여 생물 다양성 감소와 생태계 파괴로 이어진다. 해조류를 포함한 해양무척추동물들의 균형 있는 번식과 생태계 내에서의 역할 유지는 해양 생태계 보전과 지속 가능한 어장 관리를 위해 중요하다. 이를 위해 조식동물과 해적생물의 개체 수를 적정 수준으로 조절함으로써 해양 생태계의 균형 유지를 위해 노력할 필요가 있다(Yoo et al., 2007).

최근에는 우리나라 연안에서도 갯녹음 현상이 심각해지고 있다. 초분광 항공영상 촬영을 통한 분석에 따르면, 조사대상 암반 37,563 ha (동해 13,425 ha, 남해 8,815 ha, 제주 15,324 ha) 중에서 20.7%인 7,773 ha가 갯녹음 진행, 13.1%인 4,923 ha가 갯녹음 심각 상태로 나타났다(Korean Fisheries Resources Agency, 2020). 이러한 갯녹음 문제에 대처하기 위해서 바다숲 조성이나 조식동물 구제작업이 수행되고 있는데, 효율적인 조식동물 구제 작업을 위해서는 넓은 해역에 대한 해양생물 실태조사가 선행되어야 한다. 지금까지는 잠수부가 투입되어 직접 조사하거나, 잠수부가 촬영한 영상을 육안으로 분석하는 방식으로 조사가 이루어지고 있으나, 많은 시간과 인력을 필요로 한다.

최근 컴퓨터비전(computer vision)과 인공지능(artificial intelligence)의 발전에 따라 Red-Green-Blue (RGB) 영상뿐만 아니라 다양한 분광대역의 위성영상에 딥러닝 영상인식을 적용하는 연구가 활발히 이루어지고 있다. 잠수부나 수중드론에 의해 촬영된 수중영상에 대해서도 딥러닝 객체탐지 사례가 다수 존재하는데(Dakhil and Khayeat, 2022), regions with convolutional neural networks (RCNN)과 그 후속 모델인 Fast RCNN, Faster RCNN을 사용하거나(Han et al., 2020; Jesus et al., 2022; Wang and Xiao, 2023; Chen et al., 2023; Liu et al., 2022) You Only Look Once (YOLO) 시리즈 모델을 사용한 해양생물 탐지(Pedersen et al., 2019; Athira et al., 2021; Rosli et al., 2021; Zhong et al., 2022; Jesus et al., 2022; Wang and Xiao, 2023; Liu et al., 2023; Chen et al., 2023; Liu et al., 2022; Bak et al., 2023) 그리고 트랜스포머 계열인 detection transformer (DETR)과 Swin Transformer 등을 사용한 해양생물 탐지(Liu et al., 2022; 2023) 등이 있다. 그런데 이러한 선행 연구들은 해삼, 성게, 가리비, 불가사리 등의 클래스로 분류된 Underwater Robot Professional Contest 데이터셋에 국한되어 중국에서 수집한 영상을 대상으로 하는 경우가 대부분이었고, 우리나라 연안을 대상으로 하는 연구는 충분히 진행되지는 않았다.

본 연구에서는 우리나라 연안 환경에 적용 가능하도록 한국지능정보사회진흥원에서 구축한 연안어장 생태환경 피해 유발 해양생물 데이터(National Information Society Agency, 2023)를 사용하고, 실시간 객체탐지를 위한 딥러닝 모델에서 가장 널리 사용되는 YOLO 모델과 최근 새로운 접근법으로 개발된 트랜스포머(transformer) 모델을 비교평가 함으로써, 향후 현업활용을 위한 방법론 평가의 근거를 마련하고자 하였다. 해당 데이터셋은 저서성 해양무척추동물은 보라성게(Heliocidaris crassispina), 말똥성게(Hemicentrotus pulcherrimus), 소라(Turbo cornutus), 고둥(conch), 군소(sea hare)와 같은 조식동물 5종과 별불가사리(Asterina pectinifera), 아무르불가사리(Asterias amurensis)와 같은 해적생물 2종을 포함한다. 실시간 객체탐지 모델은 convolutional neural network (CNN)계열의 YOLOv7과 트랜스포머 계열의 DETR을 사용하였다. 최근 트랜스포머 계열 모델의 도입과 함께 실시간 객체탐지에 있어서, YOLO 시리즈와 DETR 모델의 비교평가가 수행되는 추세인데, 우리나라 저서성 해양무척추동물의 객체탐지에 있어서는 처음으로 두 계열 모델의 비교평가를 수행하였다.

2. 자료와 방법

2.1. 사용자료

AI 허브 사이트(https://www.aihub.or.kr/)에 등재되어 있는 저서성 해양무척추동물의 수중영상은 2022년 제주, 동해, 거제, 부산, 포항, 통영, 영덕 등지에서 잠수부가 촬영한 것으로서(Table 1), 프레임 추출과 바운딩 박스 형태의 레이블링 작업을 거쳐 가로 3,840, 세로 2,160 픽셀의 RGB 영상 193,005장에 821,970개의 객체를 담고 있다. 이 데이터셋은 수심에 따른 태양광 소실로 인한 명암 왜곡을 보정하기 위하여 contrast limited adaptive histogram equalization (CLAHE) 및 히스토그램 스트레칭(histogram stretching)의 전처리를 거쳤다(Bak et al., 2022). 본 연구에서는 이 중에서 임의추출한 22,972장의 영상을 사용하였으며, 이를 8:1:1로 셔플링(shuffling)하여 훈련영상 18,378장, 검증영상 2,297장, 평가영상 2,297장으로 분할하였고, 클래스별 객체 수는 Table 2와 같다. 총 객체 수는 89,771개이고, 고둥 클래스가 36,238개로 가장 많으며, 모든 클래스는 1,000개 이상의 객체를 가진다.

Table 1. Data collection sites and the number of objects

OGCSBN_2023_v39n5_3_909_t0001.png 이미지

Table 2. Number of objects for each class in training, validation, and test datasets

OGCSBN_2023_v39n5_3_909_t0002.png 이미지

2.2. 사용 모델

본 연구에서는 우리나라 연안에서 수집한 수중영상을 기반으로 저서성 해양무척추동물을 실시간으로 탐지하는 CNN 계열 모델 중 대표적인 YOLOv7과 트랜스포머 계열의 모델인 DETR을 사용하였다.

2.2.1. You Only Look Once Version 7 (YOLOv7)

YOLOv7 네트워크는 입력 터미널(input terminal)과 백본(backbone), 넥(neck), 헤드(head) 섹션으로 구성된 1단계 검출기(one-stage detector) 구조이다(Wang et al., 2022).

백본 섹션은 convolutional block series(CBS), enhanced efficient layer aggregation network (E-ELAN) 그리고 MaxPool1 (MP1)으로 구성되어 있다. CBS는 합성곱(convolution), 배치 정규화(batch normalization)및 sigmoid-weighted linear unit (SiLU) 활성화 함수를 포함한다. E-ELAN 모듈은 기존의 ELAN의 디자인 아키텍처를 유지하면서 다양한 특징을 학습하도록 함으로써, 원래의 기울기(gradient) 경로를 보존하고 네트워크의 학습 능력을 향상시킨다. MP1의 상단 브랜치(branch)에서는 맥스풀(MaxPool)을 사용하여 이미지의 길이와 너비를 절반으로 줄이고, CBS를 통해 128개의 출력 채널을 가진 이미지 채널을 절반으로 줄인다. 하단 브랜치는 1 × 1 커널(kernel)과 스트라이드(stride)를 사용하여 이미지 채널을 절반으로 줄이고, 3 × 3 커널과 2 × 2 스트라이드의 CBS를 사용하여 이미지 길이와 너비를 절반으로 줄인다. 그리고 상단과 하단 브랜치(branch)에서 추출된 특징맵(feature map)이 연결(concatenation) 연산을 통해 결합된다. 맥스풀(maxpool)은 작은 지역 영역에서 최대값 정보를 추출하고, CBS는 작은 지역 영역의 모든 값 정보를 추출함으로써 네트워크의 특징맵 추출 능력을 향상시킨다.

Neck 섹션은 여러 CBS 블록과 spatial pyramid pooling (SPP)와 convolutionalspatial pyramid pooling (CSPP) 구조, E-ELAN및MaxPool2 (MP2)로구성되어있다. SPP/CSPP 구조는 네트워크의 인지 필드를 개선하고, 최적화 및 특징맵 추출을 원활하게 하기 위해 잔차 엣지(residual edge)를 도입한다. E-ELAN을 기반으로 특징 레이어들을 결합한 ELAN-H 레이어는 특징맵 추출을 더욱 고도화한다. MP2 블록은 출력 채널 수 이외에는 MP1 블록과 유사한 구조를 가진다.

헤드 섹션에서는 추출된 특징맵의 채널 수를 조정하기 위해 re-parameterized convolution (RepConv)을 사용하는데, 이는 간단한 합성곱 연산을 통해 잔차 및 연결 연산을 재구조화 하여 네트워크의 복잡성을 줄이면서 예측 성능을 유지하게 한다.

본 연구에서 YOLOv7 모델 학습 시에는 stochastic gradient descent (SGD) 옵티마이저(optimizer)를 사용하였다. 이때 하이퍼파라미터(hyperparameter)는 초기 학습률(learning rate) 0.01에서 최종 학습률 0.001까지 점진적으로 감소하도록 적용하였고, SGD의 모멘텀(momentum) 항은 0.937, 가중치 감쇠(weight decay)는 0.0005로 설정하였다. 또한, Microsoft Common Objects in Context (COCO) 데이터셋으로 사전 학습된 가중치 체계를 사용하여 전이학습을 수행하였다.

OGCSBN_2023_v39n5_3_909_f0001.png 이미지

Fig. 1. Architecture of YOLOv7 (Wang et al., 2022).

2.2.2. Detection Transformer (DETR)

DETR의구조는백본,위치인코딩(positional encoding), 트랜스포머 인코더(transformer encoder), 트랜스포머 디코더(transformer decoder)그리고헤드로구성된다(Carion et al., 2020). 백본에서는 residual neural network (ResNet)와 EfficientNet 등의 CNN 모델로 특징맵을 추출하고, 위치 인코딩을 통해 각 위치의 임베딩(embedding) 벡터에 공간정보를 추가한다. 생성된 특징맵과 위치 인코딩 벡터는 트랜스포머 인코더의 입력으로 들어간다. 트랜스 포머 인코더는 여러 개의 합성곱 레이어와 풀링(pooling) 레이어로 구성되어 있으며, 영상의 공간정보를 유지하면서 점진적으로 추상화된 특징맵을 생성한다. 각 레이어는 셀프 어텐션(self-attention)에 기반한 feed-forward neural networks (FFN)로 구성되어 있다. 셀프 어텐션은 입력 시퀀스 내의 각 원소들 간의 상호작용을 모델링하여 채널 및 공간적인 정보의 차별적 중요도를 표현하며, 이러한 셀프 어텐션의 출력은 다중 퍼셉트론(multi-layer perceptron, MLP)으로 이루어진 FFN이 입력으로 받아 활성화함수를 거쳐 추상화된 특징을 학습할 수 있게 한다. 그리고 트랜스포머 인코더의 출력 및 임베딩과 동일한 개수의 객체 쿼리(object queries)가 트랜스포머 디코더의 입력으로 사용된다. 트랜스포머 디코더는 입력 시퀀스의 다양한 관계와 특징을 감지하여 최종적으로 헤드에서 FFN을 거쳐 객체의 위치와 클래스를 추론한다.

본 연구에서는 DETR의 백본으로 ResNet-50을 사용하였으며, 옵티마이저는adaptivemoment estimation (ADAM)에 가중치 감쇠를 적용함으로써 과적합(overfitting) 방지에 적합한 AdamW를 사용하였다(Loshchilov and Hutter, 2017). 가중치 감쇠 계수는 0.0001로 설정하였고, 10%의 드롭아웃(drop out)을 적용하였으며, 에퍽은 300으로 하였다. YOLOv7과 마찬가지로 COCO 데이터셋으로 사전 학습된 가중치를 사용하여 전이학습을 수행하였다.

2.3. 성능평가 지표

YOLOv7과 DETR 모델의 성능평가에는 객체탐지 분야의 표준 지표인 mean average precision (mAP)을 사용하였는데, 이 측도는 정밀도(precision)와 재현율(recall) 사이의 트레이드오프(trade-off)를 고려한 것이다. 정밀도는 모델에서 클래스별로 참(true)으로 추론한 결과가 실제로 참인 비율로서, 정밀도가 좋지 않다면 과대탐지(overestimation) 경향이 있는 것이다. 재현율은 클래스별로 실제 참인 케이스 중에서 모델이 참으로 추론한 비율로서,재현율이좋지않은것은과소탐지(underestimation) 경향을 의미한다. 정밀도-재현율 곡선(precision-recall curve)은 정밀도와 재현율의 관계를 나타낸 것으로, 곡선 아래 영역(area under curve, AUC)으로부터 AP를 구할 수 있고, 전체 클래스의 AP를 평균하여 mAP로 나타낸다. 추론 결과와 레이블 사이의 교집합 대 합집합 비율을 intersection over union (IoU)으로 표현하는데, mAP@0.5는 IoU≥0.5일 때의 mAP를 말한다. mAP@0.5는 컴퓨터비전과 원격탐사 분야에서 객체탐지 성능평가의 표준 측도로 사용되며, 0에서 1 사이의 값을 가지는데 1에 가까울수록 탐지 성능이 좋은 모델이라고 할 수 있다.

3. 결과 및 고찰

3.1. 실험 결과

학습된 YOLOv7과 DETR 모델은 2,297장의 평가 데이터셋을 사용하여 예측을 수행한 후, 예측한 바운딩 박스와 정답(ground truth) 바운딩 박스를 비교하여 클래스별 AP@0.33과 mAP@0.33, 그리고 AP@0.5와 mAP@0.5를 구하였다. YOLOv7과 DETR 모델의 클래스별 정확도를 비교해 보면, 별불가사리를 제외한 모든 클래스에서 YOLOv7 모델이 DETR 모델의 성능을 상회하였다. YOLOv7 모델은 mAP@0.33=0.913, mAP@0.5=0.899를 기록하였고, DETR 모델은 mAP@0.33=0.886, mAP@0.5=0.862로 나타나 YOLOv7이 근소하게 높은 정확도로 저서성 해양무척추동물을 탐지할 수 있었다. AP@0.5를 기준으로 클래스 별로 결과를 살펴보면, 아무르불가사리, 별불가사리, 보라성게, 그리고 군소는 두 모델 모두 0.9 이상의 높은 정확도를 기록했다. 하지만, 소라는 YOLOv7 모델에서 0.9에 가까운 값을 보이는 반면, DETR 모델에서는 0.836를 기록하였다. 고둥과 말똥성게는 0.8 미만의 AP를 기록하였으며, 고둥의 경우 YOLOv7이 AP@0.5=0.783, DETR이 AP@0.5=0.636으로 두 모델 간 성능 차이가 크게 나타났다. Intel i9-12900K와NVIDIA RTX 3090Ti 환경에서 모델의 추론속도는 배치 크기(batch size) 1을 기준으로 YOLOv7이 145.42 frames per second (FPS), DETR이 31.25 FPS를 기록하여 YOLOv7 모델이 DETR 모델보다 약 5배 빠른 처리 속도를 보여 주었다.

OGCSBN_2023_v39n5_3_909_f0002.png 이미지

Fig. 2. Architecture of DETR (Carion et al., 2020).

Table 3. AP values of YOLOv7 and DETR for each class

OGCSBN_2023_v39n5_3_909_t0003.png 이미지

3.2. 고찰

YOLOv7은 mAP@0.5=0.899, DETR은 mAP@0.5=0.862로서 두 모델 모두 전반적으로 높은 정확도를 보였다. 별불가사리, 아무르불가사리, 보라성게, 군소는 객체의 크기가 크고 색깔이나 모양이 뚜렷하기 때문에 두 모델 모두 높은 정확도로 탐지할 수 있었고, 바위 색과 비슷한 보호색을 띠고 있는 소라, 고둥, 말똥성게는 상대적으로 탐지 정확도가 낮았다. 특히, 고둥은 객체의 크기가 작으며 작은 바위와 생김새가 비슷하기 때문에, 암석을 고둥으로 오인하거나 고둥을 암석으로 오인하는 경우가 일정정도 나타났다. YOLOv7은 고둥 클래스에서 AP@0.5=0.783, DETR은 AP@0.5=0.636의 결과를 보였는데, DETR 구조 중 셀프 어텐션과 객체 감지에서 검출한 객체와 모델이 예측한 객체 간 매칭을 수행하는 이분 매칭(bipartite matching) 과정에서 작은 객체 간 매칭이 올바르게 이루어지지 않는 경우가 있어, 이로 인해 DETR이 정확도가 상대적으로 낮은 것으로 판단된다(Zhu et al., 2020). 이에 반해 YOLOv7은 다양한 크기의 객체를 탐지할 수 있도록 멀티스케일로 바운딩 박스를 생성하는 구조이기 때문에(Wang et al., 2022) 크기가 작은 고둥을 보다 잘 탐지한 것으로 사료된다(Fig. 4). 그리고 바위에 붙어있는 생물들과는 달리, 보라성게와 말똥 성게는 바위 틈새에 존재하는 경우가 많다. 보라성게는 말똥성게에 비해 가시가 길고 색이 어둡기 때문에 바위색과 대비되어 탐지가 잘 되는 반면, 말똥성게는 가시가 작고 바위 등의 배경과 유사한 색을 띠고 있어 상대적으로 탐지 성능이 낮게 나온 것으로 사료된다(Fig. 5).

객체탐지 신뢰도(confidence score)에 있어서는 DETR 모델이 YOLOv7에 비해 높은 수치를 산출했다. 신뢰도는 객체가 바운딩 박스 내 존재할 확률을 나타내는 값으로, 바운딩 박스 상단 클래스 이름 옆에 표기되어 있다(Figs. 3–6). 그러나 DETR 모델에서는 배경 클래스를 저서성 해양무척추동물 클래스로 오인한 경우에도 역시 신뢰도가 높은 수치로 나타나는 것을 확인할 수 있는데, 이는 DETR 모델이 YOLOv7에 비해 과대확신(overconfidence)하는 경향이 있다고 볼 수 있다.YOLOv7은 0.75 이상의 높은 신뢰도를 보이는 경우도 많았으나 대체로보수적인신뢰도를산출하였는데,이는YOLOv7이 상대적으로 신중하면서도 신뢰할 수 있는 모델이기 때문이라고 할 수 있다.

OGCSBN_2023_v39n5_3_909_f0003.png 이미지

OGCSBN_2023_v39n5_3_909_f0004.png 이미지

Fig. 3. Ground truth and detection results of YOLOv7 and DETR. (a) Heliocidaris crassispina, Hemicentrotus pulcherrimus, and Conch. (b) Asterias amurensis, Sea hare, and Conch. (c) Asterias amurensis, Asterina pectinifera, and Conch. (d) Turbo cornutus and Conch.

OGCSBN_2023_v39n5_3_909_f0005.png 이미지

Fig. 4. Detection results of Conch: (a) ground truth, (b) YOLOv7, and (c) DETR.

OGCSBN_2023_v39n5_3_909_f0006.png 이미지

Fig. 5. Detection results of Heliocidaris and Hemicentrotus pulcherrimus: (a) ground truth, (b) YOLOv7, and (c) DETR.

본 연구에서 사용한 학습영상은 한국정보통신기술협회(Telecommunications Technology Association)의 인증을 획득한 데이터셋이지만, 레이블 오류가 없는 완벽한 데이터는 아니다. 레이블 오류는 자료의 형태가 복잡하고 양이 많아질수록 발생할 가능성이 높다. 해당 데이터셋에도 일부 바운딩 박스가 누락되거나 클래스가 잘못 표기된 저서성 해양무척추동물 객체가 존재한다. 레이블 누락은 학습 과정에서 일반화 성능에 부정적인 영향을 끼칠 수 있고, 검증과 평가 시 제대로 탐지한 객체를 오탐지한 객체로 분류함으로써 정확도 평가 지표가 낮아지는 결과를 초래하기 때문에, 데이터 검수를 보다 철저히 수행하여 오류를 최소화하는 노력이 필요하다. Fig. 6에서 영상 하단에 존재하는 보라성게가 레이블에는 존재하지 않지만, YOLOv7과 DETR 모델이 잘 탐지한 것을 볼 수 있다. 이러한 레이블 오류를 제거한다면 모델의 일반화 성능을 향상하고, 더욱 정확한 모델 평가가 가능해질 것이다.

OGCSBN_2023_v39n5_3_909_f0007.png 이미지

Fig. 6. Example of mislabeling and its detection results: (a) ground truth, (b) YOLOv7, and (c) DETR.

4. 결론

본 연구에서는 해양 연안어장 생태계에 피해를 끼칠 수 있는 저서성 해양무척추동물을 대상으로 우리나라 연안에서 수중 촬영한 영상을 활용하여, 실시간 객체탐지에 가장 널리 사용되는 YOLO와 트랜스포머 계열인 DETR을 비교평가 하였다.YOLOv7이 mAP@0.5=0.899, DETR이 mAP@0.5=0.862를 기록하였고, 두 모델 모두 30 FPS 이상의 처리속도를 보였기 때문에, 잠수부 촬영 영상 및 수중드론 영상에 대한 실시간 객체탐지가 가능할 것으로 기대된다. 이를 통해 조식동물 구제, 바다 사막화 방지를 위한 바다숲 조성 등 연안어장 생태계 피해 방지 및 복원에 활용될 수 있을 것이다. 바위 색과 비슷하고 크기 작아, 탐지 정확도 향상이 필요한 소라, 고둥, 말똥성게 등은 양질의 학습영상을 확충함으로써 모델의 범용성을 높일 수 있을 것이다. 최근 COCO 데이터 셋에 대해서는 real-time detection transformer (RT-DETR)(Lv et al., 2023) 모델의 성능이 YOLO 시리즈에 비해 뛰어나다는 결과가 보고된 바 있으므로, state-of-the-art 모델인 RT-DETR을 저서성 해양무척추동물에 추가적으로 적용하여 평가하는 것도 향후과제로 필요할 것이다.

사사

이 연구는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 추진하는 “2022년도 인공지능 학습용 데이터 구축사업”의 지원을 받았습니다. 또한 이 논문은 해양경찰청 “해양오염사고 현장탐색자료를 활용한 오염정보 자동 생성 및 표출기술 개발(20210452)”과제의 지원을 받았으며, 이에 감사드립니다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

Athira, P., Haridas, T. M., and Supriya, M. H., 2021. Underwater object detection model based on YOLOv3 architecture using deep neural networks. In Proceedings of the 2021 7th International Conference on Advanced Computing and Communication Systems (ICACCS), Coimbatore, India, Mar. 19-20, pp. 40-45. https://doi.org/10.1109/ICACCS51430.2021.9441905
Bak, S., Kim, H. M., Kim, T. Y., Lim, J. Y., and Jang, S. W., 2023. Evaluation of robustness of deep learning-based object detection models for invertebrate grazers detection and monitoring. Korean Journal of Remote Sensing, 39(3), 297-309. https://doi.org/10.7780/kjrs.2023.39.3.4
Bak, S., Kim, H. M., Lee, H., Han, J. I., Kim, T. Y., Lim, J. Y., and Jang, S. W., 2022. A study on biomass estimation technique of invertebrate grazers using multi-object tracking model based on deep learning. Korean Journal of Remote Sensing, 38(3), 237-250. https://doi.org/10.7780/kjrs.2022.38.3.2
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., and Zagoruyko, S., 2020. End-to-end object detection with transformers. arXiv preprint arXiv: 2005.12872v3. https://doi.org/10.48550/arXiv.2005.12872
Chen, X., Yuan, M., Yang, Q., Yao, H., Wang, H., 2023. Underwater-YCC: Underwater target detection optimization algorithm based on YOLOv7. Journal of Marine Science and Engineering, 11(5), 995. https://doi.org/10.3390/jmse11050995
Dakhil, R. A., and Khayeat, A. R. H., 2022. Review on deep learning technique for underwater object detection. arXiv preprint arXiv:2209.10151. https://doi.org/10.48550/arXiv.2209.10151
Han, F., Yao, J., Zhu, H., and Wang, C., 2020. Marine organism detection and classification from underwater vision based on the deep CNN method. Mathematical Problems in Engineering, 2020, Article ID 3937580. https://doi.org/10.1155/2020/3937580
Jesus, A., Zito, C., Tortorici, C., Roura, E., and De Masi, G., 2022. Underwater object classification and detection: First results and open challenges. In Proceedings of the OCEANS 2022 - Chennai, Chennai, India, Feb. 21-24, pp. 1-6. https://doi.org/10.1109/OCEANSChennai45887.2022.9775417
Korea Fisheries Resources Agency, 2020. 2019 Sea forest creation and management project final report (FIRA-IR-20-002). Ministry of Oceans and Fisheries.
Liu, J., Liu, S., Xu, S., and Zhou, C., 2022. Two-stage underwater object detection network using Swin Transformer. IEEE Access, 10, 117235-117247. https://doi.org/10.1109/ACCESS.2022.3219592
Liu, K., Sun, Q., Sun, D., Peng, L., Yang, M., and Wang, N., 2023. Underwater target detection based on improved YOLOv7. Journal of Marine Science and Engineering, 11(3), 677. https://doi.org/10.3390/jmse11030677
Loshchilov, I., and Hutter, F., 2017. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101. https://doi.org/10.48550/arXiv.1711.05101
Lv, W., Xu, S., Zhao, Y., Wang, G., Wei, J., Cui, C. et al., 2023. DETRs beat YOLOs on real-time object detection. arXiv preprint arXiv: 2304.08069, https://doi.org/10.48550/arXiv.2304.08069
National Information Society Agency, 2023. Establishment of marine biological data for coastal fishery ecosystem environmental damage. Available online: https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71328 (accessed on July 8, 2023).
National Institute of Fisheries Science, 2010. Study on the status of whitening occurrence in the water of Korea (TR-2010-RE-013). Fisheries Resources Enhancement Center. https://www.nifs.go.kr/rsh/index.jsp
Pedersen, M., Bruslund Haurum, J., Gade, R., and Moeslund, T. B., 2019. Detection of marine animals in a new underwater dataset with varying visibility. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Long Beach, CA, USA, June 16-20, pp. 18-26.
Rosli, M. S. A. B., Isa, I. S., Maruzuki, M. I. F., Sulaiman, S. N., and Ahmad, I., 2021. Underwater animal detection using YOLOV4. In Proceedings of the 2021 11th IEEE International Conference on Control System, Computing and Engineering (ICCSCE), Penang, Malaysia, Aug. 27-28, pp. 158-163. https://doi.org/10.1109/ICCSCE52189.2021.9530877
Wang, C. Y., Bochkovskiy, A., and Liao, H. Y. M., 2022. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. arXiv preprint arXiv:2207.02696. https://doi.org/10.48550/arXiv.2207.02696
Wang, H., and Xiao, N., 2023. Underwater object detection method based on improved faster RCNN. Applied Sciences, 13(4), 2746. https://doi.org/10.3390/app13042746
Yoo, J. W., Kim, H. J., Lee, H. J., Lee, C. G., Kim, C. S., Hong, J. S. et al., 2007. Interaction between invertebrate grazers and seaweeds in the east coast of Korea. Journal of the Korean Society of Oceanography, 12(3), 125-132.
Zhong, J., Li, M., Qin, J., Cui, Y., Yang, K., and Zhang, H., 2022. Real-time marine animal detection using YOLO-based deep learning networks in the coral reef ecosystem. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 46, 301-306. https://doi.org/10.5194/isprs-archives-XLVI-3-W1-2022-301-2022
Zhu, X., Su, W., Lu, L., Li, B., Wang, X., and Dai, J., 2020. Deformable DETR: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159. https://doi.org/10.48550/arXiv.2010.04159

Korean Journal of Remote Sensing (대한원격탐사학회지)

Realtime Detection of Benthic Marine Invertebrates from Underwater Images: A Comparison betweenYOLO and Transformer Models

수중영상을 이용한 저서성 해양무척추동물의 실시간 객체 탐지: YOLO 모델과 Transformer 모델의 비교평가

Abstract

Keywords

1. 서론

2. 자료와 방법

2.1. 사용자료

2.2. 사용 모델

2.2.1. You Only Look Once Version 7 (YOLOv7)

2.2.2. Detection Transformer (DETR)

2.3. 성능평가 지표

3. 결과 및 고찰

3.1. 실험 결과

3.2. 고찰

4. 결론

사사

Conflict of Interest

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)