DOI QR코드

DOI QR Code

HRNet-OCR과 Swin-L 모델을 이용한 조식동물 서식지 수중영상의 의미론적 분할

Semantic Segmentation of the Habitats of Ecklonia Cava and Sargassum in Undersea Images Using HRNet-OCR and Swin-L Models

  • 김형우 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공) ;
  • 장선웅 ((주)아이렘기술개발) ;
  • 박수호 ((주)아이렘기술개발 기업부설연구소) ;
  • 공신우 ((주)부경해양기술) ;
  • 곽지우 ((주)올빅뎃) ;
  • 김진수 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공) ;
  • 이양원 (부경대학교 지구환경시스템과학부 공간정보시스템공학전공)
  • Kim, Hyungwoo (Department of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyong National University) ;
  • Jang, Seonwoong (IREM Tech Inc.) ;
  • Bak, Suho (Research Institute, IREM Tech Inc.) ;
  • Gong, Shinwoo (Bukyeong Ocean Engineering and Consulting Inc.) ;
  • Kwak, Jiwoo (AllBigDat Inc.) ;
  • Kim, Jinsoo (Department of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyong National University) ;
  • Lee, Yangwon (Department of Spatial Information Engineering, Division of Earth Environmental System Science, Pukyong National University)
  • 투고 : 2022.10.11
  • 심사 : 2022.10.25
  • 발행 : 2022.10.31

초록

이 연구에서는 국내 연안어장을 대상으로 조식동물 및 서식지에 대한 수중영상 기반의 인공지능 학습자료를 구축하고, state-of-the-art (SOTA) 모델인 High Resolution Network-Object Contextual Representation(HRNet-OCR)과 Shifted Windows-L (Swin-L)을 이용하여, 조식동물 서식지 수중영상의 의미론적 분할을 수행함으로써 화소 또는 화소군 간의 공간적 맥락(상관성)을 반영하는 보다 실제적인 탐지 결과를 제시하였다. 조식동물 서식지인 감태, 모자반의 수중영상 레이블 중 1,390장을 셔플링(shuffling)하여 시험평가를 수행한 결과, 한국수산자원공단의 DeepLabV3+ 사례에 비해 약 29% 향상된 정확도를 도출하였다. 모든 클래스에 대해 Swin-L이 HRNet-OCR보다 판별율이 더 좋게 나타났으며, 특히 데이터가 적은 감태의 경우, Swin-L이 해당 클래스에 대한 특징을 더 풍부하게 반영할 수 있는 것으로 나타났다. 영상분할 결과 대상물과 배경이 정교하게 분리되는 것을 확인되었는데, 이는 Transformer 계열 백본을 활용하면서 특징 추출능력이 더욱 향상된 것으로 보인다. 향후 10,000장의 레이블 데이터베이스가 완성되면 추가적인 정확도 향상이 가능할 것으로 기대된다.

In this paper, we presented a database construction of undersea images for the Habitats of Ecklonia cava and Sargassum and conducted an experiment for semantic segmentation using state-of-the-art (SOTA) models such as High Resolution Network-Object Contextual Representation (HRNet-OCR) and Shifted Windows-L (Swin-L). The result showed that our segmentation models were superior to the existing experiments in terms of the 29% increased mean intersection over union (mIOU). Swin-L model produced better performance for every class. In particular, the information of the Ecklonia cava class that had small data were also appropriately extracted by Swin-L model. Target objects and the backgrounds were well distinguished owing to the Transformer backbone better than the legacy models. A bigger database under construction will ensure more accuracy improvement and can be utilized as deep learning database for undersea images.

키워드

1. 서론

바다의 사막화라고 불리는 갯녹음은 연안에 서식하는 수중 동·식물의 1차 먹잇감이 되는 해조류가 사라져 육상의 사막과 같이 수중 서식지가 황폐화되어 불모 상태가 되는 현상을 의미한다. 연안어장 생태환경 피해를 유발하는 갯녹음 현상의 원인으로는 해양오염의 증가와 함께, 지구 온난화로 인한 수온 상승으로 인해 탄산칼슘의 석출 진행 속도가 증가하고, 성게, 불가사리, 고둥과 같이 해조류를 먹고 사는 조식동물 및 해적생물이 증가하면서 해조류가 감소하는 것이다(FIRA, 2022). 갯녹음 발생 등에 따른 연안어장 생태환경 피해는 우리나라를 포함하여 미국, 캐나다, 일본 등 세계 각지에서 발생하고 있다. 미국의 경우에는 캘리포니아 약 1,500 km에 걸친 연안과 메인 주에서 캐나다 뉴펀들랜드 섬까지 약 2,000 km에 이르는 광범위한 해안에 걸쳐 나타나고 있다(FIRA, 2022). 일본에서도 쿠로시오 해류와 대마난류의 영향을 받는 남부해역에서 북해도까지 전 해안에 걸쳐 갯녹음 피해가 심화되고 있다.

우리나라의 경우, 1980년대 이후부터 제주도와 남해안 일대에서 갯녹음 현상이 나타나기 시작하여, 1990년 대부터는 동해안까지 확대되었다. 2019년 전국의 연안 갯녹음 발생 면적은 12,729 ha로 여의도 면적의 4배에 달하는 것으로 추정되며, 동해 연안 62%, 남해 연안 33%, 제주 연근해 35%에서 갯녹음 피해가 발생하는 것으로 파악된다(NIFS, 2011). 조식동물과 해적생물의 확산에 따른 서식지 파괴로 인해, 어류의 산란장과 안정된 서식 공간도 줄어들게 되고, 어획 감소로 인한 어업 소득 손실액은 연간 최대 160억 원에 달하는 것으로 추정된다(MOF, 2018).

이에, 갯녹음 피해를 유발하는 해양생물에 대한 효과적인 조사가 반드시 필요하다. 기존 조사 방식의 시공간적 한계를 극복하고, 수중에서 수집된 영상을 육안 판독보다 신속·정확하게 파악하기 위하여 잠수부, 수중드론, 무인수중로봇(unmanned underwater vehicle, UUV)이 촬영한 영상을 딥러닝으로 자동 인식하는 방법이 시도되고 있다(Ataner et al., 2020). 수중영상에 딥러닝을 적용하기 위해서는 양질의 대용량 학습자료가 구축되어야 하고, 수중영상에 적합한 딥러닝 모델의 최적화도 필요하나, 아직 우리나라에서 관련연구가 충분히 진행되지는 않았다. 이에 본 연구에서는 국내 연안어장을 대상으로 조식동물 및 서식지에 대한 수중영상 기반의 인공지능 학습자료를 구축하고, 최신의 딥러닝 기술을 이용하여 조식동물 서식지 수중영상의 의미론적 분할 모델을 개발하고, 그 성능을 평가하고자 한다.

2. 관련 연구

연안어장 생태환경의 피해를 유발하는 해양생물의 분포를 조사하는 방법으로는 잠수 조사법, 항공사진이나 위성영상을 활용하는 광학적 조사법, 초음파 센서를 이용하는 음향학적 조사법, 그리고 생물학적 조사법 등으로 분류할 수 있다. 가장 일반적이고 직접적인 방법인 잠수 조사법은 잠수부가 일정 간격으로 방형구를 해저면에 설치하고, 방형구 내에 출현하는 해조류와 함께 성게, 불가사리 등 조식동물을 사진 촬영하거나 직접 채집하여 관찰한다. 잠수부가 촬영한 사진을 분석하면 조식동물 및 해적생물의 개체 수를 정확하게 파악할 수 있지만, 잠수부 투입의 시공간적 제약과 비용의 한계, 그리고 육안판독의 번거로움 등으로 인한 어려움이 존재한다.

Lambertini et al. (2022)은 지속가능한 어업을 위한 생태계 조사를 위해 UUV 전방에 장착된 카메라를 이용하여 저서생물 영상을 수집하고, 하단에 장착된 카메라와 Multibeam Echosounder를 이용하여 해저면의 3D 포인트 클라우드를 취득하였다(Fig. 1).

OGCSBN_2022_v38n5_3_913_f0001.png 이미지

Fig. 1. Monitoring of marine ecosystem using unmanned underwater vehicle (UUV) (Lambertini et al., 2022).

오스트레일리아 북동부 퀸즈랜드 해안을 따라 발달한 세계 최대 산호 군락지인 그레이트 배리어 리프(Great Barrier Reef, GBR)는 최근 몇 년간 약 50%가 파괴되었다. 그 주요 원인은 악마 불가사리(Crown-of-Thorns Starfish, COTS)의 섭식으로, 1960년 이후 육지로부터 흘러나온 영양염류로 인해 악마 불가사리가 생육하기 좋은 환경 조건이 조성되어 개체수가 급증하였다. Google에서는 GBR 보호를 위한 컴퓨터 비전 연구를 지원하기 위해 GBR을 섭식하는 악마 불가사리 영상 DB를 구축하여 공개하고 있다(Fig. 2).

OGCSBN_2022_v38n5_3_913_f0002.png 이미지

Fig. 2. Undersea images of devil starfish provided by Google.

최근 이러한 조식동물과 해적생물 모니터링에 컴퓨터 비전과 딥러닝 기술을 활용하는 사례가 증가하고 있다. Qiu et al.(2019)은독성을가진해삼을딥러닝모델인Single Shot Detector (SSD)를 활용하여 탐지하는 방법을 제안하였고(Fig. 3), Gao et al. (2021)은 유해생물의 일종인 해파리 7종에 대해 You LookOnlyOnce version 3 (YOLOv3) 모델을 이용한 탐지 기법을 제안하였다(Fig. 4).

OGCSBN_2022_v38n5_3_913_f0003.png 이미지

Fig. 3. Detection of sea cucumber using Single Shot Detector (SSD) model (Qiu et al., 2019).

OGCSBN_2022_v38n5_3_913_f0004.png 이미지

Fig. 4. Process of jellyfish detection using You Look Only Once version 3 (YOLOv3) (Gao et al., 2021).

한국수산자원공단은 수중드론을 활용하여 2018년부터 2021년까지 해조류와 함께 성게, 불가사리 등 조식동물에 대한 영상 DB를 구축하였으며, 딥러닝 기반 의미론적 분할 모델인 DeepLabv3+를 활용하여 해조류 영상분할을 실시한 결과, 0.56의 mean intersection over union (mIOU) 정확도를 도출하였다. 한국지능정보사회진흥원은 2022년 인공지능용 학습데이터 구축사업을 통하여 조식동물(성게, 군소, 고둥 및 소라류)과 해적생물(불가사리)의 수중영상 레이블 90,000장, 그리고 해조류(감태, 모자반)의 수중영상 레이블 10,000장을 구축하고 있다.

3. 자료 및 방법

1) 연구 자료

조식동물 서식지인 해조류(감태, 모자반)의 수중영상은 잠수부가 직접 촬영하거나 또는 Remotely Operate Underwater Vehicle (ROV)를 이용하여 촬영할 수 있는데(Fig. 5), 이 연구에서는 잠수부가 직접 촬영한 영상을 이용하였다. 이 영상들은 일정한 크기(3480×2160 픽셀)로 절취한 뒤, 육안 식별과 수작업을 통해 감태, 모자반의 폴리곤으로 편집하였고, 딥러닝 모델에 투입하기 위하여 래스터화시켜 최종 레이블 영상으로 제작되었다. 조식동물 서식지 레이블은 10,000장 구축될 예정이며, 이연구에서는 현재 구축된 1,390장의 영상을 사용하였다. Fig. 6은 감태의 수중영상과 레이블 영상 예시이고, Fig. 7은 모자반의 수중영상과 레이블 영상의 예시이다.

OGCSBN_2022_v38n5_3_913_f0005.png 이미지

Fig. 5. Acquisition of undersea images by divers and remotely operate underwater vehicle (ROV).

OGCSBN_2022_v38n5_3_913_f0006.png 이미지

Fig. 6. Example of the undersea images and label data for Ecklonia cava.

OGCSBN_2022_v38n5_3_913_f0007.png 이미지

Fig. 7. Example of the undersea images and label data for Sargassum.

2) 딥러닝 모델

딥러닝은 과거부터 누적되어온 대용량 데이터와 기술 발전으로 보다 두터운 네트워크 구성이 가능해진 컴퓨팅 자원을 이용해 역전파(back propagation), 활성함수 (activation function), 옵티마이저(optimizer) 등 최적화 기법을 활용한 데이터 추론(data-driven) 모델링으로, 컨볼루션 필터를 활용한 Convolutional Neural Network (CNN)이 대표적인 딥러닝 영상인식 기법이다. CNN은 최종 레이어인 완전연결층(fully connected layer)의 앞부분에 컨볼루션 레이어(convolution layer)와 풀링 레이어 (pooling layer)를 반복적으로 연결하여 특징맵(feature map)을 만들어가는 구조이다. 컨볼루션 레이어는 이동창(moving window) 방식의 필터가 입력 영상을 이동해가면서 영상의 특징을 추출하고, 풀링 레이어는 추출된 영상의 특징을 요약하여 차원을 축소시켜 특징맵을 구성한다. 이러한 특징맵을 완전 연결층에서 입력 받아 정답 레이블과의 손실함수가 최소화되도록 훈련을 반복한다(LeCun et al., 1989). CNN을 활용하여 화소 또는 화소군 간의 공간적 맥락(상관성)을 반영하는 의미론적 영상분할(semantic segmentation) 모델에는 U-Net, ResNet, DenseNet, HRNet 등이 있으며, 이 연구에서는 최신의 state-of-the-art (SOTA) 모델인 High Resolution NetworkObject Contextual Representation (HRNet-OCR)을 사용하였다(Figs. 8, 9) (Sun et al., 2019).

OGCSBN_2022_v38n5_3_913_f0008.png 이미지

Fig. 8. Structure of High Resolution Network (HRNet) (Sun et al., 2019).

OGCSBN_2022_v38n5_3_913_f0009.png 이미지

Fig. 9. Structure of Object Contextual Representation (OCR) (Sun et al., 2019).

이러한 CNN 계열 모델과 함께, 자연어 처리를 수행하는 Transformer 모델을 영상인식에 적용하여 셀프어 텐션(self-attention) 메커니즘을 통해 입력정보의 선택과 집중을 효율화 함으로써 영상인식의 정확도를 향상시키는 Vision Transformer 기법이 개발되었다(Vaswani et al., 2017; Dosovitskiy et al., 2020). 디코더에서 데이터 출력 시 인코더의 입력 정보를 참조함에 있어, 출력 데이터에 적합하도록 보다 더 연관성 있는 영역 및 채널을 차별적으로 참조하는 self-attention 메커니즘은 2021년 마이크로소프트가 발표한 Shifted Windows (Swin) Transformer를 통해 더욱 발전하였다. 모델 내부에 순차적으로 전달되는 입력값이 중첩된 블록에 설정된 창크기만큼 교대되는 구조(hierarchical shifted window)를 이용하여 self-attention을 국지적으로 적용함으로써(Fig. 10) (Liu et al., 2021) 기존의 CNN 계열 모델이나 Vision Transformer를 능가하는 성능을 나타내고 있다(Fig. 11). Swin Transformer는 첫 번째 레이어 채널 수 및 레이어수에 따라, Swin-T, Swin-S, Swin-B, Swin-L로 나뉘는데 (Table 1), 이 연구에서는 컴퓨터 비전 분야에서 보다 더 우수한 성능을 보여준 Swin-L 모델을 사용하여 조식동물 서식지 수중영상에 대한 의미론적 분할을 수행하였다.

OGCSBN_2022_v38n5_3_913_f0010.png 이미지

Fig. 10. Structure of Shifted Windows (Swin) Transformer (Liu et al., 2019).

OGCSBN_2022_v38n5_3_913_f0011.png 이미지

Fig. 11. Performance comparison for ADE20K segmentation.

Table 1. A series of Swin Transformer models

OGCSBN_2022_v38n5_3_913_t0001.png 이미지

3) 시험평가 방법

1,390장의 영상에서 훈련, 검증, 시험 데이터를 구분하기 위하여, 이들 영상을 셔플링(shuffling)하여 훈련 80%, 검증 10%, 시험 10%로 나누었다. 모델 훈련에는 ADE20K 데이터셋으로 선행학습된(pre-trained) 모델을 활용하였으며, 레이블 영상과 예측 영상 간의 역전파 과정에서 특정 뉴런의 가중치 집중을 방지하는 L2 정규화 (regularization)를 적용하였다. 반복적으로 훈련된 모델은 개별로 분류된 검증 데이터를 활용해 mIOU 값을 계산하고 이를 기준으로 최종 모델을 결정하였다. 이후, 시험 데이터를 활용해 혼동행렬(confusion matrix)을 작성하고, true positive (TP), true negative (TN), false positive (FP), false negative (FN)를 계산한 후 이를 이용하여 Accuracy, Precision, Recall, F1-score, mIOU 등의 정확도 측도를 산출하였다. 또한, HRNet-OCR과 Swin-L 모델의 비교를 위해 Precision-Recall Curve를 활용하였다.

Accuracy는 예측 영상의 모든 화소 중에서 레이블 영상과 동일한 화소의 비율이다. 정밀도(Precision)는 예측 영상 각 클래스의 화소 중에서 정답 화소의 비율로 모델이 해당 클래스에 속하는 예측 픽셀의 분포를 좀 더 정확하게 판별할 수 있음을 나타낸다. 재현율(Recall)은 레이블 영상 각 클래스의 화소 중에서 정답 화소의 비율로, 모델이 특정 클래스에 속하는 예측 픽셀의 분포를 더 넓게 판별할 수 있는 능력을 의미한다. 정밀도와 재현율은 모델이 제시한 시험 평가용 예측 영상을 활용해 최종 평가를 위한 수치로 계산되었으며, 두 수치 간의 조화를 판별하기 위해 모델이 제시한 확률 분포 값에 임계치(threshold)를 적용한 정밀도-재현율 곡선(PrecisionRecall Curve)를 산출하였다. F1-score는 Precision과 Recall의 조화평균(harmonic mean)으로 계산한다. IOU는 각 클래스의 실제 영역과 예측 영역의 합집합에 대한 교집합의 면적비로 구하며, IOU는 Accuracy, Precision, Recall의 특성을 모두 가지고 있는 종합적인 측도로서, 컴퓨터 비전 분야에서 영상인식 정확도 표준으로 사용되고 있다(Figs. 12, 13).

OGCSBN_2022_v38n5_3_913_f0012.png 이미지

Fig. 12. Confusion matrix and the test measures for multi-class image segmentation (Krüger, 2016).

OGCSBN_2022_v38n5_3_913_f0013.png 이미지

Fig. 13. Concept of IOU (intersection over union).

4. 결과 및 토의

조식동물 서식지인 해조류(감태, 모자반)의 수중영상 레이블 중 현재 구축된 1,390장을 셔플링하여 80%의 영상으로 훈련, 10%의 영상으로 검증, 그리고 나머지 10%의 영상으로 시험평가를 수행하였다. Table 2와 3은 그 결과를 혼동행렬(contingency table)로 정리한 것으로서, HRNet-OCR 모델보다 Swin-L 모델이 약간 더 높은 정확도를 나타냈다. HRNet-OCR은 Precision=(0.958, 0.814, 0.846; 미분류, 모자반, 감태), Recall=(0.955, 0.833, 0.516), mIOU=0.70, Swin-L은 Precision=(0.969, 0.952, 0.960), Recall=(0.811, 0.880, 0.844), mIOU=0.72의 결과를 보였다(Table 4). 유사 연구로는 FIRA (2022)의 DeepLabV3+모델을 이용한 조식동물 탐지가 유일한 사례인데, 해당 연구에서는 mIOU=0.56의 결과를 나타낸 바 있다. 데이터셋이 동일하지는 않지만, 조식동물 및 서식지 관련 수중영상의 의미론적 분할의 사례로서 이 연구가 선행연구보다 mIOU에서 약 29% 향상된 결과를 도출한 것이다((0.72 – 0.56) / 0.56 = 29%). 클래스별 정밀도-재현율 곡선을 비교해보면, 특정 클래스를 판별하는 과정에서 기준이 되는 확률값에 대해 임계치를 조정했을 때, 미분류, 감태, 모자반 등 모든 클래스에 대해 Swin-L이 HRNetOCR에 비해 판별율이 더 좋게 나타났으며, 특히 전체 데이터 구성 비율 중 가장 적은 감태의 경우, HRNet-OCR이 표현할 수 있는 클래스의 특징에 비해 Swin-L이 해당 클래스에 대한 특징을 더 풍부하게 반영할 수 있음을 확인할 수 있다(Figs. 14, 15, 16).

OGCSBN_2022_v38n5_3_913_f0014.png 이미지

Fig. 14. Precision-Recall curve for unclassified class.

OGCSBN_2022_v38n5_3_913_f0015.png 이미지

Fig. 15. Precision-Recall curve for Sargassum class.

OGCSBN_2022_v38n5_3_913_f0016.png 이미지

Fig. 16. Precision-Recall curve for Eckionia cava class.

Table 2. Contingency table for HRNet-OCR model (Unit: pixel)

OGCSBN_2022_v38n5_3_913_t0002.png 이미지

Table 3. Contingency table for Swin-L model (Unit: pixel)

OGCSBN_2022_v38n5_3_913_t0003.png 이미지

Table 4. Test statistics for HRNet-OCR and Swin-L models

OGCSBN_2022_v38n5_3_913_t0004.png 이미지

Fig. 17과 18을 통해서 볼 때, 영상분할 결과는 라벨영역보다 더 정교하게 대상물과 배경을 분리하는 것을 확인할 수 있다. 과거 CNN 계열 백본(backbone)을 활용하는 모델에서는 이처럼 정교한 식별이 이루어지지 않았는데, Transformer 계열 백본을 활용하면서 특징 추출 능력이 더욱 향상된 것으로 보인다. 또한 수중 영상에서 특히 연안의 경우, 탁도(turbidity)가 높아 하이패스 필터와 같은 전처리를 수행해도 고주파 영역을 추출하기 힘든데 딥러닝 모델이 탁수에서 고주파 영역을 재현하여 영상분할에 성공한 것은 매우 의미있는 결과라고 할 수 있다.

OGCSBN_2022_v38n5_3_913_f0017.png 이미지

Fig. 17. Images of label (upper), prediction (middle), and the difference (lower) for the Ecklonia cava detection: true positive (TP) in blue, true negative (TN) in cyan, false positive (FP) in orange, and false negative (FN) in red.

OGCSBN_2022_v38n5_3_913_f0018.png 이미지

Fig. 18. Images of label (upper), prediction (middle), and the difference (lower) for the Sargassum detection: TP (true positive) in blue, TN (true negative) in cyan, FP (false positive) in orange, and FN (false negative) in red.

지표면의 지형지물을 촬영한 드론영상이나 지상사진과는 달리, 수중영상은 해수의 탁도에 따라 영상의 선명도가 확보되지 못하는 경우가 많기 때문에 드론영상이나 지상사진보다 정확도가 낮게 나올 수밖에 없다. 이런 점에서 볼 때, 현재의 실험 결과는 SOTA 모델의 성능에 힘입어 상당히 고무적이라고 할 수 있으며, 향후 10,000장의 레이블이 모두 구축되면 일정 정도의 추가적인 정확도 향상을 기대할 수 있을 것으로 기대된다.

5. 결론

이 연구에서는 국내 연안어장을 대상으로 조식동물 및 서식지에 대한 수중영상 기반의 인공지능 학습자료를 구축하고, SOTA 모델인 HRNet-OCR과 Swin-L을 이용하여 조식동물 서식지 수중영상의 의미론적 분할을 수행함으로써 화소 또는 화소군 간의 공간적 맥락(상관성)을 반영하는 보다 실제적인 탐지 결과를 제시하였다. 조식동물 서식지인 감태, 모자반의 수중영상 레이블 중 1,390장을 셔플링하여 시험평가를 수행한 결과, 한국수산자원공단의 DeepLabV3+ 사례에 비해 약 29% 향상된 정확도를 도출하였다. 모든 클래스에 대해 Swin-L이 HRNet-OCR보다 판별율이 더 좋게 나타났으며, 특히 데이터가 적은 감태의 경우 향후 더 많은 데이터를 이용하여 충부한 실험을 할 필요가 있기는 하나, Swin-L이 감태 클래스에 대한 특징을 더 풍부하게 반영할 수 있는 것으로 나타났다. 영상분할 결과, 대상물과 배경이 정교하게 분리되는 것을 확인되었는데, 이는 Transformer 계열 백본을 활용하면서 특징 추출능력이 더욱 향상된 것으로 보인다. 향후 10,000장의 레이블 데이터베이스가 완성되면 추가적인 정확도 향상이 가능할 것으로 기대되며, 이 때 하이퍼파라미터 최적화를 위한 별도의 노력이 필요할 것이다. 이러한 딥러닝 모델링은 향후 조식동물 서식지의 효과적이 파악에 기여하여 연안어장 생태계 조사에 활용될 수 있을 것이다.

사사

이 연구는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 추진하는 “2022년도 인공지능 학습용 데이터 구축사업”의 지원을 받았습니다.

참고문헌

  1. Ataner, E., B. Ozdes, G. Ozturk, T.Y.C. Celik, A. Durdu, and H. Terzioglu, 2020. Deep learning methods in unmanned underwater vehicles, Avrupa Bilim ve Teknoloji Dergisi, 345-350. https://doi.org/10.31590/ejosat.804599
  2. Dosovitskiy, A., L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby, 2020, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv preprint arXiv:2010.11929. https://arxiv.org/abs/2010.11929
  3. FIRA (Korea Fisheries Resources Agency), 2022. Korea Fisheries Resources Agency - Press Release, https://www.fira.or.kr/fira/fira_010201_2.jsp, Accessed on Oct. 3, 2022.
  4. Gao, M., Y. Bai, Z. Li, S. Li, B. Zhang, and Q. Chang, 2021. Real-time jellyfish classification and detection based on improved YOLOv3 algorithm, Sensors, 21(23): 8160. https://doi.org/10.3390/s21238160
  5. Lambertini, A., M. Menghini, J. Cimini, A. Odetti, G. Bruzzone, M. Bibuli, E. Mandanici, L. Vittuari, P. Castaldi, M. Caccia, and L. De Marchi, 2022. Underwater drone architecture for marine digital twin: Lessons learned from SUSHI DROP project, Sensors, 22(3): 744. https://doi.org/10.3390/s22030744
  6. LeCun, Y., B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbardm, and L. D. Jackel, 1989. Backpropagation applied to handwritten zip code recognition, Neural Computation, 1(4): 541-551. https://doi.org/10.1162/neco.1989.1.4.541
  7. Liu, Z., Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, 2021. Swin Transformer: Hierarchical vision transformer using shifted windows, arXiv preprint arXiv:2103.14030. https://arxiv.org/abs/2103.14030 103.14030
  8. MOF (Ministry of Oceans and Fisheries), 2018. Ministry of Oceans and Fisheries - Fishery Information Portal System, https://www.fips.go.kr/, Accessed on Oct. 3, 2022.
  9. NIFS (National Institute of Fishery Science), 2011. National Institute of Fishery Science - Research Achievements, https://www.nifs.go.kr/rsh/, Accessed on Oct. 3, 2022.
  10. Qiu, Z., Y. Yao, and M. Zhong, 2019. Underwater sea cucumbers detection based on pruned SSD, Proc. of 2019 IEEE 3rd Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC), Chongqing, China, Oct. 11-13, pp. 738-742. https://doi.org/10.1109/IMCEC 46724.2019.8983935
  11. Sun, K., Y. Zhao, B. Jiang, T. Cheng, B. Xiao, D. Liu, Y. Mu, X. Wang, W. Liu, and J. Wang, 2019. High-resolution representations for labeling pixels and regions, arXiv preprint arXiv:1904.04514. https://arxiv.org/abs/1904.04514