DOI QR코드

DOI QR Code

Applicability Evaluation of Deep Learning-Based Object Detection for Coastal Debris Monitoring: A Comparative Study of YOLOv8 and RT-DETR

해안쓰레기 탐지 및 모니터링에 대한 딥러닝 기반 객체 탐지 기술의 적용성 평가: YOLOv8과 RT-DETR을 중심으로

  • 박수호 ((주)아이렘기술개발 기업부설연구소) ;
  • 김흥민 ((주)아이렘기술개발 기업부설연구소) ;
  • 김영민 ((주)아이렘기술개발 기업부설연구소) ;
  • 이인지 ((주)아이렘기술개발 기업부설연구소) ;
  • 박미소 ((주)아이렘기술개발 기업부설연구소) ;
  • 오승열 ((주)아이렘기술개발 원격탐사팀) ;
  • 김탁영 ((주)아이렘기술개발 원격탐사팀) ;
  • 장선웅 ((주)아이렘기술개발)
  • Received : 2023.11.01
  • Accepted : 2023.11.28
  • Published : 2023.12.31

Abstract

Coastal debris has emerged as a salient issue due to its adverse effects on coastal aesthetics, ecological systems, and human health. In pursuit of effective countermeasures, the present study delineated the construction of a specialized image dataset for coastal debris detection and embarked on a comparative analysis between two paramount real-time object detection algorithms, YOLOv8 and RT-DETR. Rigorous assessments of robustness under multifarious conditions were instituted, subjecting the models to assorted distortion paradigms. YOLOv8 manifested a detection accuracy with a mean Average Precision (mAP) value ranging from 0.927 to 0.945 and an operational speed between 65 and 135 Frames Per Second (FPS). Conversely, RT-DETR yielded an mAP value bracket of 0.917 to 0.918 with a detection velocity spanning 40 to 53 FPS. While RT-DETR exhibited enhanced robustness against color distortions, YOLOv8 surpassed resilience under other evaluative criteria. The implications derived from this investigation are poised to furnish pivotal directives for algorithmic selection in the practical deployment of marine debris monitoring systems.

해안쓰레기는 미관 훼손 및 생태와 보건에 미치는 영향으로 인해 큰 문제로 대두되고 있다. 이를 해결하기 위한 노력의 일환으로 본 연구는 해안쓰레기 탐지와 모니터링을 위한 이미지 데이터셋 구축과 실시간 객체 탐지 분야의 대표적인 모델인 YOLOv8과 RT-DETR의 성능을 비교하였다. 특히 다양한 환경 하에서의 강건성을 평가하기 위해 여러 왜곡 조건에서 성능 변화 실험을 수행하였다. YOLOv8은 mean Average Precision (mAP) 0.927~0.945의 정확도와 65~135 Frames Per Second (FPS)의 탐지 속도를 보인 반면, RT-DETR은 mAP 0.917~0.918의 정확도와 40~53 FPS의 탐지 속도를 보였다. 색상 왜곡에 대해서는 RT-DETR이 더 강건한 성능을 보였으나, 그 외의 조건에서는 YOLOv8이 더 높은 강건성을 보였다. 본 연구의 결과는 실제 해안쓰레기 모니터링 시스템의 모델 선택에 있어 중요한 지침을 제공할 것으로 기대된다.

Keywords

1. 서론

해양쓰레기는 위치에 따라 해안쓰레기, 부유쓰레기, 침적쓰레기로 구분한다. 이 중 해안쓰레기는 해안의 미관을 손상시키고, 불쾌감을 조성하여 심미적 가치를 훼손한다. 또한 해안쓰레기의 대부분을 차지하는 플라스틱류는 장기적인 마모, 산화 및 분해 등의 과정을 통해 2차 미세플라스틱으로 변화하기 때문에 생태 및 보건문제를 야기할 수 있다(Han, 2020). 특히 플라스틱은 자외선에 노출됨으로써 더 미세한 입자로 분해되는 특성이 있어 자외선에 대한 노출이 심한 해안쓰레기는 각별한 관심이 필요하다(Delre et al., 2023). 이러한 해안쓰레기 문제를 개선하기 위해서는 신속한 정화 활동을 통한 현존량 감소와 동시에 기원지 파악을 통한 재발 방지 활동이 동반되어야 한다. 이를 위해 우리나라는 2008년부터 ‘국가 해안쓰레기 모니터링 사업’을 수행하고 있으며, 매 2개월 마다 주요 해안에 대한 해안쓰레기 현존량을 파악하고 있다.

국가 해안쓰레기 모니터링 사업의 경우 조사지점에서 임의로 선정된 특정 구간(약 20 m)에 대해서만 현존량을 파악하여 대상지 전체 면적에 일반화하는 방식으로 수행되고 있다. 이러한 조사방법은 조사 구역을 어떻게 설정하느냐에 따라 오차가 발생하며, 사람이 직접투입되어야 하기 때문에 많은 인력과 시간이 소요된다는 문제가 있다. 또한 해안의 일부 구간에 대해서만 현존량을 파악하기 때문에 쓰레기의 공간분포를 파악할 수 없다는 한계점도 지니고 있다.

최근에는 원격탐사와 영상처리 기술을 접목시켜 넓은 해안가에 대한 현존량 파악 및 모니터링을 수행하는 방법에 대해 많은 연구들이 이루어지고 있다. 주로 무인항공기나 기구를 활용하여 촬영된 이미지에 모폴로지 변환, 문턱치 기법 등의 영상처리 기법을 적용함으로써 해변 영역과 쓰레기 영역을 분리하는 방법들이 제안되었다(Jang et al., 2011; Kako et al., 2012; Bao et al., 2018). 그러나 이러한 방법들은 쓰레기의 성상별 탐지가 불가능하며, 문턱치 기법을 활용하는 경우 해안의 종류나 쓰레기의 종류에 따라 배경클러터 현상이 발생하는 경우 탐지가 불가능할 수 있다는 단점이 존재한다.

이러한 문제를 개선하기 위해 최근에는 일반물체 인식 등 다양한 분야에서 성과를 내고 있는 딥러닝 기술을 해안쓰레기 모니터링에도 적용하는 연구들이 시도 되고 있다. 무인항공기를 활용하여 수집한 사진 또는 정사영상으로 데이터셋을 구축하여 딥러닝 기반 객체탐지 모델을 통해 대상물을 탐지(Bak et al., 2020; Choi, 2021)하거나 인스턴스 분할 모델을 활용하여 대상물의 피복면적을 파악(Scarrica et al., 2022)할 수 있는 방법들이 제안되고 있다. 이러한 방법들은 전통적인 영상처리 기법들과 달리 해안쓰레기를 성상별로 탐지할 수 있으며, 해변의 유형이나 쓰레기의 종류에 따라 파라미터를 조정하는 등의 작업 없이 적용할 수 있다는 장점이 있다.

다만, 대부분의 연구들은 적용성을 평가하거나 무인항공기와 딥러닝 기술을 접목한 모니터링 체계를 제안하는 성격이 짙어 모델 개발에 활용한 데이터셋의 수가적고, 특정 성상과 특정 해변에서만 실험을 진행하여 그 성능에 대한 대표성과 신뢰도가 부족했다. 또한 Mask R-CNN (He et al., 2017), YOLOv3 (Redmon and Farhadi, 2018), VFNet (Ahmed et al., 2019) 등 개발시기가 오래된 모델들 위주로 성능을 평가했다는 한계가 있었다. 이에 본 연구에서는 최근 일반 물체 인식 분야에서 활용되는 딥러닝 모델에 대한 해안쓰레기 탐지 성능 및 실제 현장에서의 적용성을 평가하고자 한다.

2. 연구자료 및 방법

본 연구에서는 딥러닝 기반 실시간 객체 탐지(Real Time Object Detection) 모델 중 YOLOv8과 RT-DETR을 대상으로 성능(탐지 정확도, 탐지 속도)과 강건성을 비교 분석하였다. YOLOv8과 RT-DETR 모델을 훈련시키고 평가하기 위한 데이터셋은 자체적으로 구축하여 활용하였다.

2.1. Dataset

딥러닝 기반 객체 탐지 모델의 훈련과 성능 평가를 위해서는 이미지와 라벨링 데이터로 구성된 데이터셋이 요구된다. 본 연구에서는 원시데이터 수집, 데이터 정제, 데이터 가공의 3단계 작업을 통해 자체적으로 데이터셋을 구축하였다. 원시데이터는 해양환경공단의 ‘국가 해안쓰레기 모니터링(2019년) 보고서’를 토대로 국내 연안 해변에서 발생하는 해안쓰레기 중 가장 많은양을 차지하는 재질인 플라스틱류, 유리류, 금속류를 대상으로 선정하였고, 발생량 중 대부분을 차지하는 재질인 플라스틱류는 9개의 세부 성상으로 구분하여 총 11종에 대해서 수집하였다(Table 1).

Table 1. Definition of objects for dataset construction

OGCSBN_2023_v39n6_1_1195_t0001.png 이미지

원시데이터 수집 장비는 무인항공기와 스마트폰을 활용하여 지표 및 5~30 m 고도에서 촬영하였다. 무인항공기는 DJI사의 Mavic 2 Pro와 Phantom 4 Pro를 사용하였으며, 스마트폰은 12 MP 이상의 카메라를 탑재한 기종을 활용하였다. 촬영 대상지는 국가 해안쓰레기 모니터링 구역 및 국립공원공단의 모니터링 구역을 대상으로 선정하였다. 이 때, 촬영 대상지는 우심구역 유무 및 최근 현존량, 접근성을 고려하여 후보지를 선택하였다. 최종적으로는 20개 해안(서해 7개, 남해 9개, 동해 4개)에서 원시데이터 수집 작업을 수행하였다.

OGCSBN_2023_v39n6_1_1195_f0001.png 이미지

Fig. 1. Distribution map of raw data collection areas.

데이터 정제 작업은 원시데이터 중 이미지 내에 대상물을 포함하지 않는 것을 제거하고 대상물이 이미지의 특정 구역에 밀집한 경우 해당 영역을 추출(Crop)하여 가공 대상 이미지로 활용하였다. 데이터 가공 작업은 이미지 내에서 존재하는 대상물의 영역을 바운딩 박스로 태깅하고, 클래스명을 입력하는 작업으로 오픈소스 가공 도구 중 하나인 ‘labelme’를 활용하였다. 총 80,159장의 이미지를 가공하였으며, 가공된 데이터셋은 무작위로 표본 추출하여 바운딩 박스 태깅 정밀도와 클래스명 불일치 등의 의미정확성을 검사하였다. 구축된 데이터셋은 학습용(Train, 64,127장), 검증용 Validation, 8,016장), 평가용(Test, 8,016장)으로 각각 8:1:1로 분할하여 모델 학습과 성능 평가에 활용하였다.

2.2. 딥러닝 기반 실시간 객체 탐지

본 연구에서는 광범위한 해안을 드론으로 촬영하여 그 이미지를 자동으로 분석하기 위한 딥러닝 모델을 탐색하는데 초점을 두었다. 넓은 해안을 드론으로 촬영시 다량의 이미지가 생성되며, 이를 신속하게 분석하기 위해서는 탐지 정확도 뿐만 아니라 탐지 속도도 고려하여 개발된 실시간 객체 탐지 모델이 적합하다고 판단하였다. 따라서 본 연구에서는 실시간 객체 탐지 모델 중 가장 최근에 제안된 YOLOv8과 RT-DETR을 대상으로 성능(탐지 정확도, 탐지 속도) 및 강건성을 비교 분석하였다.

YOLOv8은 2023년 1월 Ultralytics사에서 공개한 모델이다. YOLOv5를 기반으로 BottleNeckCSP 구조를 개선하여 탐지 속도와 정확도를 개선하였다. 추가적으로 Anchor Free Detection을 도입함으로써 Non Maximum Suppression (NMS) 연산을 가속화하였다.

YOLOv8은 모델의 Depth와 Width를 조정하여 Compound Scaling을 함으로써 다양한 성능의 모델을 생성할 수 있다. 스케일에 따라 YOLOv8n (Nano), YOLOv8s (Small),YOLOv8m (Medium),YOLOv8l (Large),YOLOv8x (eXtra-Large)로 구분된다.

YOLOv8n이 가장 낮은 Depth, Width 파라미터를 가지며 YOLOv8x가 가장 높은 Depth, Width 파라미터를 가진다. Depth와 Width 파라미터가 작을수록 상대적으로 적은 수의 파라미터(뉴런)를 가진 모델이 생성되며, 그 반대의 경우 많은 수의 파라미터를 가진 모델이 생성된다. 모델의 파라미터가 많을수록 더 복잡한 네트워크가 생성되므로 탐지 정확도는 개선되는 경향이 있으나 연산량을 증가시켜 탐지 속도는 떨어지게 된다. 이 중 YOLOv8n은 모바일 및 엣지 디바이스를 위한 모델로 파라미터 수를 극단적으로 줄여 연산량을 낮추는데 주력한 모델로 정확도와 속도를 모두 중요시하는 본 연구의 목적에 맞지 않다고 판단하였다. 따라서 본 연구에서는 YOLOv8s, m, l, x의 4가지 스케일의 모델에 대해서 탐지 정확도, 탐지 속도, 강건성을 평가하였다.

RT-DETR은 Beidu에서 2023년 7월 공개한 모델로 트랜스포머 기반의 객체 탐지 모델 중 하나인 DETR을 개선하기 위해 개발되었다. Intra-scale 상호 작용과 Crossscale 융합을 분리하는 효율적인 하이브리드 인코더를 사용함으로써 연산 비용을 줄였으며, 이를 통해 트랜스포머 기반의 모델임에도 실시간 객체 탐지가 가능하도록 구현할 수 있었다.

RT-DETR은 Backbone 네트워크의 Depth와 각 레이어의 채널 수에 따라 RT-DETR-HGNetv2-l (Large, 이하 RT-DETR-l)과 RT-DETR-HGNetv2-x (eXtra-Large, 이하 RT-DETR-x)로 구분된다.

본 모델은 YOLOv8과 달리 Compound Scaling을 적용하지는 않으나 모델의 Depth와 각 레이어의 채널 수의 증감은 파라미터(뉴런)의 증감으로 직결되므로 RTDETR-l에 비해 RT-DETR-x가 더 많은 파라미터를 가진 모델이다. 따라서 탐지 정확도와 탐지 속도 간의 트레이드 오프(Trade-off) 현상이 동일하게 발생한다. 본 연구에서는 YOLOv8과 RT-DETR 모두 Pytorch 구현체(Implementation)를 활용하였으며, 모바일 또는 엣지 디바이스 환경을 가정하지 않았으므로 실험 시 부동소수점 정밀도는 FP 32로 설정하였다. 또한 추론 속도 가속화와 관련된 ONNX (Open Neural Network Exchange) 및 TensorRT™ 등의 기술은 적용하지 않았다.

2.3. 성능 비교 분석

본 연구에서는 YOLOv8과 RT-DETR을 탐지 정확도, 탐지 속도, 강건성을 기준으로 성능을 비교 분석하였다. 탐지 정확도는 입력된 이미지 내에서 대상물의 영역과 클래스명을 구분하는 능력을 의미하며, 일반적으로 컴퓨터 비전 분야의 딥러닝 모델 평가 시 많이 활용되는 meanAverage Precision (mAP)을 평가지표로 선정하였다. 이 때, Intersection over Union (IoU)은 50%를 기준으로 mAP값을 산출하였다.

탐지 속도는 단위 시간당 모델이 탐지 가능한 이미지의 수를 의미하며, 해당 모델이 다량의 이미지를 처리하는데 활용된다는 점을 고려하였다. 탐지속도의 측정 지표로는 Frames Per Second (FPS)를 선정하였다. 강건성은 시스템이나 모델이 예기치 않은 입력 또는 외부 환경변화에도 안정적인 성능을 제공하는 능력을 의미한다. 다시 말해, 모델이 학습할 당시에 활용된 데이터셋과 다른 조건에서 촬영된 이미지에 대한 민감도라고 볼 수 있다. 예컨대 데이터셋에 포함되지 않은 밝기, 채도, 콘트라스트의 변화나 대상물의 일부가 가려지는 현상, 외부 요인으로 인해 촬영각도가 달라지는 등이 있을 수 있다. 본 연구에서 활용한 이미지 데이터셋은 약 80,000장의 이미지를 포함하고 있으나, 실제 해안가에서 발생 가능한 모든 사례를 포함한다고 볼 수는 없다. 따라서 실제 모델 운용 환경에서 발생 가능한 변동성에 대한 성능 안정성을 평가할 필요가 있다고 판단하였다.

비교 대상 모델의 강건성을 평가하기 위해 평가용 데이터셋의 이미지에 다양한 노이즈를 인위적으로 발생시켜 노이즈 유형 및 강도에 따른 성능 변화를 관찰하였다. 노이즈 유형은 실제 해안가에서 드론을 활용하여 대상물 촬영 시 발생가능한 이미지 품질 저하, 기상 및 시간 변화, 대상물 가림을 대상으로 구성하였다. 이미지 품질 저하 환경을 재현하기 위해 이미지에 블러(Blur) 필터 적용, 밝기(Brightness) 및 콘트라스트(Contrast) 변화를 적용하였으며(Fig. 2), 기상 및 시간 변화, 클래스 내 다양성을 재현하기 위해 색상(Hue)과 채도(Saturation)를 변화시켰다(Fig. 3).

OGCSBN_2023_v39n6_1_1195_f0002.png 이미지

Fig. 2. Example dataset for reproducing image quality degradation. (A-C) Application of blur filter. (D-F) Brightness distortion. (G-I) Contrast distortion.

OGCSBN_2023_v39n6_1_1195_f0003.png 이미지

Fig. 3. Example dataset for reproducing weather and time changes. (A-C) Hue distortion. (D-F) Saturation distortion.

블러 효과는 대상물과 배경의 고주파 성분(명암 또는 색상이 급변하는 경계선)에 왜곡을 만들어내기 위한 목적으로 중앙값 필터를 활용하여 구현하였다. 최근 블러효과 구현에 많이 활용되는 가우시안 블러의 경우 고주파 성분이 상대적으로 보존되면서 노이즈 제거에 이점이 있으므로 본 연구의 목적에 부합하지 않아 중앙값 필터를 활용하였다. 블러 강도는 필터 크기를 통해 구현하였으며, 가장 낮은 강도는 3 × 3 크기의 필터를 사용하였고, 매 단계별로 필터 크기를 2씩 증가시켰다. 밝기와 콘트라스트, 채도 왜곡은 원시 이미지의 픽셀값에서 매 단계별로 20%씩 증가 또는 감소시키는 방식으로 구현하였다. 왜곡 강도는 양(Positive, 증가)의 방향과 음(Negative, 감소)의 방향으로 각각 3단계로 구분하였다.

색상(Hue) 왜곡은 이미지를 HSV 색공간에 재투영시켜 Hue 채널에 대해서 모든 픽셀의 색좌표를 평행이동시켜 구현하였다. 평행이동 시 유사한 색상이 아닌 다른 색상으로 변환시키기 위해 색좌표를 30 Step 단위로 왜곡시켰다. 예컨대 대상물이 붉은색이었다면 색좌표 이동을 통해 주황색이나 자주색으로 왜곡시키는 것이 아니라 푸른색 계통으로 변화될 수 있도록 색좌표 왜곡범위를 설정하였다. 왜곡 강도는 양의 방향과 음의 방향으로 각각 3단계로 구분하였다. 마지막으로 대상물이 다른 대상물 또는 배경에 의해 가려지는 현상을 재현하기 위해 바운딩 박스 내부 영역을 10 × 10 격자로 구분하여 각 격자를 무작위로 비활성화하는 방법을 적용하였다(Fig. 4).

OGCSBN_2023_v39n6_1_1195_f0004.png 이미지

Fig. 4. Example dataset for reproducing object occlusion phenomena.

3. 연구결과 및 토의

3.1. 정성적 결과 비교

학습이 완료된 각 모델의 가중치를 활용하여 실제 대상물을 촬영한 이미지에 적용한 결과는 다음과 같다(Figs. 5–8). Fig. 5는 모래 해변에서 촬영된 해안쓰레기 이미지를 각 모델이 탐지한 결과로 모든 모델에서 대상물을 정확히 탐지하는 것을 확인할 수 있었다. Fig. 6은 자갈 해변에서 촬영된 이미지로 모래 해변에 비해 배경의 패턴이 복잡하고 색상이 다양하여 대상물과 혼동되기 쉬움에도 불구하고 모든 모델에서 대상물 탐지가 가능하였다. 또한 Fig. 7과 같이 그림자로 인해 대상물과 배경의 경계가 육안으로 구분하기 힘든 경우에도 모든 모델에서 탐지가 가능한 것을 확인할 수 있었다. 뿐만 아니라 Fig. 8과 같이 하나의 대상물 위에 다른 대상물이 겹쳐져서 존재하는 경우에도 각 개별 대상물을 구분 할 수 있었다. 탐지 결과의 Confidence에는 일부 차이가 있었으나, 클래스의 정확성과 바운딩 박스의 정밀함은 비교 대상 모델 간에 뚜렷한 차이가 없었다.

OGCSBN_2023_v39n6_1_1195_f0005.png 이미지

Fig. 5. Comparison of detection performance for each model on sandy beaches.

OGCSBN_2023_v39n6_1_1195_f0006.png 이미지

Fig. 6. Comparison of detection performance for each model on gravel beaches.

OGCSBN_2023_v39n6_1_1195_f0007.png 이미지

Fig. 7. Comparison of detection performance for each model when the object is obscured by shadows. A rope is present within the shadow area caused by a styrofoam buoy located on the left side of the image.

OGCSBN_2023_v39n6_1_1195_f0008.png 이미지

Fig. 8. Comparison of detection performance for each model in situations with multiple mixed objects.

3.2. 탐지 정확도 및 속도 비교

본 연구에서는 비교 대상 모델의 탐지 정확도 및 속도 비교를 위해 GPU를 탑재한 워크스테이션 환경(Table 2)에서 수행하였으며, 탐지 속도는 평가용 데이터셋의 이미지수(8,016장)만큼 반복 수행 후 평균값을 활용하였다.

Table 2. Environment for measuring detection accuracy and speed

OGCSBN_2023_v39n6_1_1195_t0002.png 이미지

Table 3. Comparative analysis of detection accuracy and speed

OGCSBN_2023_v39n6_1_1195_t0003.png 이미지

성능 평가 결과 YOLOv8 계열 모델들은 탐지 정확도 측면에서 RT-DETR 계열 모델들에 비해 더 높은 정확도를 보였다. YOLOv8 모델 중 가장 모델 구조가 단순한 YOLOv8s의 경우 mAP50이 0.927이었던 것에 비해 RT-DETR은 가장 모델 구조가 복잡한 RT-DETR-x의 mAP50은 0.918에 그쳤다. 한편, 탐지 속도 측면에서 비교해보았을 때, YOLOv8 계열 모델은 최소 64 FPS에서 최대 135 FPS의 추론 속도를 보인 것에 비해 RT-DETR 계열 모델은 최소 40 FPS에서 최대 52 FPS의 추론 속도를 보여주었다. 비교 대상 모델 모두 30 FPS 이상의 탐지 속도를 보여 동영상 입력 시에도 실시간 탐지가 가능한 것을 확인할 수 있었다. 또한 YOLOv8s나 YOLOv8m의 경우 100 FPS 이상의 속도를 보여주어 수천장 이상의 이미지 촬영이 필요한 넓은 해안 모니터링에 유용할 것으로 판단된다.

3.3. 강건성 비교

Table 4는 모델별 노이즈 유형에 따른 성능 변화를 비교한 결과이다. 기준 데이터셋(Baseline)은 인위적인 노이즈가 추가되지 않은 평가용 데이터셋을 의미한다. 표에는 각 노이즈 유형별로 다른 강도를 적용했을 때, 도출되는 탐지 정확도를 평균하여 표기하였다. 노이즈 유형별로 성능을 비교해본 결과 블러 효과, 밝기(Brightness) 변화, 콘트라스트(Contrast) 변화, 채도(Saturation) 변화에 있어서는 평균적으로 5% 이내의 성능 저하를 보여 비교 대상 모델 모두 강건한 경향을 보였다. 반면, 대상물 가림에 있어서는 모든 모델에서 최소 20%에서 최대 70% 이상의 성능 하락을 보여 강건성 확보가 어려운 것을 확인할 수 있었다.

Table 4. Comparative analysis of model performance variations by noise type (Mean values for each noise category)

OGCSBN_2023_v39n6_1_1195_t0004.png 이미지

Table 5는 각 노이즈 유형별로 노이즈 강도에 따라 변화하는 탐지 정확도 변동을 최대값과 최소값의 차이로 표기한 결과이다. 노이즈 강도가 강해짐에 따라 정확도 저하가 발생하는 경향은 모든 유형의 노이즈에서 공통적으로 보이는 현상이므로 변동폭이 크다는 것은 노이즈 강도 변화에 따른 성능 저하 수준이 높다는 것으로 해석될 수 있다. 노이즈에 대한 모델 간 성능을 비교해본결과 색상(Hue) 왜곡을 제외한 모든 모델에서 YOLOv8 계열 모델이 RT-DETR에 비해서 강건한 것을 확인할 수 있었다. 또한 동일 계열 모델 내 모델 복잡도에 따른 성능 차이보다 모델 간 성능 차이가 더 큰 것을 확인할 수 있었다. RT-DETR의 경우 대부분의 사례에서 가장 복잡도가 높은 RT-DETR-x 모델이 YOLOv8 계열 중 가장 낮은 복잡도를 보이는 YOLOv8s보다 낮은 강건성을 보였다.

Table 5. Comparative analysis of performance variation magnitude (%p) across models based on intensity changes by noise type

OGCSBN_2023_v39n6_1_1195_t0005.png 이미지

한편, 색상 왜곡의 경우 대체로 YOLOv8 계열 모델에서 높은 성능 저하(평균 29.25~38.72%)를 보인데 비해 RT-DETR 계열 모델의 경우 상대적으로 낮은 성능저하(평균 19.01~22.78%)를 보인 것을 확인할 수 있었다. 반면 대상물의 일부가 가려지는 현상(Screened)에 대해서는 반대 경향을 보였다. 이를 통해 YOLOv8 계열 모델의 경우 색상을 통해 만들어지는 분광학적 특징에 상대적으로 높은 의존도를 보이며, RT-DETR의 경우 대상물의 형태나 배치가 만들어내는 특징에 대해 상대적으로 높은 의존도를 보이는 경향이 있음을 확인할 수 있었다.

블러 효과로 인한 노이즈는 드론 촬영 시 기체가 고속으로 비행하거나 바람에 의해 흔들릴 때 발생할 수 있다. 또한 기상현상에 의한 해무 발생 상황에서도 유사한 품질의 이미지가 촬영될 수 있다. 비교 대상 모델은 전반적으로 이러한 노이즈에 대해서는 강건한 것으로 보이며, 특히 YOLOv8 계열 모델이 RT-DETR에 비해 더 강건한 것으로 확인되었다. 기체의 비행 속도는 카메라의 셔터스피드 성능을 고려하여 일정한 수준으로 조정이 가능하다. 그러나 연중 강한 바람이 부는 동해안이나 해무 발생 빈도가 높은 해안가의 모니터링 시에는 YOLOv8 계열의 모델을 활용하는 것이 RT-DETR 모델에 비해 더 정확한 집계 결과를 얻을 수 있을 것으로 보인다.

밝기와 콘트라스트 변화는 정오와 같이 특정 시간대에 태양광의 강도, 반사광 등에 의해 발생할 수 있다. 특히 해안을 피복하고 있는 쓰레기의 성상 중 오염이 덜한 스티로폼 부표나 PET 병이 많은 경우 이러한 노이즈 영향이 심할 수 있다. 또한 자갈 해변의 경우에도 태양의 남중고도에 따라 자갈 표면 반사로 인해 주변 대상물의 밝기와 콘트라스트에 변화를 만들어낼 수 있다. 따라서 모니터링 대상 해변의 면적이 넓어 정오시간을 피할 수 없거나 자갈 해변에서 촬영하는 경우 YOLOv8 계열의 모델을 활용하는 것이 RT-DETR 모델에 비해 더 정확한 집계 결과를 얻을 수 있을 것으로 보인다.

채도 변화의 경우 운량에 따라 변화할 수 있으나 대부분의 경우 카메라의 화이트밸런스, 자체적인 노출보정 알고리즘, 렌즈 특성 등에 의해서 변할 수 있다. 해안가에서 모니터링 시 매번 동일한 카메라로 촬영하지 못하는 경우 이러한 채도 변화가 발생할 수 있다. 그러나 모든 유형의 모델에서 채도 변화 강도에 따른 성능 저하는 1%p1) 미만으로 발생하여(Table 5) 성능 저하 정도가 미미한 것으로 보인다. 이는 채도 변화가 모델 성능에 미치는 영향이 적은 것으로 해석되어진다. 따라서 채도 변화로 인한 노이즈는 모델 선택에 있어서 중요한 요인은 아닌 것으로 판단된다.

한편, 색상 변화의 경우 다른 요소에 비해 상대적으로 높은 성능 저하를 보였으며, 강도가 강해짐에 따라 그 폭이 매우 큰 것을 확인할 수 있었다. 색상 변화는 태양광이 대상물에 입사하는 광경로의 길이에 따라 크게 변화하며, 주로 일출이나 일몰 조건에서 그 변화폭이 크다. 따라서 일출, 일몰 시간에 촬영이 부득이한 경우 RT-DETR 계열의 모델을 활용하는 것이 YOLOv8 모델에 비해 더 정확한 집계 결과를 얻을 수 있을 것으로 보인다.

대상물 가림의 경우 다른 객체가 대상물의 일부를 가릴만큼 고밀도로 존재하거나, 인적이 드물어 해변에 식생이 존재하는 경우 발생할 수 있다. 이 경우 수치적으로는 YOLOv8 계열의 모델이 RT-DETR 모델에 비해 강건한 것으로 확인되었으나 YOLOv8 계열의 모델 역시 mAP가 0.4 미만으로 대상물 탐지가 현실적으로 어려울 것으로 판단된다. 따라서 식생에 의한 대상물 가림이 빈번히 일어날 것으로 예상되는 무인도서의 경우 식생의 피복 수준이 상대적으로 낮은 가을, 겨울철에 촬영하는 것이 권장되며, 부득이하게 여름철에 촬영해야하는 경우에는 본 연구에서 비교한 모델로는 정확한 결과물을 얻을 수 없을 것으로 판단된다.

3.4. 최종 모델 선택

Table 6은 YOLOv8과 RT-DETR의 탐지 정확도 및 탐지 속도, 각종 왜곡에 대한 강건성을 나타낸 종합 비교표이다. 강건성과 관련된 항목들은 왜곡 강도별로 평균한 값이며, FPS는 다른 지표들과 같은 스케일의 수치로 비교하기 위해 0~1의 값을 가지도록 정규화(Normalization) 하였다. 정규화 시 특정 모델의 FPS 대비 최대 FPS값의 비율로 나타내었다. Fig. 9는 Table 6에서 각 비교 항목(mAP50, FPS, Blur, Saturation 등)을 같은 계열 모델에 대해 평균한 값(Table 우측 2개 칼럼)을 방사형 그래프로 나타낸 것이다. 비교 대상 항목 중 색상 왜곡에 대한 강건성을 제외하면, 모든 항목에서 YOLOv8이 RT-DETR에 비해 높은 수치를 보이고 있다. 특히 탐지 속도(FPS)에 있어서는 평균적으로 YOLOv8이 RT-DETR에 비해 2배 정도 높은 수치를 보이고 있다.

Table 6. Comprehensive comparison of performance and robustness for coastal debris detection between YOLOv8 and RT-DETR

OGCSBN_2023_v39n6_1_1195_t0006.png 이미지

OGCSBN_2023_v39n6_1_1195_f0009.png 이미지

Fig. 9. Comprehensive comparison of performance and robustness in coastal debris detection between YOLOv8 and RT-DETR.

탐지 정확도 측면에서는 수치적으로 차이가 존재하나 정성적 평가 결과에 비추어볼 때, 실제 탐지 능력에 있어서는 유의미한 차이는 없는 것으로 판단된다. 그러나 탐지 속도 차이로 인해 모니터링에 소요되는 시간에 있어서는 YOLOv8을 활용하는 것이 단위 시간당 더 많은 해변에 대한 분석 결과를 얻을 수 있어 전국 단위의 모니터링에 있어서는 YOLOv8이 더 적합한 것으로 판단된다. 또한 강건성에 있어서도 색상 왜곡을 제외한 모든 항목에서 YOLOv8이 더 강건한 것으로 확인되었으며, 색상 왜곡의 경우 일몰 및 일출 시간을 고려하여 촬영계획을 수립한다면 데이터 수집 단계에서 회피가 가능할 것으로 보인다. 따라서 실제 해안쓰레기 모니터링에 적용한다는 관점에서 볼 때, YOLOv8 계열의 모델을 기반으로 모니터링 시스템을 구축하는 것이 RTDETR 계열 모델에 비해 타당한 것으로 사료된다.

한편, YOLOv8 내에서도 Compound Scaling 수준에 따라 성능 차이가 존재한다. 비교 대상 모델 중 가장 모델 복잡도가 낮은 YOLOv8s의 mAP50은 0.927이며, 가장 모델 복잡도가 높은 YOLOv8x의 mAP50은 0.945로 이 차이는 YOLOv8과 RT-DETR의 평균적인 차이보다 더 작은 폭을 보이고 있다. 반면, FPS의 경우 YOLOv8s가 135.14, YOLOv8x가 64.52로 2배 이상의 차이를 보이고 있다. 따라서 극단적으로 높은 정확도 확보가 필요한 상황이 아닌 경우 YOLOv8s를 기반으로 모니터링 시스템을 구성하는 것이 모니터링 효율을 고려했을 때 더 타당한 선택으로 판단된다.

4. 결론

본 연구에서는 최근 실시간 객체 탐지 분야에서 높은 성능을 보이고 있는 YOLOv8과 RT-DETR을 대상으로 해안쓰레기 모니터링에 대한 성능 비교를 수행하였다. 해안쓰레기 모니터링에 대한 적합도를 비교하기 위해 각 모델의 탐지 정확도와 탐지 속도, 강건성을 수치적으로 평가하였다. 비교 결과 다음과 같은 결론을 얻을 수 있었다.

1) 탐지 정확도 및 속도 측면에서 YOLOv이 RT-DET에 비해 전반적으로 높은 성능을 보였다. 탐지 정확도는 최대값(YOLOv8x, 0.945)과 최소값(RT-DETR, 0.917) 간의 차이가 mAP50을 기준으로 0.027로 크지 않았으나, 탐지 속도는 최대값(YOLOv8s, 135.14)과 최소값(RT-DETR-x, 39.53)의 차이가 FPS를 기준으로 95.61로 넓은 해변에서 신속한 결과를 얻기 위해서는 YOLOv8 계열의 모델을 선택하는 것이 타당하다고 판단된다.

2) YOLOv8 계열의 모델은 대체로 RT-DETR에 비해 높은 강건성을 보였다. 특히, 드론 촬영 시 발생할 수 있는 블러 효과와 밝기 및 콘트라스트 변화에 대해서는 YOLOv8이 RT-DETR에 비해 강건한 경향이 있었다.

3) 색상 왜곡의 경우 RT-DETR 계열 모델이 YOLOv8 계열 모델에 비해 더 높은 성능을 보였다. 따라서 일출이나 일몰과 같이 태양광의 밝기 변화가 큰 시간에는 RT-DETR 모델의 사용이 더 적합할 것으로 판단된다.

4) 카메라의 화이트밸런스, 노출보정 알고리즘 등의 요소로 인한 채도 변화는 모든 모델에서 미미한 성능 저하를 보였으며, 이는 모델 선택에 큰 영향을 미치지 않을 것으로 판단된다.

5) 대상물 가림 현상에 있어서는 YOLOv8이 RT-DETR에 비해 수치적으로는 더 강건한 경향이 있었다. 하지만 mAP가 0.4 미만으로 실제 활용 시 두 모델 모두 탐지 성능에 큰 제약이 있을 것으로 보인다.

6) 실제 해안가 모니터링 상황을 고려했을 때, 색상 왜곡 상황은 데이터 수집 단계에서 대비가 가능하며, 대량의 이미지를 신속하게 처리한다는 관점에서 탐지 속도가 평균적으로 2배 가량 높은 YOLOv8 계열의 모델이 더 적합한 것으로 판단된다. 또한 YOLOv8 내에서도 모델 복잡도에 따른 탐지 정확도 차이는 미미한 수준이므로 탐지 속도를 고려하여 YOLOv8s를 활용하는 것이 타당한 것으로 사료된다.

본 연구를 통해 얻은 결론은 실제 모니터링 환경 및 조건을 고려하여 적절한 모델 선택을 하는 데 큰 도움을 제공할 것으로 기대된다. 또한 향후 본 연구의 결과를 토대로 비교한 모델들의 성능 및 강건성 개선을 위한 데이터 증강 계획 및 모델 구조 개선에 활용될 수 있을 것으로 기대된다.

1) 퍼센트 포인트(Percentage Point): 두 백분율과의 산술적 차이를 나타낼 때 사용하는 단위로 pp, %p, %P로 표기한다. 예컨대 모델 A의 정확도가 80%이며, 이를 개선한 모델 A1의 정확도가 90%라고 가정했을 때, 성능이 12.5% 개선되었다라고 표기할 수 있으며, 동시에 10%p (또는 10pp)증가했다고 표기할 수 있다.

사사

본 연구는 중소벤처기업부의 구매조건부신제품개발 사업의 일환으로 수행하였음(과제번호: S3226180, 해양쓰레기 모니터링용 지능형 영상 자동 분석 시스템 개발).

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. Ahmed, A., Tangri, P., Panda, A., Ramani, D., and Karmakar, S., 2019. Vfnet: A convolutional architecture for accent classification. In Proceedings of the 2019 IEEE 16th India Council International Conference (INDICON), Rajkot, India, Dec. 13-15, pp. 1-4. https://doi.org/10.1109/INDICON47234.2019.9030363
  2. Bak, S. H., Kim, N. K., Jeong, M. J., Hwang, D. H., Enkhjargal, U., Kim, B. R. et al., 2020. Study on detection technique for coastal debris by using unmanned aerial vehicle remote sensing and object detection algorithm based on deep learning. The Journal of the Korea Institute of Electronic Communication Sciences, 15(6), 1209-1216. https://doi.org/10.13067/JKIECS.2020.15.6.1209
  3. Bao, Z., Sha, J., Li, X., Hanchiso, T., and Shifaw, E., 2018. Monitoring of beach litter by automatic interpretation of unmanned aerial vehicle images using the segmentation threshold method. Marine Pollution Bulletin, 137, 388-398. https://doi.org/10.1016/j.marpolbul.2018.08.009
  4. Choi, K., 2021. A coastal garbage monitoring system using drones and AI technologies: Focusing on the case of Jeju province. Journal of Korean Society for Geospatial Information Science, 29(4), 127-138. http://doi.org/10.7319/kogsis.2021.29.4.127
  5. Delre, A., Goudriaan, M., Morales, V. H., Vaksmaa, A., Ndhlovu, R. T., Baas, M. et al., 2023. Plastic photodegradation under simulated marine conditions. Marine Pollution Bulletin, 187, 114544. https://doi.org/10.1016/j.marpolbul.2022.114544
  6. Han, S. K., 2020. The concept of microplastics and their occurrence, transport, biological effects, and management methods in the ocean. Journal of Environmental Health Sciences, 46(5), 610-626. https://doi.org/10.5668/JEHS.2020.46.5.610
  7. He, K., Gkioxari, G., Dollar, P., and Girshick, R., 2017. Mask R-CNN. In Proceedings of the 2017 IEEE International Conference on Computer Vision, Venice, Italy, Oct. 22-29, pp. 2980-2988. https://doi.org/10.1109/ICCV.2017.322
  8. Jang, S. W., Lee, S. K., Oh, S. Y., Kim, D. H., and Yoon, H. J., 2011. The application of unmanned aerial photography for effective monitoring of marine debris. Journal of the Korean Society of Marine Environment & Safety, 17(4), 307-314. https://doi.org/10.7837/kosomes.2011.17.4.307
  9. Kako, S., Isobe, A., and Magome, S., 2012. Low altitude remote-sensing method to monitor marine and beach litter of various colors using a balloon equipped with a digital camera. Marine Pollution Bulletin, 64(6), 1156-1162. https://doi.org/10.1016/j.marpolbul.2012.03.024
  10. Redmon, J., and Farhadi, A., 2018. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767. https://doi.org/10.48550/arXiv.1804.02767
  11. Scarrica, V. M., Aucelli, P. P. C., Cagnazzo, C., Casolaro, A., Fiore, P., La Salandra, M. et al., 2022. A novel beach litter analysis system based on UAV images and convolutional neural networks. Ecological Informatics, 72, 101875. https://doi.org/10.1016/j.ecoinf.2022.101875