DOI QR코드

DOI QR Code

Deep Learning Algorithm Training and Performance Analysis for Corridor Monitoring

회랑 감시를 위한 딥러닝 알고리즘 학습 및 성능분석

  • 정우진 (한서대학교 항공전자공학과) ;
  • 홍석민 (한서대학교 무인항공기학과) ;
  • 최원혁 (캐스트유한회사)
  • Received : 2023.11.20
  • Accepted : 2023.12.13
  • Published : 2023.12.30

Abstract

K-UAM will be commercialized through maturity after 2035. Since the Urban Air Mobility (UAM) corridor will be used vertically separating the existing helicopter corridor, the corridor usage is expected to increase. Therefore, a system for monitoring corridors is also needed. In recent years, object detection algorithms have developed significantly. Object detection algorithms are largely divided into one-stage model and two-stage model. In real-time detection, the two-stage model is not suitable for being too slow. One-stage models also had problems with accuracy, but they have improved performance through version upgrades. Among them, YOLO-V5 improved small image object detection performance through Mosaic. Therefore, YOLO-V5 is the most suitable algorithm for systems that require real-time monitoring of wide corridors. Therefore, this paper trains YOLO-V5 and analyzes whether it is ultimately suitable for corridor monitoring.K-uam will be commercialized through maturity after 2035.

K-UAM은 2035년까지의 성숙기 이후 상용화될 예정이다. UAM 회랑은 기존의 헬리콥터 회랑을 수직 분리하여 사용될 예정이기에 회량 사용량이 증가할 것으로 예상된다. 따라서 회랑을 모니터링하는 시스템도 필요하다. 최근 객체 검출 알고리즘이 크게 발전하였다. 객체 검출 알고리즘은 1단계 탐지와, 2단계 탐지 모델로 나뉜다. 실시간 객체 검출에 있어서 2단계 모델은 너무 느리기에 적합하지 않다. 기존 1단계 모델은 정확도에 문제가 있었지만, 버전 업그레이드를 통해 성능이 향상되었다. 1단계 모델 중 YOLO-V5는 모자이크 기법을 통한 소형 객체 검출 성능을 향상시킨 모델이다. 따라서 YOLO-V5는 넓은 회랑의 실시간 모니터링에 가장 적합하다고 판단된다. 본 논문에서는 YOLO-V5 알고리즘을 학습시켜 궁극적으로 회랑 모니터링 시스템에 대한 적합도를 분석한다.

Keywords

Ⅰ. 서론

도심 항공 모빌리티 (이하 UAM; urban air mobility)는 차세대 항공 모빌리티 (AAM; advanced air mobility)의 하위 개념으로, 도심 내, 외의 저고도 환경을 운항하는 운용 체계를 말한다. UAM은 기존 교통수단보다 빠른 속도로 도심 지점간을 운항할 수 있다. 한국형 도심항공교통 (K-UAM)은 2025년부터 2030년까지의 초기단계, 2030년부터 2035년까지의 성장기, 2035년 이후의 성숙기를 통해 상용화될 예정이다. UAM의 자유로운 비행을 허가할 경우 위험요소가 많기에 UAM 전용 회랑을 지정할 필요가 있다. 현재는 헬기 회랑을 수직 분리하여 사용하는 계획이 진행되고 있다.

UAM이 상용화 됨에 따라 회랑의 용량이 증가하고 이를 감시하기 위한 모니터링 시스템이 필요하다. 모니터링 시스템을 수행하기 위해서 객체 탐지알고리즘을 통해 UAM이라는 객체를 훈련 및 학습해야 한다.

기존의 객체 탐지 알고리즘으로 훈련 및 학습을 진행할 경우 다량의 데이터를 처리하는 실시간 객체 감지에 있어서 적합하지 않다. 최근 몇 년 사이 이미지 처리 기술과 인공지능 기술이 빠르게 발전하면서 동영상 및 딥러닝 기반 표적검사 모델들이 발전하였다.

그렇기에 본 논문에서는 회랑 내 이동하는 물체인 UAM을 탐지하기 위한 실시간 객체 탐지가 가능한 딥러닝 알고리즘을 제안하고 알고리즘 훈련 및 성능 평가를 통해 적합도 분석을 수행한다.

Ⅱ. 기존의 객체 탐지 알고리즘

기존의 객체 탐지 알고리즘은 일반적으로 수동 추출을 통해 특징을 추출한다. 움직이는 물체는 비디오 시퀀스에서 추출되고 추출된 특징은 객체 식별 목적을 달성하기 위해 분류기에 의해 분류된다.

객체 탐지 방법으로는 백그라운드 업데이트 방법, 프레임 차이 방법, 광학흐름방법이 있다.

백그라운드 업데이트 방법은 가중치 평균이라는 아이디어를 사용하며, 백그라운드 업데이트 영향은 종종 대상 추출의 완성도와 대상 탐지의 정확도에 영향을 미친다.

프레임 차이 방법은 인접한 프레임 간의 차이를 계산하여 대상 추출 목적을 달성하는 것을 목표로 한다. 이 방법은 종종 차량의 속도와 연속 프레임 사이의 시간 간격에 의해 크게 영향을 받는다. 광학 흐름 방법은 픽셀 레벨에서 밀도를 추정하는 방법이다. 이전 프레임과 현재 프레임의 차이를 이용하고 픽셀값과 주변 픽셀들과의 관계를 통해 이동을 계산하여 추출한다. 조명의 변화가 없어야 한다는 조건이 필요함으로 알고리즘을 구현하는데 있어서 많은 어려움이 있다.

분류 컨트롤러는 후보 상자에서 각 대상의 특정 위치를 분류하고 정확하게 찾는데 사용된다. 실시간 탐지를 하는 데 있어서 다량의 데이터는 분리함이 있기에 사용되는 알고리즘은 제한적이다. 일반적으로 SIFT, HOG, Harr 등이 있다. 분류 제어기 장치에는 SVM과 Adaboost 등이 있다.

Ⅲ. 실시간 객체 탐지 알고리즘

3-1 실시간 객체 탐지 알고리즘

실시간 객체 탐지를 위해 사용하는 알고리즘은 두가지 범주로 나눌 수 있다. 하나는 후보 영역의 두 단계를 기반으로 한 R-CNN 계열 연산 방법이다.

R-CNN (region based convolutional neural network)은 2014년 로스 거식이 제안한 신경망 구조이다. R-CNN은 영역 기반 신경망 구조 중 가장 기본적인 모델로 Classification과 Localization이 순차적으로 일어나는 알고리즘이다. R-CNN의 기본 구성 요소는 RoI 추출기, 특징 추출 모듈, 분류 모듈, 위치 특정 모듈이다.

R-CNN[1] 이미지 한 장마다 2,000개 이상의 RoI가 제안되고 이들 영역이 모두 전체 파이프라인을 통과하는 구조이기 때문에 계산 부하가 매우 크고 느리다. 이러한 문제점을 개선하기 위해 2015년에 로스 거식의 Fast R-CNN, 2016년에 샤오칭 렌의 Faster R-CNN으로 발전해왔다. Faster R-CNN 알고리즘의 구조는 그림. 1.과 같다.

HHHHBI_2023_v27n6_776_f0001.png 이미지

그림 1. Faster R-CNN 구조

Fig. 1. Faster R-CNN

Faster R-CNN[1] 알고리즘은 기존의 R-CNN을 기반으로 선택 검사 대신 RPN(region proposal network)을 도입했고, RPN은 선택적 검색 대신 RPN을 깊이감권 신경망에 추출하여 각 위치에서 대상 경계상자와 카테고리의 신뢰도 점수를 동시에 예측하여 네트워크 계산을 빠르게 했다.

R-CNN의 계열은 투-스테이지 객체 탐지 알고리즘이기에 영역후보를 선정하고 객체를 분류하는 작업이 동시에 일어나지 않는다. 그렇기에 속도에 있어서 추후 설명하는 알고리즘 대비 성능이 좋지 않다. Faster R-CNN에서 이러한 문제점을 개선하였지만, 개선한 성능치 역시 뒤에 나오는 알고리즘에 비해 낮은 수치이다.

3-2 원-스테이지 객체 탐지 알고리즘

2단계 방식과 달리 1단계 방식은 후보 박스를 미리 생성하지 않는다. 후보 상자에서 예측 및 탐지 과정이 동시에 일어난다.

대표적인 알고리즘은 YOLO[2]와 SSD가 있다.

YOLO는 2016년 Josep Redmon이 최초로 제안한 사물 탐지 신경망이다. 이미지를 격자 형태로 분할하고 분활된 영역을 대상으로 직접 경계 박스와 사물 분류를 수행한다. 그 결과 많은 수의 경계 박스 후보가 생성되는 데 이를 MMS를 사용하여 최종 예측 결과로 줄이는 방식이다.

YOLO[2]는 2016년 45 fps의 속도에 도달했으며 정확도는 R-CNN보다 높게 나오기에 실시간 객체 탐지에 가장 적합하다.

YOLO[2]는 YOLO 9000, YOLO V3[3] 버전으로 업그레이드하면서 FPN과 기타 구조를 추가하여 손실함수를 개선하였다.

2020년 AlexAB는 YOLO V4[3]를 기존의 YOLO에 새로운 백본 네트워크 조합을 시도하여 YOLO V3[3] 대비 평균정확도를 10% 인상하였다.

같은 해 Jocher Glenn은 YOLO V5를 출시하였다. YOLO V5는 인풋, 백본, 넥, 프레딕션으로 구성되어 있으며 기존 V3, V4와 유사한 구조를 지니지만 세부적인 부분이 조금 변형되었다. 인풋 모듈에 Mosaic 데이터 증강을 넣었고, 백본 모듈에 Focus, CSP[3]구조, 넥 모듈은 FPN+PAN[3] 구성, 프레딕션에서는 GIOU_Loss 손실 함수를 사용하여 기존의 버전의 문제점인 작은 객체 탐지 취약성을 보완하였다.

백본은 CSPnet 5개의 CSP 모듈로 구성되어 있으며, 총 72개의 볼륨코어를 포함하고 있으며, 3x3의 볼륨층을 추출할 수 있다. CSP 모듈은 특징을 두 부분으로 나누고 이를 단계적 차원으로 통합해 정확도를 확보하면서 계산량을 줄여 608x608x3의 이미지를 입력하면 5개의 CSP모듈을 거쳐 19x19의 특징도를 출력한다.

넥 구조는 경로통합망(panet)으로 특징 피라미드를 생성하는 데 주로 사용되며, 특징 피라미드는 모델이 다른 척도의 대상을 인식해 동일 대상을 다척도 인식할 수 있도록 하였다. 그림 2와 그림 3은 각각 조셉 레드몬의 YOLO와 Jocher Glenn의 YOLO V5 CSP구조이다.

HHHHBI_2023_v27n6_776_f0002.png 이미지

그림 2. CSP YOLO V1 구조도

Fig. 2. YOLO V1

HHHHBI_2023_v27n6_776_f0003.png 이미지

그림 3. CSP

Fig. 3. CSP

SSD(single shot detection)는 FFCN(feed-forwart convolutional network)를 기반 알고리즘이다. SSD 알고리즘은 최상위 계층에서만 탐지를 진행하는 기존의 알고리즘과 다르게 모든 계층에서 객체 탐지를 진행하는 특징이 있다. 그림 4는 SSD 알고리즘의 구조이다.

HHHHBI_2023_v27n6_776_f0004.png 이미지

그림 4. SSD

Fig. 4. SSD

각 특짐 맵에서 비율과 척도가 다른 기본 상자를 생성한다. 모델을 통해 계산된 좌표 및 클래스 값을 사용하여 최종 경계 박스를 구현한다. 다양한 특징 맵을 사용하여 다양한 크기를 예측할 수 있으며, FC(fully connected)층을 교체하여 성능과 속도를 향상시켰다.

3-3 선별 알고리즘

최근의 YOLO 모델들은 기존의 YOLO 모델에 FPN, FPN+PAN, CSP 모듈을 통해 정확도를 꾸준히 향상시켰다. 그 중 YOLO V5 모델은 인풋 모듈에 Mosaic 데이터 증강을 넣어 작은 객체 탐지 성능을 강화하였다. 이는 광활한 범위를 실시간 스트리밍을 통해 감시하는 회랑 감시 시스템에 적합한 알고리즘이다.

따라서 본 논문은 YOLO V5 알고리즘을 헬기 이미지와 드론이미지를 통해 훈련시킨 후 테스트를 통해 회랑 감시 적합성을 분석한다.

Ⅳ. 알고리즘 훈련 및 성능 평가

4-1 데이터 세트 분류 및 학습

Roboflow의 헬기, 드론이미지를 3829개의 Train이미지, 692개의 Validation이미지, 1476개의 Test이미지로 나누어 학습을 진행하였다.

HHHHBI_2023_v27n6_776_f0005.png 이미지

그림 5. 알고리즘 훈련

Fig. 5. Algorithm Training

배치와 에포크는 각각 16, 30으로 설정하여 시뮬레이션을 진행하였고, 총 소요시간은 2시간이다.

4-2 알고리즘 성능평가

딥러닝 객체 탐지 알고리즘의 성능 평가 지표로 가장 많이 사용되는 것은 초당 프레임 수(FPS)와 평균평균정밀도( mAP; mean average precision)이다. FPS는 탐지 속도를 평가하는 지표로 2단계에 거쳐서 영역을 확보하는 R-CNN 계열 대비 원-스테이지로 영역을 확보하는 SSD, YOLO 계열의 성능이 우수하다.

평균평균정밀도(mAP)는 0~100의 값을 나타내며 100으로 갈수록 좋은 성능을 나타낸다. 평균평균정밀도에 영향을 주는 요소는 중첩률(IoU)와 PR곡선이다.

중첩률은 2개의 경계 박스가 중첩되는 정도를 나타내는 값을 의미한다. 정답 경계 박스와 예측 경계 박스가 있다고 가정할 때 IoU를 계산하여 해당 탐지 결과가 유효한지(true positive), 아닌지(false positive)를 결정할 수 있다.

정답 경계 박스(Bgt)는 수동으로 레이블링된 경계 박스를 의미하고 예측 경계 박스(Bp)는 모델의 예측 결과를 나타낸다. 두 박스가 겹치는 부분의 면적을 두 박스를 합한 영역의 면적으로 나누어 중첩률을 계산한다.

중첩률은 mAP의 임계값을 설정하는 데 사용된다. mAP@0.5의 경우 중첩률의 임계값이 0.5를 의미하며 mAP@0.75는 중첩률의 임계값이 0.75이다. 임계값을 초과하면 해당 예측은 정답을 맞힌 것(TP)으로 간주하고 임계값보다 낮을 시 틀린 것(FP)으로 간주한다.

PR곡선은 재현율과 정밀도를 각각 x, y축 위에 표시한 곡선이다.

재현율은 실제값이 Postive인 대상 중에 예측값과 실제값이 Positive로 일치한 데이터의 비율을 뜻하며 민감도, 또는 TPR(true positive rate)라고도 불린다.

정밀도는 예측을 Postive로 한 대상중에 예측값과 실제값이 Positive로 일치한 데이터의 비율을 뜻한다. Positive 예측 성능을 더욱 정밀하게 측정하기 위한 평가 지표로 양성 예측도라고도 불린다.

아래 표 1은 알고리즘 성능 평가에 사용되는 혼동 행렬이다.

표 1. 혼동행렬

Table 1. Confusion Matrix

HHHHBI_2023_v27n6_776_t0001.png 이미지

아래 수식 1와 수식 2는 각각 정밀도와 재현율의 수학적 모델이다.

재현율 = TP/(FN+TP)       (1)

정밀도 = TP/(FP+TP)       (2)

4-3 결과 분석

학습을 통해 얻은 재현율과 정밀도의 값은 아래와 같다.

HHHHBI_2023_v27n6_776_f0006.png 이미지

그림 6. 시뮬레이션 결과

Fig. 6. Results

재현율은 훈련이 진행됨에 따라 0.75의 값을 나타내었고, 정밀도는 0.85이상의 높은 값을 나타내었다. 재현율과 정밀도를 통해 구현한 PR곡선의 결과값은 그림 7과 같다.

HHHHBI_2023_v27n6_776_f0007.png 이미지

그림 7. PR곡선

Fig. 7. PR-Curve

헬리콥터 클래스와 드론 클래스의 mAP@0.5는 각각 0.906, 0.800으로 헬리콥터의 이미지 내의 객체 크기가 드론 객체보다 크기에 헬리콥터의 예측값이 더 높게 나왔다. 두 클래스의 mAP@0.5의 평균값은 0.853으로 높은 수치를 나타내며 이는 회랑 내의 객체 탐지에 있어서 적합한 수치라고 판단된다.

Ⅴ. 결론

본 논문에서는 실시간 객체 탐지 알고리즘의 종류와 발전과정에 대해 소개하였다. 알고리즘 별 장단점을 분류하고 궁극적으로 회랑 감시를 위한 딥러닝 알고리즘으로 YOLO V5 모델을 선정하였다. 이를 학습시켜 실제 YOLO V5 알고리즘이 회랑 감시를 위해 적합한 지에 대해 분석하였다. YOLO V5 알고리즘의 학습 결과 평균 0.853의 높은 mAP@0.5의 결과값을 나타내었다.

FPS에 장점이 있는 YOLO 알고리즘이 정확도까지 개선하였기에 클래스의 세분화와 데이터 세트의 정교화 및 양적 강화를 통해 학습된 모델은 실시간 회랑 감시 시스템에 충분히 사용될 수 있는 성능을 보유하고 있다고 판단된다.

Acknowledgments

본 연구는 2023년도 중소벤처기업부의 기술개발사업 지원에 의한 연구임[202201410002]

References

  1. S. Ren, K. He, Cho, R. Girshick, and Jiam Sun, "Faster r-cnn: Toward real-time object detection with region proposal networks," Advances in neural information processing systems 28, 2015
  2. J. Redmon, S. Divvala, R. Girshik, and A. Farhadi, "You only look once: Unified, real-time object detection,"in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016
  3. J. A. Bochkovskiy, C. Y. Wang, and H. M. Liao, "Yolov4: Optimal speed and accuracy of object detection," arXiv preprint arXiv:2024.10934, 2020