DOI QR코드

DOI QR Code

A Methodology for Making Military Surveillance System to be Intelligent Applied by AI Model

AI모델을 적용한 군 경계체계 지능화 방안

  • Changhee Han (Dept. of Computer Science, Korea Military Academy) ;
  • Halim Ku (AI R&D center, Korea Military Academy) ;
  • Pokki Park (Dept. of Electrical Engineering, Korea Military Academy)
  • Received : 2023.06.01
  • Accepted : 2023.07.18
  • Published : 2023.08.31

Abstract

The ROK military faces a significant challenge in its vigilance mission due to demographic problems, particularly the current aging population and population cliff. This study demonstrates the crucial role of the 4th industrial revolution and its core artificial intelligence algorithm in maximizing work efficiency within the Command&Control room by mechanizing simple tasks. To achieve a fully developed military surveillance system, we have chosen multi-object tracking (MOT) technology as an essential artificial intelligence component, aligning with our goal of an intelligent and automated surveillance system. Additionally, we have prioritized data visualization and user interface to ensure system accessibility and efficiency. These complementary elements come together to form a cohesive software application. The CCTV video data for this study was collected from the CCTV cameras installed at the 1st and 2nd main gates of the 00 unit, with the cooperation by Command&Control room. Experimental results indicate that an intelligent and automated surveillance system enables the delivery of more information to the operators in the room. However, it is important to acknowledge the limitations of the developed software system in this study. By highlighting these limitations, we can present the future direction for the development of military surveillance systems.

현재 진행되는 고령화 및 인구절벽으로 대표되는 인구구조적 문제는 한국군 경계임무에 심각한 도전이 되고 있다. 본 연구의 목적은 AI모델을 적용해 군 경계체계를 지능화하는 것이다. 본 연구를 통해 제4차 산업혁명과 그 핵심이 되는 인공지능 알고리즘의 의의가 경계근무 상황실 내에서의 단순작업을 기계화하여 작업효율을 극대화하는 것임을 실증한다. 하나의 완성된 시스템으로서 군경계체계를 개발하기 위해, 지능화·자동화된 군(軍) 경계체계라는 목표로부터 필요한 인공지능 기술인 다중 객체 추적(multi-object tracking, MOT) 기술을 선택한다. 또한 체계 사용자의 접근성 및 체계 이용의 효율성을 담보하기 위해서는 데이터 시각화(data visualization)와 사용자 인터페이스(user interface)를 꼽았다. 이 추가 요소를 결합하여 하나의 유기적인 소프트웨어 애플리케이션을 구성한다. CCTV 영상 데이터 수집한 장소는 00부대 제1정문 및 제2정문에 설치된 CCTV 카메라이며, 지통실의 협조 아래 영상 수집을 진행하였다. 실험결과를 통해 경계체계를 지능화·자동화시켜 더 많은 정보를 경계체계 운용인원에게 전달할 수 있음을 보였다. 그러 나 여전히 개발된 소프트웨어 경계체계 역시 한계점이 존재한다. 이를 설명하여 군 경계체계 개발의 향후 방향성을 제시한다.

Keywords

1. 서론

본 연구의 목적은 AI모델을 적용해 군 경계체계를 지능화하는 것이다. 기존에 연구된 단순한 개별 문제를 푸는 인공지능 방법론을 활용하여 하나의 완성된 시스템으로서 군 경계체게를 개발하고자 한다.

경계임무 특히 휴전선 경계임무 달성을 위해서는 240여 km를 잇는 철책의 지속적인 감시가 필수적이다. 전방 경계임무에 투입되는 병력은 대한민국 육군의 인력소요 대부분을 차지하고 있다. 현재 진행되는 고령화 및 인구 절벽으로 대표되는 인구구조적 문제는 한국군 경계임무에 심각한 도전이 되고 있다. 이러한 극단적인 인력난의 근본적인 해결책을 마련하기 위해서는 과학·기술을 활용한 임무 수행 방식의 패러다임 전환이 필요한데, 이의 한 방편으로서 최근 주목받고 있는 인공지능 기술의 활용을 제안하는 것이다.

심층합성곱신경망을 기반으로 하는 인공지능 기술은 개별 문제로서는 흥미롭지만, 전체적인 산업·군사적 응용을 위한 통합 체계를 구성하기에는 지엽적인 세부 문제를 푸는 데에 집중하고 있으며, 하나의 완성된 체계를 개발하는 시도는 많지 않다[1][2]. 하나의 완성된 시스템으로서 군 경계체계를 개발하기 위해, 지능화·자동화 된 軍경계체계라는 목표로부터 필요한 인공지능 기술인 다중 객체 추적(multi-object tracking, MOT) 기술을 선택한다. 또한 체계 사용자의 접근성 및 체계 이용의 효율성을 담보하기 위해서는 인공지능 알고리즘 외적인 요소 역시 필요하다. 이러한 요소로서 데이터 시각화(data visualization)와 사용자 인터페이스(user interface)를 꼽았다. 이 추가 요소를 결합하여 하나의 유기적인 소프트웨어 애플리케이션을 구성한다.

본 연구를 통해 제4차 산업혁명과 그 핵심이 되는 인공지능 알고리즘의 의의가 경계근무 상황실 내에서의 단순작업을 기계화하여 작업효율을 극대화하는 것임을 실증한다. 더 나아가 인구절벽으로 대표되는 한국군의 도전 과제를 현명하게 해결할 수 있는 가능성을 본 고에서 찾을 수 있기를 바란다. 본 논문은 다음과 같이 구성된다. 2장에서 경계의 현실태와 관련 AI기술을 분석하고, 3장에서 지능형 경계 시스템을 어떻게 설계했는지를 기술하고, 4장에서는 그 설계를 토대로 적용한 시스템의 성능을 실증해 보고, 5장에서 결론을 맺도록 한다.

2. 경계 현실태 및 관련 AI 기술 분석

2.1 경계 체계 현실태

현재 ㅇㅇ부대 지통실에서는 먼저 영내에 각 초소별로 00여 대, 무기고를 비롯한 주요 시설에 추가로 다수의 CCTV를 설치·운용 중에 있다. 이들을 여섯 대의 TV 스크린에 분할하여 실시간 영상을 띄운다. 추가로 CCTV 감시병을 운용하여 동시에 두 사람이 해당 TV 스크린의 실시간 영상을 감시하게 하고 이상상황이 감지되었을 시 수기로 시간과 내용을 기록하도록 하고 있다. 현재 이 군 과학화곙계체계에는 감시병의 실수를 방지하고 효과적인 이상상황 감지를 돕기 위해 초보적인 이미지 분석 기법이 포함되어 있다. 그림 1은 실제 ㅇㅇ부대 제2정문에 위치한 CCTV 영상을 지통실에서 바라본 모습이다.

OTJBCD_2023_v24n4_57_f0001.png 이미지

(그림 1) ㅇㅇ부대 지통실의 CCTV 감시 예시

(Figure 1) An example of CCTV monitoring screen

CCTV 영상의 화소의 시간 변화를 탐지하여 변화가 있을 시, 이상상황으로 인식하여 화면 위에 붉은 줄이 오버레이되는 것을 볼 수 있다. 사람이나 자동차가 움직이거나 드론 등 미허가 물체가 화면에 새로이 포착되면 이전 프레임에 비해 현재 프레임에서의 화소 값이 변할 것이므로 붉은 줄이 출력되어 감시병에게 해당 화면에 이상반응이 있음을 알릴 수 있다. 그러나 이와 같은 알고리즘은 높은 위양성률(type I error, false positive, FP)를 유발한다. 예를 들어 바람이 불면 나무 등 지형지물이 흔들리거나 때로는 카메라 전체가 흔들려 이상상황을 나타내는 붉은 줄이 출력된다. 이상상황 인지를 돕기 위한 보조 알고리즘이 단순한 기상 현상에 무용지물이 되는 것이다.

높은 위양성률은 체계의 신뢰성을 떨어뜨린다. 참양성률(true positive, TP)이 100%여서 모든 이상상황을 감지할 수 있더라도 감시병으로 하여금 양성으로 판정된 결과를 믿을 수 없게 하여 체계의 효용성을 감소시킬 위험성이 있는 것이다. 신뢰성 높은 자동 경계체계를 만들기 위해서는 참양성률을 높게 유지하는 것 외에 체계를 지능화하여 위양성률을 낮추는 과업이 필요한 지점인 것이다.

2.2 경계체계 지능화 관련 AI 기술 분석

軍 경계체계의 지능화를 위해 필요한 인공지능 기술로서 선정한 다중 객체 추적(MOT)기술의 최신 연구 동향을분석한다. 객체 추적(object tracking)을 이해하기 위해서는 두 핵심 구성요소인 사물 탐지(object detection)와 사람 재인식(person re-identification)을 각각 언급해야 한다. 사물 탐지는 이미지나 영상 프레임으로부터 등장하는 여러 사물의 종류와 위치를 특정하는 문제이다.

사물탐지는 비디오와 같이 연속된 프레임 속에서 동일 인물의 위치를 추적하는 객체 추적 문제의 핵심 요소이긴 하지만, 여러 프레임에서 동일 인물임을 확인하는 데에는 사람 재인식 알고리즘이 또한 필요하다.

객체 추적은 사물 탐지와 사람 재인식 알고리즘을 결합함으로써 달성 가능하다. 가장 간단한 결합은 단순히 사물 탐지 신경망의 출력을 사람 재인식 알고리즘의 입력으로 사용하여 두 단계로 객체 추적 문제를 푸는 것이다. 이 방식의 알고리즘은 크게 실시간(online, real-time)으로 사물 탐지 결과를 받아 개체를 추적하는 방법과 사물 탐지가 끝난 후 일괄적(batch)으로 개체를 추적하는 방법으로 나뉜다. 일괄 객체 추적 방식은 결과 출력까지 시간 지연이 필수적이며, 이에 이상상황의 즉각적인 탐지를 요구하는 軍 경계체계에 적용하는 알고리즘으로서는 부적절하다. 또한 이와 같은 두 단계 방식은 두 신경망을 각각 다른 목적함수로 학습시켜야 한다는 점에서 비효율적이다.

객체 추적을 하나의 신경망을 통해서 달성하는 것이 더 바람직하다. 이런 문제의식에서 제기된 단일 신경망 객체 추적 알고리즘은 다시 두 가지 종류로 나눌 수 있다. 첫째로, 사물탐지와 개별 사물의 운동 특징(motion features)을 하나의 신경망을 통해 구하는 방식이 있다[3][4]. 이들 알고리즘은 연속하는 프레임 사이에 물체가 계속 탐지되는 상황을 가정한 것으로서, 가리움(occlusion) 등으로 인해 물체를 놓치는 경우 취약해진다는 단점이 있다. 둘째로, 사물 탐지와 사람 재인식의 두 신경망의 특징 추출기를 공유하는 방식이 있다. Track-RCNN[5]은 Mask R-CNN[6]에 사람 재인식을 위한 특징 변환을 위한 헤드(Re-ID head)를 추가함으로써 이를 구현하였다. 본 연구에서 활용할 FairMOT[7]는 이 마지막 분류에 포함된다.

3. 지능형 경계 시스템 설계

이 장에서는 다중 객체 추적(MOT)을 이용해 통합 시스템을 설계한다. AI 기술의 운용자 비친화적인 인터페이스를 일반 감시병에 맞추기 위해 시각화 기법(data visualization)과 인터랙티브한 사용자 인터페이스(user interface, UI)의 두 가지 설계요소를 통합하여 구현한다.

3.1 FairMOT

입력 이미지를 1088×608 크기로 조정하여 받는다. 보다 나은 특징 추출을 위해서 인코더-디코더 혹은 U-Net[8] 방식의 신경망인 Deep Layer Aggregation (DLA)[9]를 특징 추출기로 활용하였다. 사물 탐지와 사람 재인식의 과정에서 도입된 손실함수를 불확실성 손실(uncertainty loss)[10]로 합치고, 학습 가능한 가중치인 wdetection와 widentity를 두어 최종 손실 함수Ltotal\(\begin{aligned}L_{\text {total }}=\frac{1}{2}\left(e^{w_{\text {dikection }}} L_{\text {detection }}+e^{u_{\text {sknity }}} L_{\text {identity }}+w_{\text {detection }}+w_{\text {identity }}\right)\end{aligned}\) 이다. 사람 재인식 손실함수(Lidentity)는 교차 엔트로피 손실함수이다. 사물 탐지 헤드는 사물분류(classificaiton), 경계상자의 크기 회귀분석(bounding box size regression), 경계상자의 중앙점 오프셋(center offset)으로 구성되며, 사물 탐지 손실함수(Ldetection)는 이 세 헤드의 손실함수 합이다. 학습은 MOT17[11]과 CrowdHuman[12], COCO[13] 공개 데이터셋을 이용하여 학습하였다. 본 연구에서는 FairMOT 저자가 제공한 기학습된 신경망 가중치를 사용하였다.

시험 과정(test time)에서 추정(inference)할 때에는 추정된 히트맵을 非-최대 억제(non-maximum suppression, NMS) 방식을 통해 추리는데, CenterNet[14]에서와 같이 3×3 최대 풀링(maxpool)을 통해 구현한다. 예측된 키포인트 중 히트맵 값이 미리 정해진 수준이상인 점만 사물로 탐지한다.

탐지된 사물은 두 단계에 걸쳐 할당(association)된다. 최초 프레임에 탐지된 사물은 각각 트랙클릿(tracklet)을 형성한다. 먼저, 칼만 필터를 이용하여 추적중인 트랙클릿(tracklet)의 다음 프레임에서의 위치를 추정한다. 이렇게 추정된 경계 상자와 실제 해당 프레임에 대한 사물 탐지 결과로서 얻어진 경계 상자 사이에서 두 가지 유사-거리함수를 구한다. 두 경계 상자의 위치 사이의 마할라노비스 거리함수(Mahalanobis distance) Dm와 사람 재인식 헤드로부터 추출한 특징 벡터 사이의 코사인 유사성(cosine similarity) Dr이 그 둘이다. 이를 가중치를 주어 합하여 두 경계 상자 사이의 유사성 수치로 이용한다. 즉, D = 0.98Dm + 0.02Dr이다. 매칭 경곗값을 τ1 = 0.4로 두어 헝가리안 알고리즘[15]을 이용하여 새 프레임에서 탐지한 경계 상자가 기존의 트랙클릿에 포함되는지를 결정한다.

이렇게 트랙클릿에 매칭되지 못한 사물이 있을 경우 사물 경계 상자 사이의 오버랩(IoU)을 기반으로 재시도 한다. 이번 프레임에서 매칭되지 못한 트래클릿의 마지막 경계 상자와 매칭되지 못한 경계 상자 사이의 오버랩이 경곗값 τ2 = 0.5이상일 경우 트래클릿에 해당 경계 상자를 할당한다. 최종적으로, 각 트래클릿의 시각 정보인 사람 재인식 헤드의 특징 벡터를 새로 할당된 상자의 것으로 대체한다. 매칭되지 못한 트랙클릿은 30프레임 동안 보존하면서 재탐지 되었을 때를 대비한다. 이와 같은 방식으로 FairMOT 모듈은 객체 추적을 수행한다.

3.2 시각화 기법(Data Visualization)

시각화 기법을 통해 사용자가 편안하고 친숙하게 체계를 사용할 수 있도록 한다. 특히 감시임무 특성상 체계의 출력 화면에서 눈을 뗄 수 없는 운용방식 때문에 운용 인원의 눈의 피로를 고려치 않을 수 없다. 시각화 기법을 설계함에 있어 핵심이 되는 것이 색채의 선정이다. 매 동영상 프레임마다 탐지된 사물 당 하나씩 경계 상자와 그에 해당하는 ID를 부여한다. 경계체계가 앞으로 화면에 탐지될 모든 사람의 인적사항을 꿰고 있는 것은 불가능하기에 ID는 사람의 인적정보이기보다는 시스템에 의해 편의상 부여된 숫자에 불과하다. 따라서 이를 쉽게 사용자로 하여금 구분할 수 있도록 하는 것이 색상이다.

ID에 맞는 색을 부여하기 위해 SHA-256 해시함수(hash function)를 이용하였다. 먼저 Viridis 20 컬러맵의 각 색깔 사이를 선형보간법을 이용하여 연속적으로 보간하여 연속된 컬러맵을 구한다. 해시함수는 문자열(string)을 받아 정해진 범위 내에 있는 임의의 정수를 출력한다. ID는 항상 1부터 시작하므로, 애플리케이션의 시작시마다 같은 순서로 색깔이 출력되는 것을 방지하기 위해 ID 뒤에 애플리케이션의 시작 시간을 파이썬3의 datetime 형식으로 출력한 string을 붙여서 SHA-256 해시함수에 입력하였다. 출력된 정수를 다시 32단계로 양자화한 후, 연속된 컬러맵에서 해당하는 색깔을 구한다. 구한 색깔이 해당 ID를 가진 인물의 색이 된다.

3.3 사용자 인터페이스

인터페이스는 최대한 직관적이고 간단하게 설계되어야 한다. 그림 5 중앙의 ‘객체 추적 패널’은 10 FPS의 실시간으로 화면을 갈무리하여 다중 객체 추적 알고리즘인 FairMOT 알고리즘에 입력한다. 출력된 ID가 부여된 경계 상자에 대해 색을 부여하며, 부여된 색에 따라 상자를 오버레이하여 표시한다. 상자의 표시는 크게 단일 경계 상자 표시, 다중 경계 상자 표시, 중앙점 연결 표시, 하단 중앙점 연결 표시의 네 가지의 모드로 표시가 가능하게 설계하였다.

단일 경계 상자는 현재 프레임 상자만 표시하며, 다중 경계 상자는 지난 프레임 상자 표시하며, 시간이 지날수록 상자의 투명도 서서히 증가한다. 중앙점 연결 모드는 현재 프레임 상자를 표시하며, 지난 프레임 상자는 그 중앙점(단전)만 선분으로 이어서 표시하고, 시간이 지날수록 선분의 투명도가 서서히 증가한다. 하단 중앙점 연결 모드는 현재 프레임 상자를 표시하며, 지난 프레임 상자는 그 하단 중앙점(발치)만 선분으로 이어서 표시하고, 시간이 지날수록 선분의 투명도가 서서히 증가한다.

‘객체 추적 패널’에서 경계 상자를 마우스 좌클릭하면 해당하는 인물의 정보를 그림 5 좌측 ‘정보 패널’를 통해 접근할 수 있다. 사용자 정보는 애플리케이션에 파이썬3 dict 형식으로 저장되며, 軍 경계체계에 필요한 정보인 구분(민간인·용사·장교·군무원), 소속 부대, 관등성명, 및 인가 여부를 편집할 수 있도록 하였으며, 추가로 다중 객체 추적 알고리즘에 의한 최초 발견 시각과 최근 발견 시각을 표시하게 하였다.

구성한 시스템 그림 2는 GPU 탑재 PC 위에서 운용되는 소프트웨어 애플리케이션으로서 Windows 및 Linux 기반 컴퓨터 모두에서 운용될 수 있도록 파이썬3과 Qt 인터페이스 API를 이용해서 구현하였다. 또한, 임의의 동영상 재생 환경에서 작동할 수 있도록 동영상 코덱이나 운영체제 API 등을 최소화하였으며, 동영상 플레이어 위에 투명 오버레이로 작동할 수 있도록 화면 갈무리 기능을 이용하여 동영상 프레임을 수집하도록 하였다. 본 연구의 경계체계 애플리케이션은 동영상이 재생 중인 환경에서 바로 추가적인 조작 없이 애플리케이션을 실행시킴으로써 바로 운용 가능하다.

OTJBCD_2023_v24n4_57_f0002.png 이미지

(그림 2) 설계한 통합 시스템 구조 개괄

(Figure 2) Overview of the designed integrated system structure

4. 지능형 경계 시스템 성능 실증

이 장에서는 앞서 설계하였던 인공지능 기술을 응용한 軍 경계체계를 실제 군사적 목적으로 수집된 보안 영상 자료에 적용해 보고, 그 성과를 논한다.

4.1 데이터 수집 및 하드웨어 사양

CCTV 영상 데이터 수집한 장소는 ㅇㅇ부대 제1정문 및 제2정문에 설치된 CCTV 카메라이며, 지통실의 협조 아래 영상 수집을 진행하였다. 영상 수집 협조를 위해 개인정보 제3자 제공 동의서를 작성하여 영상자료를 제공받았다. 제공받은 영상은 FHD (1080p)급 영상으로 H.264 코덱으로 변환된 mp4 형식이다. 제2정문의 경우 낮과 밤 영상을 사용하였으며 제1정문의 경우 낮 영상만을 사용하였다.

본 연구에서 개발한 애플리케이션은 화면 오버레이 방식으로서, 영상에 대한 별도의 후처리작업이 필요하지 않다. 이는 실시간 감시 체계에 바로 적용할 수 있도록 고려한 것으로서, 윈도우의 화면 캡처 방식을 이용하기 때문에 동영상 플레이어의 출력 화면을 입력으로 받는다. 사용한 동영상 플레이어는 VLC 미디어 플레이어를 사용하였다.

실험의 재현성을 위해서 하드웨어 사양을 공개한다. 실험에 사용한 하드웨어 사양은 AMD Ryzen 9 Matisse 3950X CPU, 삼성 DDR4 128GB PC4-25600 RAM, NVIDIA GeForce RTX 3080 D6X 10GB GPU, 삼성 970 EVO Plus 1TB NVMe SSD 등이다. 특이사항은 실험에 사용한 PC는 단일 GPU PC로서, 학습이 아니라 운용중인 인공지능 모형에 대해서는 고성능 모형도 상대적으로 다중 GPU 서버보다 저렴한 단일 GPU PC에서 구동 가능하다는 점이다. 개발한 애플리케이션은 10 FPS에서 무리 없이 운용됨을 확인하였다.

4.2 실험 결과 및 설계 검증

수집한 제2정문 및 제1정문의 낮과 밤 영상에 개발한 경계체계 데스크톱 애플리케이션을 적용한 결과를 논한다. 그림 3는 제2정문 낮 영상에 개발한 인공지능 경계체계를 적용한 것이다. 사람의 발 위치가 3차원 공간상에서 사람의 지면 위의 위치가 되므로 표 1의 하단 중앙점 연결 표시 모드로 결과를 도시하였다. 전방에 서있는 두 인물 외에도 화면 우측 상단의 텐트 안에 있는 인물 또한 잘 탐지하는 것을 확인할 수 있다. 그러나 화면 좌측 상단의 초소근무병의 경우 주변 환경의 화소값과 큰 차이가 없어 탐지가 쉽지 않음을 확인할 수 있다.

(표 1) 네 가지 경계상자 표시 모드

(Table 1) Bounding Box Display Modes

OTJBCD_2023_v24n4_57_t0001.png 이미지

OTJBCD_2023_v24n4_57_f0003.png 이미지

(그림 3) 제2정문 낮시간 CCTV 영상에 경계체계 적용 결과

(Figure 3) Result of applying the surveilliance system to day time CCTV image

위의 그림 4과 그림 5는 탐지된 경계 상자에 마우스 좌클릭을 하여 해당하는 인물의 정보를 편집하는 예시이다. 설계한 바와 같이 마우스를 올려두었을 때, 경계 상자가 빨간색 테두리로 변하며 사용자의 조작을 돕는다. 입력한 정보는 다시 상자 외부를 클릭하여 ‘정보 패널’을 초기화하고 일정 시간이 지난 이후 추적되고 있는 동일 인물을 클릭하였을 경우 데이터베이스에 저장되어있던 편집된 인물 정보가 불러와 진다.

OTJBCD_2023_v24n4_57_f0004.png 이미지

(그림 4) 탐지된 경계 상자에 마우스를 올려둔 모습

(Figure 4) Hovering over a detected bounding box

OTJBCD_2023_v24n4_57_f0005.png 이미지

(그림 5) 클릭한 경계 상자에 해당하는 인물 정보 편집 예시

(Figure 5) Example of editing person information corresponding to the clicked bounding box

4.3 한계 및 개선점

앞선 실험결과를 통해 경계체계를 자동화시켜 더 많은 정보를 경계체계 운용인원에게 전달할 수 있음을 보였다. 그러나 여전히 개발된 소프트웨어 경계체계 역시 한계점이 존재한다. 이를 설명하여 군 경계체계 개발의 향후 방향성을 제시한다.

본 연구에서는 2021년 개발당시 최고 성능인 알고리즘을 도입하여 경계체계에 적용하였지만, AI기술은 현재 진행형인바, 기술자체의 한계가 존재한다. FairMOT의 경우 10 FPS 이상의 높은 속도로 실시간 객체 추적을 가능케 하였지만 상대적으로 탐지 알고리즘의 정확도가 높지 않다. 그림 5의 전방 연두색 상자가 추적에 실패하는 것을 확인할 수 있다. 이는 서로 다른 둘 이상의 인물이 근접하여 경계 상자의 정확한 추정에 혼선이 오는 경우이다. 인물이 다른 인물에 의해 가리게 되면 그 경계 상자의 중앙점의 특징 벡터로부터 유추하는 인물의 특징이 섞이게 된다.

또한 FairMOT 모델에 사용된 기학습된 사물 탐지 신경망의 경우 학습된 영상의 크기, 화질, 배율, 종류가 지통실의 CCTV 영상과 다르다는 문제가 있다. 이러한 데이터셋의 불일치는 추가적인 성능저하를 야기한다. 또한, 군용으로 쓰일 경계체계 알고리즘의 경우 군인과 민간인, 군무원 등을 특정하는 것이 중요한 반면, 일반적인 공개 데이터셋에서는 그러한 구분이 누락되어 있을뿐더러 공개된 군인 데이터의 부족으로 인공신경망이 군복을 입은 군인의 학습이 부족하다는 문제 또한 있다. 군용으로 주어진 인공신경망을 재학습하는 노력이 필요한 부분이다.

한편 심층합성곱신경망의 성능은 그 입력단에 있는 합성곱 필터의 출력 특성에 많이 의존한다. 낮이라도 강한 빛무리로 상이 번지거나, 그림 6의 밤 이미지처럼 광량이 작은 경우 낮 이미지와 같은 성능을 기대하기는 어렵다.

OTJBCD_2023_v24n4_57_f0006.png 이미지

(그림 6) 제2정문 밤시간 CCTV 영상에 경계체계 적용 결과

(Figure 6) Result of applying the surveilliance system to nighttime CCTV image

더 나은 경계체계로 개발되기 위해서는, 화질이 낮은 이미지에 대한 적절한 후보정과 더 개선된 AI 모델을 선정하고, 체계 응용에 맞게 학습시키는 과정의 추가가 필요하다. 또한 본 연구에서 개발한 체계는 단일 CCTV 카메라 영상을 입력받아 정보를 추론하는 지능체계이므로, 다수의 CCTV 카메라의 동시 운영에서도 연속적으로 추적하는 방안을 고려해보아야 한다.

체계의 성능평가는 인간 경계병을 보조하는 최초의 시스템이므로 지능화된 CCTV를 적용하기 이전과 이후에 관해 정량적으로 경계병에게 질의를 통해서 비교해 볼 수 있겠다. 향후 지능화 체계가 본격적으로 적용될 경우, 각 체계 마다에 사용된 알고리즘들 간의 성능을 평가할 수 있겠다.

5. 결론 및 향후연구

대한민국의 국방 임무의 핵심이 되는 대한민국 육군의 휴전선 경계 임무는 인력에 의한 감시에 의존하는 현 체계에서 넓은 지역에 대한 지속적인 감시를 위해 일정량 이상의 인원의 지속적인 투입이 필요하며, 이에 급감한 출생아수로 말미암은 인력난의 직격탄을 맞고 있다. 따라서 대한민국의 국방력을 유지하기 위해서는 인력 의존을 극단적으로 줄일 수 있도록 임무 수행방식을 재정립하여야 한다.

본 연구에서는 최적화 기술의 응용인 인공지능 기술을 접목하여 이를 일부 해결할 수 있음을 보였다. 본 연구에서 개발한 경계체계는 그 가능성을 보여주는 시발점으로 인식할 수 있다. 인공지능 기술은 하나의 완성된 체계가 아니라 체계에 종속된 부품이다(AIaaC). 인공지능 기술을 부품으로 응용하는 통합된 체계를 개발하는 노력은 아직 걸음마 단계이며, 본 연구에서 보인 것은 군용 인공지능 체계 개발의 가능성의 일부일 뿐임을 다시 한 번 강조하고 싶다. 앞으로 인공지능 기술 정착을 위해서 軍 차원에서 더 많은 투자와 노력이 필요할 것이다.

객체식별 및 추적에 관한 기본적인 프레임워크가 갖추어 졌기 때문에, 다양한 향후연구가 가능하다. 다수의 CCTV에서의 동일 인물 추적; 특정 이미지 확대; 경계지대 설정 및 침범시의 알람구동 등이 그 예시가 될 수 있다. 지속적인 군 경계체계 발전을 위해 연구를 지속해 나가도록 한다.

References

  1. Yoonsun Song, Minseop Jung and Kyungrok Lee, "Army's long-term strategy beyond the 4th industrial revolution - Army Vision 2050," Defense and Technology 496, 46-57, 2020. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09349966
  2. Margaret Taylor and Andrew Taylor, "The Technology Life Cycle: Conceptualization and Managerial Implications," International Journal of Production Economics 140(1), 541-553, 2012. https://bradscholars.brad.ac.uk/handle/10454/6212 10454/6212
  3. Christoph Feichtenhofer, Axel Pinz and Andrew Zisserman, "Detect to Track and Track to Detect," IEEE International Conference on Computer Vision, IEEE, 2017. https://doi.org/10.48550/arXiv.1710.03958
  4. Philipp Bergmann, Tim Meinhardt and Laura Leal-Taixe, "Tracking Without Bells and Whistles," IEEE International Conference on Computer Vision, 2019. https://doi.org/10.48550/arXiv.1903.05625
  5. Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger and Bastian Leibe, "MOTS: Multi-Object Tracking and Segmentation," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2019. https://doi.org/10.48550/arXiv.1902.03604
  6. Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. "Mask R-CNN," IEEE International Conference on Computer Vision, IEEE, 2017. https://doi.org/10.48550/arXiv.1703.06870
  7. Yifu Zhang, Chunyu Wang, Xinggang Wang, Wenjun Zeng and Wenyu Liu, "FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking," International Journal of Computer Vision 129, 3069-3087, 2021. https://doi.org/10.48550/arXiv.2004.01888
  8. Olaf Ronneberger, Philipp Fischer and Thomas Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," International Conference on Medical Image Computing and Computer-Assisted Intervention, 234-241, 2015. https://arxiv.org/pdf/1505.04597.pdf%EF%BC%89
  9. Fisher Yu, Dequan Wang, Evan Shelhamer and Trevor Darrell, "Deep Layer Aggregation," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018. https://doi.org/10.48550/arXiv.1707.06484
  10. Alex Kendall, Yarin Gal and Roberto Cipolla, "Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018. https://doi.org/10.48550/arXiv.1705.07115
  11. Anton Milan, Laura Leal-Taixe, Ian Reid, Stefan Roth and Konrad Schindler, "MOT16: A Benchmark for Multi-Object Tracking," arXiv preprint, arXiv:1603. 00831, 2016. https://doi.org/10.48550/arXiv.1603.00831
  12. Shuai Shao, Zijian Zhao, Boxun Li, Tete Xiao, Gang Yu, Xiangyu Zhang and Jian Sun, "CrowdHuman: A Benchmark for Detecting Human in a Crowd," arXiv preprint, arXiv:1805.00123, 2018. https://doi.org/10.48550/arXiv.1805.00123
  13. Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick and Piotr Dollar, "Microsoft COCO: Common Objects in Context," European Conference on Computer Vision, 2014. https://doi.org/10.48550/arXiv.1405.0312
  14. Xingyi Zhou, Dequan Wang and Philipp Krahenbuhl, "Objects as Points," arXiv preprint, arXiv:1904.07850, 2019. https://doi.org/10.48550/arXiv.1904.07850
  15. Harold W. Kuhn, "The Hungarian Method for the Assignment Problem," Naval Research Logistics Quarterly 2, 83-97, 1955. https://web.eecs.umich.edu/~pettie/matching/Kuhn-hungarian-assignment.pdf https://doi.org/10.1002/nav.3800020109