DOI QR코드

DOI QR Code

심층 강화학습을 이용한 디지털트윈 및 시각적 객체 추적

Digital Twin and Visual Object Tracking using Deep Reinforcement Learning

  • Park, Jin Hyeok (Dept. of IT Convergence and Application Engineering, PuKyong National University) ;
  • Farkhodov, Khurshedjon (Dept. of IT Convergence and Application Engineering, PuKyong National University) ;
  • Choi, Piljoo (Dept. of IT Convergence and Application Engineering, PuKyong National University) ;
  • Lee, Suk-Hwan (Dept. of Computer Engineering, Dong-A University) ;
  • Kwon, Ki-Ryong (Dept. of IT Convergence and Application Engineering, PuKyong National University)
  • 투고 : 2022.02.04
  • 심사 : 2022.02.11
  • 발행 : 2022.02.28

초록

Nowadays, the complexity of object tracking models among hardware applications has become a more in-demand duty to complete in various indeterminable environment tracking situations with multifunctional algorithm skills. In this paper, we propose a virtual city environment using AirSim (Aerial Informatics and Robotics Simulation - AirSim, CityEnvironment) and use the DQN (Deep Q-Learning) model of deep reinforcement learning model in the virtual environment. The proposed object tracking DQN network observes the environment using a deep reinforcement learning model that receives continuous images taken by a virtual environment simulation system as input to control the operation of a virtual drone. The deep reinforcement learning model is pre-trained using various existing continuous image sets. Since the existing various continuous image sets are image data of real environments and objects, it is implemented in 3D to track virtual environments and moving objects in them.

키워드

1. 서 론

오늘날 객체 추적 모델은 하드웨어의 발전과 여러 가지 요구사항에 따라서 많은 활용 분야에 적용되고 있으며, 최근에는 활용 초기에 비해서 요구되는 추적의 대상 및 환경, 방법 등이 복잡해지는 추세이다. 하지만 객체 추적 모델의 성능 확인을 위한 학습, 검증, 테스트 과정을 진행하기 위해서는 고려되어야 하는 여러 가지 요건들 중 실제 환경에서는 현실적으로 반영하기 어려운 요건들이 몇 가지 있다.심층 강화학습 모델은 기존의 다양한 연속 이미지 세트를 사용하여 사전 학습되어 있는데 기존의 다양한 연속 이미지 세트는 실제 환경과 사물들을 촬영한 영상 데이터들이기 때문에 가상환경과 그 안에서 움직이는 객체들을 추적하기 위해서는 3D로 구현된 환경과 객체들이 촬영된 이미지들의 학습이 필요하다.

시각적 객체 추적은 촬영 장치로 획득한 영상의 장면에서 특정 항목을 식별하고 모든 프레임에서 이를 인식하여 비디오 시퀀스에서 정적 및 동적이더라도 다른 클래스와 구별해야 하는 고전적인 컴퓨터 비전 문제이다.

영상 내 객체 추적에는 폐색, 흐림, 배경 클러터, 촬영 환경의 조명 변화 등과 같이 영상 품질 및 촬영환경과 관련하여 고려되어야 하는 많은 요인들이 있다. 이러한 문제를 해결하기 위해 가장 일반적인 추적 접근 방식은 다양한 기능 학습 알고리즘을 사용하여 특정 객체 클래스를 모니터링한다[1].State-of- the-art(SOTA)로 대표되는 최신 객체 추적 방법 중에서 높은 효율성과 경쟁력 있는 추적 결과를 보여주는 기법이 있음에도 불구하고 영상에서 객체 추적이 어려운 환경에서는 높은 정확도와 더 빠른 추적 속도를 얻기 위해서 극복해야 할 한계가 존재한다. 심층인공 신경망 기반의 방법 중에 기존 객체 추적 기법이 가지고 있는 문제를 해결할 수 있는 많은 추적 필터[2] 및 객체 감지 기반 모델[3]이 있지만 해당 방법들에도 몇 가지 단점이 있다.심층 컨볼루션 신경망(DeepCNN) 기반 시각적 객체 추적 모델[4]은 오랜 기간 연구된 추적 알고리즘으로, 최근 몇 년 동안 다양한 객체 추적에 활용되고 있다[5].CNN(con- volutionneuralnetwork)기반 추적기는 객체 추적 시 추적 성공률이 높고 객체 추적 프로세스 중 감지 장치에서 영상의 특징 표현이 대폭 개선된다는 장점이 있다.해당 연구에서는 대부분의 표적 추적 상황에서 객체를 찾고 클래스(class)를 분류하기 위해 자르기(crop)나 회귀 방법(regressingmethods) 또는 사전 훈련된 CNN분류기를 사용한다[6].하지만, 사전 훈련된 분류기에서 분류한 대상과 실제 추적 대상이 다를 경우 원하는 대상을 추적하지 못 하거나 전혀 다른 대상을 추적 결과로 출력하게 된다.

본 논문에서는 객체 추적 성능을 높이고자 추적기의 학습에 필요한 드론 영상 데이터와 시뮬레이션 환경을 제공하기 위해 AirSim(Aerial Informaticsand RoboticsSimulation, AirSim)을 이용하여 가상의 도시 환경을 구축하고 가상 환경 내에서 심층 강화학습 (deepreinforcement learningmodel)의 DQN(Deep Q-Learning)모델을 사용하여 특정 객체를 추적하는 알고리즘을 제안한다.

강화학습은 학습의 주체가 되는 에이전트가 학습이 필요한 환경에 대한 정보 없이 스스로 최적 정책을 갖도록 학습하는 방법이다[7].제안 방법에서는 강화학습에 사용하는 학습 변수 중 하나로가상 환경 시뮬레이션 시스템에서 촬영한 연속 이미지를 입력으로 받는 심층 강화학습 모델을 활용하여 환경을 관찰한다.제안한 방법에서는 추적의 최적화를 위해서 심층 강화 학습 기반 Q-네트워크 모델 에이전트를 이용해서 드론이 주도적으로 가상환경을 학습한다. 이때, 가상환경에서 생성된 드론 영상을 이용하여 학습하는 순차적 순환 신경망[8]예측 및 추적 아키텍처를 사용하여 객체 추적을 실시한다. 테스트를위해 AirSim[9]시뮬레이터 플랫폼을 사용하여 고유한 추적 모델을 구축한다.가상 시뮬레이션 환경에서 제안 추적 모델의 실시간 객체 추적 실험을 하고 그 결과를 심층 신경망(DNN)을 이용한 State-of-the- art기법과 비교하였을 때 속도와 정확도 면에서 더 뛰어난 성능을 가지는 것을 확인하였다.또, 제안한 추적 모델의 테스트는 가상 시뮬레이션 환경에서 실행되기 때문에 속도 측면에서 GPU를 사용하여 더 좋은 성능을 낼 수 있었다.

2. 이 론

최근 드론 영상 내 객체 추적을 위한 연구가 많이 활발해지면서 단순히 드론 영상 내 객체 추적의 성능을 높이기 위해 추적기를 훈련하는 방법부터, 추적환경을 파악하여 드론이 능동적으로 추적하는 방법까지 다양한 방법들이 제안되었다.2장에서는 주로 어떤 연구들이 진행되었는지 간단하게 살펴보고 이어지는 3장에서 본 논문에서는 어떤식으로 해당 기술들을 활용하고 개선하였는지 설명하고자 한다.

2.1 시각적 객체 추적

그동안 탐지별 추적 또는 분류별 추적[10]이라고 하는 기법들이 연구되었는데, 이러한 기술들은 주로 추적 하고자 하는 목표 객체의 위치를 수집하고 훈련된 분류기 모델을 사용하여 객체를 탐지, 장면에서 표적을 분리하는 데 중점을 둔다.더 구체적으로, 추적기는 대상 위치에 가까운 전경 패치(patches)를 캡처하고 멀리서 배경 패치를 캡처한 다음, 목표를 인식할 수 있도록 현재 또는 다음 프레임 내 대상의 위치에 점수를 매기기 위해 전경-배경 분류기로 훈련한다. 일반적으로 분류 모델은 온라인 또는 실시간추적 작업에 활용되기 전에 수동으로 레이블이 지정된 사진을 사용하여 오프라인으로 학습한다. 대부분의 신경망 기반 추적기는 개발 전반에 걸쳐 이러한 학습 방법을 활용한다. 또, RNN(recurrent neural network)기반 추적 모델도 있는데 이 기법은 슬라이딩 방식을 사용하여 객체를 예측하기 위해 순차적 레이어를 사용함으로써 더 좋은 결과를 얻을 수 있다. 객체 클래스를 직접 감지하기 위해 공간적으로 지도된 순환 컨볼루션 신경망과 YOLO 네트워크 [11]아키텍처를 결합한 방법[12]도 있다.순환 신경망은 대상 객체 클래스를 검색하기 위해 각 프레임에서 YOLO감지 출력을 직접 회귀한다.

2.2 Deep Reinforcement Learning

강화학습은 기계 학습 모델이 프로세스를 관리하는 동안 일련의 작업에서 판단을 내리는 훈련 접근방식으로, 에이전트가 복잡하고 예측할 수 없는 환경에서 결정을 내리고 목표를 달성하는 방법을 배울 수 있는지 탐색한다.강화학습은 본질적으로 모델의 이익을 최대화하여 어떤 순차적 행동을 할 것인지 결정하기 위한 최적의 정책을 학습한다[7].이를 아타리 게임 문제 해결에 적용하여 평가하는 기법이나 CNN, RNN및 RL(reinforcement learning) 알고리즘을 통합하여 객체 위치 파악 [13]이나 예측, 추적 [14]하는 많은 모델이 제안되었다.DQN(DeepQ- Networks)과 기울기 정책 방법은 가장 잘 알려진 심층 RL알고리즘[15]으로, DeepQ-Network는 주어진 상태에서 행동 값의 각 단계를 학습하는 Q- learning알고리즘의 대체 모델이다.이것은 모델 프리(model-free)방법으로 확률적 전환과 인센티브를 사용하여 수정 없이 문제를 해결하는 방법이다.

3. 제안한 방법

3.1 제안한 알고리듬의 개요

본 논문에서 수행할 내용으로 영상의 전체 비디오 프레임을 얻고 영상 내에서 추적 대상을 획득하기 위해 가상 환경에 연결된 네트워크를 구축할 것을 제안한다.Fig.1은 가상 환경과 Air Sim 시뮬레이션 플랫폼의 통합 계획을 보여주는 제안의 전체 프레임워크이다.

Fig. 1. The design depicts a linked virtual world using the AirSim simulation platform to execute net- work algorithms and evaluate a tracking technique in real-time simulation.

시뮬레이션 플랫폼은 AirSimPython을 사용하며, 여기에는 3D로 구현된 도시와 도시 안에서 움직일 수 있는 드론 (Multirotor, Drone)과 자동차가 구현되어 있다.자동차는 임의의 알고리즘을 이용해 도로에서 이동하며, 드론은 사용자가 원하는대로 조종이 가능하도록 구현 되었다.제안 기법에서 DQN모델은드론 에이전트의 움직임과 관련된 전술을 배우기 시작하면서 가상 도시 환경을 빠르게 탐색하게 된다. 본 논문에서 제안하는 아키텍쳐는 수신 받은 영상을 학습 및 가치 주정을 위한 입력 값으로 받는다. 이입력 영상은 다양한 시뮬레이션 환경에서 에이전트의 행동 제어를 위한 정책을 학습하는데 사용된다. 제안 모델의 환경 시뮬레이션 코드는 학습과 추적이 가능한 드론 시뮬레이션을 실행하기 위해 AirSim파이썬 클라이언트로 가상 도시 환경과 DQN에이전트시뮬레이션 네트워크 알고리즘을 연결한다.객체 추적 성능 개선을 위해 별도의 장비나 환경 설정 없이 AirSimAPI를 사용하여 코드 또는 알고리즘을 실행하고 테스트할 수 있다는 것이 장점이다.

본 논문에서는 공간, 시간 같은 조건이 통제된 가상 환경에서 드론을 에이전트로 설정하여 딥러닝 모델이 가상 공간을 자동으로 학습하는 방법과 장기 기능 학습으로 전처리하고 제안된 엔드-투-엔드(end- to-end)모델을 사용하여 동일한 객체 유형으로 분류하는 방법을 제안한다.구축된 가상환경 플랫폼을 통해 보행자, 자동차, 나무, 도로 표지판, 건물, 기상 조건과 같은 실제 사물을 포함하는 현실적인 가상환경에서 알고리즘을 평가할 수 있다.또한 본 논문에서는 가상 공간에서 객체 추적을 하기 위해서 가상객체 및 주변 도시 환경의 구성과 위치에 변화를 준 연속 이미지 세트들로 파인 튜닝(fine-tuning)을 실시하였다.

Fig. 2는 가상 AirSim 드론이 있는 가상 City Environment모델 시나리오를 보여준다.제안 기법의 심층 강화 기반 학습 및 추적 기술은 드론 에이전트의 추적 결과를 획득하기 위해 가상 공간의 영상 시퀀스를 통해 행동 보상을 모니터링하는 순차적 기능 학습/예측 및 의사 결정하는 데 사용된다. 전통적으로, RL알고리즘 기반 추적 기법은 고정된 위치 상태에서 시작하여 어떤 정책에 따라 행동을 수행하는 보상의 합으로도 알려진 예상 총 수익을 추정하는 심층 순차 신경망을 사용하여 적응형 행동 가치 함수를 추정한다. RL알고리즘은 대부분 위에서 언급한 방정식 (1)을 기반으로 하며, 이는 최대값 추정을 얻기 위해 최상의 값 함수를 추정한다.이것은 특정 매개변수와 함께 action value function을 사용하여 최상의 action-value function을 학습하는 Q-learning 알고리즘이다.

\(Q^{\pi}(s, a) \doteq E_{\pi}\left[G_{t} \mid s, a\right]=E_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s, a\right]\)   (1)

Fig. 2. Microsoft AirSim v1.2 is a realistic virtual CityEnviron environment scenario with an AirSim drone simulator from various angles on a city map.

3.2 DQN Network Architecture

권장되는 네트워크 모델 아키텍처는 강화 학습과 순환 신경망을 통합한 것으로, 순환 네트워크는 연속적인 상황에 적용하고 환경 목표 속성을 예측하는데 효과적이다.Fig.3은 객체 추적을 위해 집중된 작업 Q-값을 제공하는 DQN네트워크가 있는 가상환경의 학습 프로세스 네트워크 구조를 보여준다. 아래 다이어그램에서 학습 절차의 목표 조치 및 상태 값이 있는 DQN네트워크 모델 처리 단계의 표현을 볼 수 있다.여기서 취해진 조치와 상태 값은 드론 에이전트가 동일한 위치를 두 번 탐색하지 않도록 하는 풀 타임 훈련 작업을 위한 초기값으로써, 다음 상태 명령을 위해서 유지 된다.이 동작은 반복되는 절차로 보일 수 있지만 가상 환경에서 동작 및 상태 값은 이전과 동일하다.

Fig.3은 학습 반복 에피소드의 샘플 또는 미니배치를 업데이트하기 위한 Q-러닝의 일부를 나타낸다. 이 과정에서 업데이트 Q-값은 에이전트의 행동을 결정하는데, 가장 높은 목표 Q-학습 값을 가진 행동이 선택되고 업데이트는 벨만 방정식(2)을 사용하여 수행된다.

Fig. 3. DQN network structure with targeted Q-learning outcomes in operation with states.

여기서 Q(st, at)은 업데이트된 Q-네트워크 반복 값의 결과이며, 여기서 초기 이전 값은 의도된 값에서 이전 반복 Q값의 차이인 학습률의 계산된 시간차결과 곱셈과 함께 추가된다.의도된 새로운 가치는 초기 보상 가치와 할인 요인에서 비롯되며 최적의 미래 가치 추정과 에이전트의 수평선 곱을 결정한다. DQN네트워크의 에이전트는 동적 모드에서 환경을 추적하는 재생 메모리 클래스 단위를 포함하며, 모든 state, action, newstate, reward, done transition이 모두 기억된다.이 재생 메모리 접근 방식을 사용하면 보존된 값에서 미니배치를 효과적으로 샘플링하고 정확한 상태 표현을 생성할 수 있다. Fig.4는 저 장값 모니터링 프로세스가 표시된 응답 메모리 장치의 구성을 보여준다.버퍼 메모리는 가상 환경에 직접 연결되어 메모리 장치에 필요한 전환이 추가될 것이다. 샘플링 프로세스 동안 다양한 크기의 지도 인덱스가 무작위로 메모리에 생성되고 반환된 인덱스는 AirSimpython클라이언트의 상태 가져오기 기능을 사용하여 검색할 수 있다.이 상황에서 상태는 마지막으로 기록된 길이 인식으로 구성된다.훈련 활동의 수동으로 제공된 크기 매개변수로 표시된 샘플 수를 사용하여 미니배치 프로세스를 생성한다.재생 메모리는 DQN에이전트의 가장 중요한 개별 핵심 구성요소 중 하나로, 대상 Q네트워크를 분리하고 성능에 부정적인 영향을 미친다.

Fig. 4. The data flow diagram for a DQN-network model with a responding buffer memory unit and a targeted network that is associated with a virtual environment.

Fig.4와 같이 DQN네트워크 모델의 데이터 흐름도는 AirSimPython클라이언트를 통해 Q-네트워크와 순환 네트워크 설계(예측용 네트워크)를 가상 시뮬레이션 플랫폼에 연결한다.누산기는 에이전트평가에 사용할 프레임 의 추적을 유지한다. 또한예측 및 목표 값을 결합하여 DQN손실 함수를 계산할 수 있으며 기울기 손실 출력도 얻을 수 있다. DQN네트워크는 다음과 같이 반복 에서 Q-학습을 업데이트하기 위해 손실 함수를 사용한다.

\(L_{i}\left(\theta_{i}\right)=E_{\left(s, a, r, s^{\prime}\right) \sim U(D)}\left[(\overbrace{r+\max _{a} Q\left(s^{\prime}, a^{\prime} ; \theta_{i}^{-}\right)}^{\text {targeted } Q \text { value }}-\overbrace{Q\left(s, a ; \theta_{i}\right)}^{\text {predicted } Q \text { value }})^{2}\right]\)   (3)

식 (3)에서 γ는 에이전트의 수평의 할인 계수 값을 나타내고, θi는 반복 i에서 Q-네트워크의 매개변수 이고 θi-는 반복 i에서 목표를 계산하는 데 사용되는 네트워크 매개변수이다. 대상 네트워크의 매개변수 θi-는 정의된 각 단계에서 Q-네트워크 매개변수(θi) 로만 업데이트되며 개별 업데이트 간에 일정하게 유 지된다. N개의 이전 상태를 가진 기본 버퍼는 재생 메모리 장치의 첫 번째 축을 따라 쌓이고 상태 보존 에 추가된다. 또한 재설정 기능을 사용하면 전체 메 모리 장치가 기본 버퍼로 재설정되고 모든 인덱스는 0으로 설정되어 초기화된다.

3.3 Deep Q-Agent with Tracking Unit

본 논문에서는 순환 신경망을 사용하는 DQNN모델을 제안한다.제안 기법은 추가적인 특징 기반 접근 방식을 사용하여 최종 액션 값의 마지막 결과를 결정한다.순차 환경 학습 프로세스에서 순환 계층은 정책에 의해 일반화된 데이터를 생성하여 상태 및 동작 값에 대한 정확한 예측 결과를 제공한다. 다음그림은 순환 신경망을 기반으로 하는 추적과 DQN 에이전트 학습 아키텍처를 통합한 방법을 나타낸다.

구현의 첫 번째 단계에서는 초기 설정으로 DQN 에이전트 모델의 매개변수를 구성한다.여기서 액션 값 모델은 에이전트가 가상 시뮬레이션 환경과 상호작용하기 위해 사용한다.목표 모델은 훈련에서 목표 Q값을 계산하는 데 사용되며 DQN에이전트의 학습 안정성을 높이기 위해 업데이트 빈도를 줄인다. 순차적 모드에 구축된 네트워크 모델은 활성화 relu함수와 벡터의 차원을 64에서 32로 변경하기 위해 조밀한 계층과 깊게 연결된 LSTM레이어에 의해 적용된다. 네트워크는 상태, Q값 및 네트워크 모델 출력의 출력 값을 액션 값의 수로 제공한다.많은 Q값 액션을 통해 에이전트는 현재 환경의 상태와 관련하여 수행할 다음 액션(행동)을 선택할 수 있다.다음 단계의 액션을 위해 드론 에이전트는 단기 기억에 상태를 추가하는 정보를 사용하고 카운터에서 간격 액션의 추적을 유지하여 시간에 따라 선형적으로 앱실론을어닐링하는 동안 네트워크를 사용하여 무작위로 액션을 선택하여 최상의 액션을 얻게 된다. 네트워크모델의 관찰 장치를 통해 에이전트는 이전 상태에서 작업 기능을 통해 작업을 수행한 결과를 관찰할 수 있다.완료되면 프로세스는 네트워크의 단기 기억에서 재설정되며 학습 절차의 일회성 탐색 에피소드 요약에 대한 요약 결과를 제공하고 네트워크의 장기기억에 추가한다.

3.4 Training the DQN Network Model

훈련 과정을 통해 에이전트는 환경 역학을 더 잘 이해하고 다음 상태 에 대한 예상 보상을 계산하고 네트워크 모델의 첫 번째 훈련 에피소드 결과에 따라 단계에서 예상 보상을 업데이트하도록 스스로 훈련하게 된다.목표 기대치는 훈련 안정성을 높이기 위한 행동 가치 네트워크의 더 안정적인 버전인 목표 네트워크를 통해 계산된다.실제로, 목표 네트워크는 정기적으로 업데이트 되는 행동 가치 네트워크의 동결된 복사본이다.훈련 과정 후, 네트워크는 모든 긍정적인 보상을 1로, 모든 부정적인 보상을 -1 로 클리핑하고, 보상이 변화가 없을 경우 0으로 남겨둔다. 그리고 다음 에피소드를 위해 네트워크를 다시 훈련하고, 대상 네트워크를 업데이트하고, 최종적으로 네트워크 출력 파일을 고정 경로에 저장한다. 재생 메모리 장치로부터 전환기의 미니배치를 무작위로 샘플링하는 배치 생성과 그래프 계산을 호출하는 훈련 함수의 확장이 있다.네트워크를 훈련하기 전에 deepQ-agent의 하이퍼 파라미터와 기본값을 설정한다. 그리고 마지막에 총 보상, 평균 최대 Q, 지속시간 및 평균 손실 값의 모든 학습 값을 요약하여 조정된 경로 위치에 저장한다.

3.5 Tracking Baseline of the DQN Network Model

추적 구현 단계에서는 객체 클래스, 정보 및 속성을 식별하기 위해 지도 학습 방식을 활용했으며, 이를 DQN에이전트 시뮬레이션 네트워크 아키텍처와 결합했다.제안된 추적기를 테스트하는 동안 추적 접근 방식은 사전 훈련된 객체 분류기 모델을 사용하여 가상 시뮬레이션 플랫폼에서 대상을 감지한다. 제안하는 추적기는 가상 시뮬레이션 환경에서 드론 에이전트와의 순차적 의사결정 절차로 DQN네트워크와통합하여 구현하며, 네트워크 모델 관찰부는 가상 환경 시퀀스를 나타내고 순환 네트워크 기반 아키텍처계층은 위의 Fig.5에서처럼 각 프레임의 예측된 경계 상자 위치를 제공한다.주어진 가상 시뮬레이션 모델 상태에 적절한 동작으로 대상 클래스를 예측하기 위해 네트워크를 훈련하고 딥 Q-러닝 접근 방식으로 업데이트되어 드론 에이전트가 엔드 투 엔드 강화 학습을 통해 고차원 가상 시뮬레이션 환경 입력에서 계속 효과적으로 학습할 수 있도록 한다.네트워크는 학습 과정에서 출력 예측을 제공하고 프레임 오른쪽 및 상단 위치의 원점을 양의 축으로 간주하는 데카르트 좌표계에서 왼쪽 상단 모서리와 오른쪽 하단 모서리에 위치한 경계 상자의 IoU(교집합)를 계산하여 추적단위를 통합한다.그런 다음 교차 직사각형의 좌표는최대값과 최소값을 식별하여 결정된다.두 축 정렬 경계 상자(thetwoaxis-alignedboundingboxes)의교차 영역은 항상 축 정렬 경계 상자 값(axis-aligned boundingboxes, AABB)으로 간주된다.그런 다음두 축 정렬 경계 상자의 면적을 계산한다. 합집합에대한 교차는 계산된 교차 영역을 취하여 계산되고 예측값 더하기 정답 영역(groundtruthareas)에서 교차 영역을 뺀 값의 합으로 나누어 0과 1값 사이의 값으로 도출한다.다음 단계로, 시뮬레이션 환경에서 액션의 해석과 해석된 액션 시퀀스에 추적 계산 활동이 적용된다.보상 함수는 경계 상자의 중심과 프레임 중심 사이의 유클리드 거리, 경계 상자의 합집합에 대한 교차점 및 매개 변수 임계값 높이와 무게가 있는 프레임 중심을 중심으로 하는 가상 상자의 스케일 합으로 계산되며, 완성된 부분은 미리 정해진 간격으로 보상 값을 취하여 결정된다.마지막 단계로, 강화 에이전트를 생성하여 지정된 매개변수를 구성하고 가상 환경 시뮬레이션 모델 입력을 사용하여 알고리즘을 테스트한다.

Fig. 5. The implementation of the deep Q neural network agent model initiation with tracking process by calculating the intersection over union of two predicted bounding boxes from targeted action values.

4. 실험 결과 및 고찰

제안된 강화 학습 기반 객체 추적 기술은 마이크로소프트에서 개발한 AirSimPythonClient를 사용하여 구현하였으며, 실제 환경과 유사한 환경으로 구축된 시뮬레이션에서 자유롭게 활용하기 위해 매우 유용하고 편리한 플랫폼 중 가장 잘 알려진 시뮬레이션 플랫폼인 AirSim을 사용하였다.첫 번째로, 강화학습 접근 방식으로 훈련 업데이트를 준비하기 위해 환경 특징 정보를 가진 객체 클래스를 학습하도록 모델의 추적 부분을 훈련하였다.

학습은 객체 클래스의 특성과 내용을 이해하기 위해 오프라인 모드로 진행하였으며, 3D로 구축된 가상 세계에서 녹화한 영상을 입력으로 사용했다. 순환신경망을 기반으로 하는 DQN추적기를 훈련하기 위한 테스트에는 AirSIm을 이용해 구축된 가상 도시환경인 ‘CityEnvironment’를 촬영한 사진만 사용하였다. 그리고 추적기의 오프라인 훈련 후 가상 현실환경과 연결하여 네트워크의 실시간 실행 테스트를 실시하였다.

Table 1은 가상 CityEnviron모델에서 테스트하는 동안 드론 에이전트의 여러 매개변수의 출력값을 보여주며, 테스트 중 에이전트의 위치와 행동에 따른 DQN네트워크의 결과를 볼 수 있다.훈련 시 에피소드는 무작위로 선택되며, 위치 매개변수는 각 에피소드에서 가상 환경 내 드론 에이전트의 추적 경로를 보여준다.보상 XY, Z, +T매개변수는 드론 에이전트의 가상 환경 내에서 선택한 행동에 따른 총 보상 결과를 나타낸다.

Table 1. DQN agent drone testing output parameters.

가상 현실 CityEnviron모델에서 추적기의 결과는 Table2에 나와 있다.테스트의 시간 단계, 기간, 총보상, 평균 최대 Q-값 및 평균 손실 결과와 같이 무작위로 선택된 에피소드의 요약 결과를 확인할 수 있다. 드론은 임의의 지역을 비행하면서 추적할 물체의 위치를 식별한다.

Table 2. Action-value based testing output of the DQN tracker.

Fig.6은 사람과 차, 총 두 가지 유형의 대상 객체를 사용한 추적 모델의 추적 결과이다.그림에 표시된 예측 및 대상 객체 클래스의 백분율은 객체 클래스가 얼마나 잘 예측되었는지를 나타내며, 분류된 예측 및 추적 개체와 함께 성능 결과를 보여준다. boundingboxes의 교차 영역은 항상 축 정렬 경계 상자 값(axis-alignedboundingboxes, AABB)으로간주된다. 그런 다음 두 축 정렬 경계 상자의 면적을 계산한다.합집합에 대한 교차는 계산된 교차 영역을 취하여 계산되고 예측값 더하기 정답 영역(ground truthareas)에서 교차 영역을 뺀 값의 합으로 나누어 0과 1값 사이의 값으로 도출한다.다음 단계로, 시뮬레이션 환경에서 액션의 해석과 해석된 액션 시퀀스에 추적 계산 활동이 적용된다.보상 함수는 경계 상자의 중심과 프레임 중심 사이의 유클리드 거리, 경계 상자의 합집합에 대한 교차점 및 매개 변수 임계 값 높이와 무게가 있는 프레임 중심을 중심으로 하는가 상 상자의 스케일 합으로 계산되며, 완성된 부분은 미리 정해진 간격으로 보상 값을 취하여 결정된다. 마지막 단계로, 강화 에이전트를 생성하여 지정된 매개변수를 구성하고 가상 환경 시뮬레이션 모델 입력을 사용하여 알고리즘을 테스트한다.

Fig. 6. Qualitative results of the proposed tracking algorithm with two object classes: person and car.

5. 결 론

본 연구에서는 가상현실 환경에서 드론 에이전트로 수행하는 AirSimpython클라이언트를 통해 가상 시뮬레이션 플랫폼 CityEnviron과 통합된 새로운 추적 기술을 제안하였다.객체를 예측 및 추적하고 환경을 학습하기 위해 여러 가상 이미지 기반 비디오 시퀀스로 훈련된 상호 통합된 순환 신경망 기반 DQN추적기를 사용했다.AirSim시뮬레이션 플랫폼을 통해 가상 환경에서 모델을 테스트하고 중요한 기능 정보를 수집하고 객체 클래스를 자율적으로 식별할 수 있었다.AirSimAPI를 통해 가상 드론 시뮬레이션 플랫폼에 직접 연결하여 DQN에이전트 기반 추적기를 쉽게 테스트할 수 있다.3D가상 현실 환경에는 몇 가지 해결해야 할 것이 있지만 본 방법론에서 제안한 모델은 결정 기술과 통합된 반복 예측 기반 네트워크를 통해 성공적으로 훈련하고 더 나은 성능을 달성할 수 있었다.제안하는 모델은 딥 RL 에이전트 솔루션을 적용하여 가상 시뮬레이션 모델에서 자율적으로 작동할 수 있다.향후 기획과제를 성공적으로 완료하고, 본 과제를 수행하게 된다면, 파인튜닝을 통한 성능 개선과 도시 환경 및 화창한 날씨 외 다양한 기상과 배경 조건에서 더 많은 실험을 진행할 계획이다.또 기존 RL기반 DQN추적기와 비교하기 위해 다른 오픈 소스 비디오 시퀀스로 모델을 테스트하여 결과를 비교하고자 한다. 가상현실 환경에서 드론 에이전트로 수행하는 AirSimpy- thon 클라이언트를 통해 가상 시뮬레이션 플랫폼 CityEnviron과 통합된 새로운 추적 기술을 제안하였다. 객체를 예측 및 추적하고 환경을 학습하기 위해 여러 가상 이미지 기반 비디오 시퀀스로 훈련된 상호통합된 순환 신경망 기반 DQN추적기를 적용함으로써 가상 환경에서 모델을 테스트하고 중요한 기능정보를 수집하고 객체 클래스를 자율적으로 식별할 수 있음을 검증하였다.가상 도로 시뮬레이션 플랫폼에 직접 가상 비젼센서를 연결하여 DQN에이전트기반 추적기를 쉽게 테스트할 수 있다.제안하는 모델은 딥 RL에이전트 솔루션을 적용하여 가상 시뮬레이션 모델에서 자율적으로 작동할 수 있는 것이 특징이다.

참고문헌

  1. J.F. Henriques, R. Caseiro, P. Martins, and J. Batista, "High Speed Tracking with Kernelized Correlation Filters," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 3, pp. 583-596, 2015. https://doi.org/10.1109/TPAMI.2014.2345390
  2. M. Danelljan, G. Hager, F. Shahbaz Khan, and M. Felsberg, "Convolutional Features for Correlation Filter Based Visual Tracking," Proceedings of the IEEE International Conference on Computer Vision Workshops, pp. 58-66, 2015.
  3. J. Xie. E. Stensrud, and T. Skramstad, "Detection-Based Object Tracking Applied to Remote Ship Inspection," Sensors, Vol. 21, No. 3, 761, 2021. https://doi.org/10.3390/s21030761
  4. L. Bertinetto, J. Valmadre, J. F. Henriques, A. Vedaldi, and P. H. Torr. "Fully-Convolutional Siamese Networks for Object Tracking," Proceeding of the European Conference on Computer Vision, pp. 850-865, 2016.
  5. B. Babenko, M.-H. Yang, and S. Belongie. "Robust Object Tracking with Online Multiple Instance Learning," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 33, No. 8, pp. 1619-1632, 2011. https://doi.org/10.1109/TPAMI.2010.226
  6. X. Farhodov, O.-H. Kwon, K.-S. Moon, O.-J. Kwon, S.-H. Lee, and K.-R. Kwon. "A New CSR-DCF Tracking Algorithm Based on Faster RCNN Detection Model and CSRT Tracker for Drone Data," Journal of Korea Multimedia Society, Vol. 22, No. 12, pp. 1415-1429, 2019. https://doi.org/10.9717/kmms.2019.22.12.1415
  7. R.S. Sutton. Introduction to Reinforcement Learning, The MIT Press, Cambridge, Massachusetts, London, England, 2015.
  8. J. Donahue, L. Anne Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. "Long-Term Recurrent Convolutional Networks for Visual Recognition and Description," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2625-2634, 2015.
  9. S. Shah, D. Dey, C. Lovett, and A. Kapoor, "AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles," Proceeding of the 11th Conference on Field and Service Robotics, pp. 621-635, 2018.
  10. N.O. Salscheider, "Object Tracking by Detection with Visual Motion Cues," arXiv Preprint, arXiv:2101.07549, 2021.
  11. J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. "You Only Look Once: Unified, Real-time Object Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788, 2016.
  12. G. Ning, Z. Zhang, C. Huang, Z. He, X. Ren, and H. Wang. "Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking," Proceedings of the IEEE International Symposium on Circuits and Systems, pp. 1-4, 2017.
  13. J.C. Caicedo and S. Lazebnik. "Active Object Localization with Deep Reinforcement Learning," Proceedings of the IEEE International Conference on Computer Vision, pp. 2488-2496, 2015.
  14. D. Jayaraman and K. Grauman. "Look-Ahead before You Leap: End-to-End Active Recognition by Forecasting the Effect of Motion," Proceedings of the European Conference on Computer Vision, pp. 489-505, 2016.
  15. V. Mnih, K. Koray, D. Silver, A.A. Rusu, J. Veness, M.G. Bellemare, et al., "Human-Level Control through Deep Reinforcement Learning," Nature, Vol. 518, pp. 529-533, 2015. https://doi.org/10.1038/nature14236