DOI QR코드

DOI QR Code

Object Tracking Algorithm using Feature Map based on Siamese Network

Siamese Network의 특징맵을 이용한 객체 추적 알고리즘

  • Lim, Su-Chang (Dept. of Computer Engineering, Sunchon National University) ;
  • Park, Sung-Wook (Dept. of Computer Engineering, Sunchon National University) ;
  • Kim, Jong-Chan (Dept. of Computer Engineering, Sunchon National University) ;
  • Ryu, Chang-Su (Dept. of Cartoon & Game Motion Graphic, Yewon Arts University)
  • Received : 2021.05.18
  • Accepted : 2021.06.09
  • Published : 2021.06.30

Abstract

In computer vision, visual tracking method addresses the problem of localizing an specific object in video sequence according to the bounding box. In this paper, we propose a tracking method by introducing the feature correlation comparison into the siamese network to increase its matching identification. We propose a way to compute location of object to improve matching performance by a correlation operation, which locates parts for solving the searching problem. The higher layer in the network can extract a lot of object information. The lower layer has many location information. To reduce error rate of the object center point, we built a siamese network that extracts the distribution and location information of target objects. As a result of the experiment, the average center error rate was less than 25%.

Keywords

1. 서론

시각적 객체 추적(visualobject tracking, VOT) 은컴퓨터 비전 분야에서 중요한 연구 이슈로 주목 받아왔다. 시각적 객체 추적은 자율주행, 인간 컴퓨터 상호작용, 감시 및 보안, 로봇 공학과 같은 수많은 시각기술 분야에서 핵심 기술로 사용되고 있다[1-4].

VOT의 목적은 연속 시퀀스 프레임에서 추적하고자 하는 객체를 추적하는 것이다.VOT는 객체 외형 초기화(initialization), 외형 모델링(appearance), 움직임 추정(motion estimation), 객체 지역화(object localization)등의 단계로 이루어져있다. 외형 초기화 단계에서는 첫 번째 프레임(frame)에서 주어지는 경계 박스 정보 X, Y, Width, Height으로 관심 영역이 설정된다.외형 모델링은 주어진 객체 영역을 특징추출 알고리즘 또는 수학적 모델을 이용하여 객체 특징을 표현한다. 움직임 추정은 외형 모델을 사용하여 나머지 프레임에 위치한 객체 위치를 추정한다. 지역화는 추정된 위치를 기준으로 객체 영역을 바운딩 박스로 영역화 한다. 추적 알고리즘이 반복적으로 처리되는 동안 모델은 갱신된다.

객체 추적의 문제는 첫 번째 프레임에서 주어지는 객체 정보만 사용할 수 있고, 주어진 연속된 프레임 안에서 객체 외관(appearance)또한 변화할 수 있기 때문에 제한된 표적 정보만 사용하여 추적해야한다. 추적 대상 객체 외형 표현 정보가 부족하여 폐색 (occlusion), 사이즈 변화(scalevariation), 조명 변화 (illumination variation), 복잡한 배경(background clutters), 포즈 변화(deformation)등의 여러 요소들에 의해 추적 알고리즘이 표류(drift)하게 되어 추적을 실패할 수 있다. 이런 문제들을 해결하기 위해 다양한 추적 알고리즘이 제안됐다. 이 알고리즘은 서로 상이한 이론적 근거에 기초하여 제작됐다[5].이 알고리즘들은 상기 서술한 문제점을 해결하는 것을 목표로 한다. 첫 번째 프레임에서 주어지는 객체를 잘 표현(representation)하는 외형 모델을 설계한다. 객체 정보가 충분히 표현될수록 추적 성능이 향상된다.

추적 알고리즘의 성능은 객체 외형 특징(feature) 표현력에 크게 영향을 받는다. 특징은 크게 수작업 (hand-crafted, HC)방법을 이용해 추출된 특징과 심층 특징(deep feature)으로 분류된다. 전통적인 방식은 HOG(histogram of oriented gradients), SIFT (scale invariant feature transform), LBP(localbi- narypattern)알고리즘을 사용한다. 심층 특징은 HC 방식과 달리 가우시안 피라미드(gaussianpyramid) 등을 사용하여 한 이미지에서 단계별 정보를 캡쳐 (capture)함으로써 목표 객체 외형 변화 특징을 추출한다. 최근에는 데이터 표현력에 강력한 성능을 보이는 딥러닝을 사용한다[6].

2010년 이후, 컴퓨터 성능 향상과 여러 이론과 방법론이 등장하면서 딥러닝이 핵심 기술로 주목받았고, 객체 인식[7], 분할[8]등 컴퓨터 비전 분야에 적용하는 연구가 진행되었다. 특히, 이 분야에서 컨볼루션 신경망(convolutional neural networks, CNN) 은 이미지 처리에 우수한 성능을 보여주어 대표적인 딥러닝 아키텍쳐로 자리매김했다.

CNN은 이미지 인식 문제와 같은 다른 분야에서 좋은 성능을 보여주었지만, 추적 분야의 경우는 충분한 훈련데이터를 수집하는데 어려움이 있어 성능이 크게 개선되지 않았다. 이러한 문제를 해결하기 위해 다양한 추적 알고리즘들이 등장했다. 발표된 알고리즘들은 추적 문제를 지역 검색(local search)로 간주하고, CNN을 추적에 알맞은 형태로 재구성했다. 샴넷(siamese network)[9]은 이미지 유사도 측정[10] 과 이미지 상관관계[11]해결에 우수함을 입증했다. 샴넷은 이미지 매칭 문제 해결에 좋은 성능을 보여주고, 이미지 안에서 추적하고자 하는 객체와 유사한 후보를 찾을 수 있다는 장점이 있다.

본 논문은 추적된 객체 중점 에러율 최소화에 초점을 둔다. 이 문제를 해결하기 위해 객체 공통 특징을 추출하는 백본(back bone)신경망으로 Alex Net을 사용했다.추적 대상 객체 특징 분포맵과 위치 맵을 추출하기 위해 샴넷으로 구성하였다. 특징 분포 맵을 필터로 위치 맵을 찾기 영역으로 지정하고 컨볼루션연산을 적용한다. 출력된 응답맵(response map) 의 평균 값을 임계값으로 지정하고, 임계값 이상인 영역을 좌표변환 하여 바운딩 박스로 지정했다.바운딩 된 영역에서 최대 추정점(maximum estimation point) 을 객체 중점 값으로 지정했다.

논문의 구성은 다음과 같다. 2장에선 딥러닝 기반추적 알고리즘과 샴넷 기반 추적알고리즘의 연구를 기술했다.3장에서 제안한 알고리즘을 서술하였고, 4장에서 제안한 알고리즘의 성능평가 결과를 상세히 설명했다. 마지막 5장에서는 결론을 맺는다.

2. 관련연구

2.1 CNN기반 추적알고리즘

딥러닝 기반 추적기(tracker)의 주요 특징은 해당 추적기들이 시각적 추적에 딥러닝 프레임워크를 도입한다는 점이다. 딥러닝 프레임워크는 강력한 특징추출기로 사용될 수 있다. 대량의 데이터로 심층 신경망을 훈련함으로써 신경망이 다른 레벨에서 특징을 추출하는 법을 배울 수 있다. CNN은 특징 추출기 (feature extractor) 구성요소로 CF(convolutional features)추적 프레임워크에 통합될 수 있다.CNN 의 컨볼루션 레이어에서 입력 객체 특징을 추출하여 상관 필터(correlation filter)와 결합하여 객체를 추적한 연구가 진행되었다[12]. Hedged Deep Tracker (HDT)[13]와 Hierarchical Convolutional Features (HCF)추적기[14]도 CNN을 특징 추출기로 사용하는 대표적인 추적알고리즘이다. CNN 기반 분할 알고리즘을 추적에 적용한 연구도 진행됐다[15].이 방법론은 목표 객체 구조 모델링에 픽셀 수준의 정보만 활용된다.

2.2 샴 네트워크(siamese network)기반 추적 알고리즘

샴 네트워크(siamesenetwork)는 두 개 이상의 동일한 네트워크로 구성된 신경망 아키텍쳐다. 샴 네트워크는 동일한 매개 변수와 가중치를 서로 공유하는 형태를 지닌다. 매개 변수 갱신은 두 개의 하위 네트워크에서 미러링(mirroring) 된다.

Fig.1은 샴 네트워크의 기본 구조도를 보여준다. 두 입력 이미지에서 추출된 특징 벡터를 비교하여 유사성을 찾기 위한 매개변수를 학습한다. 일반적인 신경망은 여러 클래스를 예측하는 방법을 학습한다. 데이터 셋에 새로운 클래스를 추가 또는 제거하는 경우 문제가 발생한다. 이 경우 신경망을 갱신하고, 전체 데이터를 다시 학습해야 하는 문제가 발생한다. 신경망은 학습을 위해 많은 양의 데이터가 필요하지만 샴 네트워크는 유사성 함수를 학습하기 때문에두 이미지의 외형 등의 형태가 동일한지 확인 가능하도록 훈련 시킬 수 있다. SiamFC는 완전한(fully)컨볼루션 신경망을 사용하여 두 네트워크를 연결하기 위해 새로운 교차상관계연산(cross-correlationop- eration)을 도입했다[16]. GOTURN은 AlexNet을 샴네트워크로 구성하여 객체 특징 추출에 사용했다. 이전 및 현재 이미지 프레임의 특징 맵은 완전히 연결된 레이어에 입력되어 대상의 경계 박스를 추정한다 [17].다른 물체에 의해 추적 객체가 가려지는 상황에서 추적 성능을 향상시키기 위해 샴 네트워크에 순환신경망(recurrent neural network)을 적용한 연구도 진행됐다[18]. 두 접근법 모두 분기된 CNN을 한 지점에서 결합하기 위해 완전 연결(fully connected) 레이어를 사용하므로 많은 훈련 매개변수뿐만 아니라 많은 컴퓨팅 파워를 요구한다.

MTMDCW_2021_v24n6_796_f0001.png 이미지

Fig. 1. A Basic Siamese Network Architecture.

3. 제안하는 추적 알고리즘

3.1 제안하는 샴 네트워크의 구조

Fig.2는 제안하는 샴 네트워크를 나타낸다. 제안하는 네트워크의 구조는 객체 특징을 추출하기 위해 백본 네트워크로 100만장 이상의 이미지를 학습한 8-레이어의 사전학습(pre-trained)된 AlexNet을 사용했다. AlexNet의 하위 컨볼루션 3레이어를 사용한 구조를 기초로 하여 하위 레이어를 샴 네트워크 형태로 커스터마이징했다. 네트워크의 입력(input)으로타겟(target)이미지와 찾기 영역(search region) 이미지를 사용한다. 각 이미지는 백본 네트워크를 거치며 동일한 필터에 의해 특징맵(feature map)을 출력 (output)한다.각 특징맵은 이미지 종류에 따라 분기되어 커스텀 레이어로 입력된다. 타겟 이미지는 Fig. 2의 1행의 네트워크로 찾기 영역 이미지는 2행의 네트워크로 입력된다. 타겟 이미지의 특징맵은 컨볼루션 레이어, 배치정규화(batch normalization), ReLU 로 구성된 컨볼루션 블록을 거치며 이미지가 지닌 고유의 특징 값들로 구성된 1×256의 벡터를 출력한다. 찾기 영역 이미지의 특징맵은 전역 평균 풀링 (average pooling)과 최대 풀링(max pooling) 레이어를 통과한다. 최대 풀링 레이어를 통해 특징맵을 구성하는 특징 값들의 최대 값을 추출 함으로써 강조 값들로 특징맵을 구성할 수 있다. 평균 풀링을 통해 특징 값들의 평균 값으로 이루어진 특징맵을 구성함으로써 주변 이웃값의 연관성을 유지하였다. 각 풀링 레이어의 출력인 특징맵을 연결하기 위하여 Concatenation 연산을 적용한다.

MTMDCW_2021_v24n6_796_f0002.png 이미지

Fig. 2. Proposed Siameses Networks.

3.2 데이터셋 구성

네트워크의 매개변수 학습을 위해 ImageNet의 추적 전용 데이터셋[19]을 사용하였다. 해당 데이터셋은 Train및 Validation데이터 셋으로 구분되어있다. 각 데이터셋은 이미지와 주석(annotation)을 포함한다. 네트워크 학습에는 Train데이터 셋, 검증에는 Validation 데이터셋을 사용하였다.

네트워크 입력 이미지는 전처리 과정을 거친다. 이미지 유사도 비교를 위해 데이터셋의 각 카테고리에서 타겟 이미지와 찾기 영역 이미지를 임의로 선택하여 한 쌍(pair)으로 결합한다. 타겟 이미지는 바운딩 박스 좌표값을 기준으로 잘라낸다. 찾기 영역의 경우 이미지 형태가 붕괴되지 않도록 이미지의 비율을 유지하며 확대/축소한다. 해상도 일치 과정에 발생되는 공백영역은 ‘0’으로 채워 넣어 이미지 학습에 영향을 주지 않도록 한다. 타겟 이미지와 찾기 영역 이미지는 네트워크 입력 사이즈인 256×256으로 변환한다.

Table1은 전처리된 한 쌍의 타겟 이미지와 찾기 영역 이미지를 보여준다. 해당 이미지는 ILSVRC (imagenet large scale visual recognition challenge) 2015 데이터셋의 ‘00071007’카테고리 중 일부다. 1행의 타겟 이미지 좌표형태는 XML(extensible mark- up language)로 저장되어 있으며 해당 좌표에 해당되는 이미지를 추출한다.1행 3열은 잘라낸 타겟 이미지를 보여준다.찾기 영역 이미지의 경우 2행 1열의 원본 이미지를 256×256이미지로 변환하는 과정에서 공백 영역을 검은색으로 채워넣은 것을 2행 2열 이미지를 통해 확인 할 수 있다. 바운딩 박스를 나타내는 좌표는 찾기 영역 이미지 사이즈 변환 비율에 비례하여 좌표 변환이 수행된다. 변환된 좌표는 2행 2열 Bounding Box의 이미지에 파란색 실선(solid line)으로 나타냈다. 해당 작업은 학습데이터셋 뿐만 아니라 검증 데이터셋에도 동일하게 적용된다.

Table 1. Pre-processed Image.

MTMDCW_2021_v24n6_796_t0001.png 이미지

Fig.3은 찾기영역 이미지와 바운딩 영역에 해당하는 레이블(label)이미지를 보여준다. Fig.3(a)는네트워크 입력으로 들어간 찾기영역, Fig.3(b)는 레이블 이미지다. 레이블 이미지는 50×50×1의 모양 (Shape)으로 이루어져 있으며, 각각 H(height)×W (width)×C(channel)을 지칭한다. 레이블의 사이즈는 네트워크의 최종 출력 맵(outputmap)과 동일한 사이즈로 이루어진다. 원본 이미지의 바운딩 박스 좌표값은 50×50사이즈의 이미지의 좌표값에 투영되어 재계산된다. Fig.3(c)와 같이 원본 객체 좌표가 변환된 좌표에 존재하면 1, 존재하지 않으면 0으로 표현된다.

MTMDCW_2021_v24n6_796_f0003.png 이미지

Fig. 3. Image of Train Dataset. (a) Original image, (b) Label image, and (c) Label map.

4. 실험 결과 및 고찰

논문에서 제안한 샴 네트워크 기반 추적 알고리즘의 성능을 검증했다. 실험에는 AlexNet의 FC(fully connected)레이어를 제외한 컨볼루션 블록을 사용하였다.

실험 환경은 Table2와 같다. 알고리즘의 성능평가를 위해 11종의 평가 시나리오로 구성된 OTB-100 [20] 데이터셋과 SiamFC[15], Staple[21]을 사용했다. 각 속성은 SV(scale variation), LR(low reso- lution), MB(motionblur), OPR(out-of-planerota- tion), OV(outofview), IV(illuminationvariation), OCC(occlusion), BC(background cluttered), DEF (deformation), FM(fastmotion), IPR(in-planero- tation)으로 구성된다. 각 시나리오를 사용하여 추적알고리즘의 성능평가가 가능하다.알고리즘의 정량적 평가를 위해 Precision Plot과 Success Plot을 사용하였다. Precision Plot은 중점좌표에러를 계산한다. 계산된 바운딩 박스 중심 좌표와 GT(ground- truth)의 바운딩박스 중심 좌표 거리 평균을 계산한다. Success Plot는 계산된 바운딩 박스와 GT의 바운딩 박스 사이의 중첩율(overlap rate)이다.

Table 2. Specification of Experiment Environment.

MTMDCW_2021_v24n6_796_t0002.png 이미지

Fig.4는 추적에 사용된 검증 카테고리의 첫 번째 프레임에서 Target영역만 잘라낸 이미지이다. 해당이미지를 사용하여 전체 프레임에서 객체 추적이 이루어진다. Table3은 추적 결과를 보여준다. 첫 번째 열은 프레임 번호, 두 번째 열은 매칭값이 가장 높게 나온 최대점(maximumpoint)이다.초록색 십자가는 최고점의 좌표를 나타내고, 해당 영역을 히트맵 (heat-map)형태로 표현했다. 세 번째 열은 제안한 네트워크를 사용하여 객체 추적한 결과이고, 마지막네 번째 열은 GT를 보여준다.

MTMDCW_2021_v24n6_796_f0004.png 이미지

Fig. 4. Target Image.

Table 3. Image of Tracking Result.

MTMDCW_2021_v24n6_796_t0003.png 이미지

Fig.5는 Table3의 성능 평가 결과를 보여준다. 파란색 실선은 중점에러율을 나타내고 주황색 실선은 GT와 예측된 바운딩 박스 영역 사이의 중첩 정확도를 보여준다. 목표 객체가 이동하며 스케일이 변화하는 380∼451프레임 구간에서 급격하게 중첩 정확도가 감소하는 것을 알 수 있다.

MTMDCW_2021_v24n6_796_f0005.png 이미지

Fig. 5. Result of Precision Plot and Success Plot.

Fig.6과 Fig.7은 검증 데이터셋을 사용한 제안한 추적 알고리즘의 성능평가 결과를 보여준다. 특히 Precision Plot결과인 Fig.6의 경우 약 75.1%의 정확도를 보여주며 우수한 성능을 보여주었다. 특히, 평균 중점에러율은 25%미만의 결과를 얻었으며, IPR 영역에서 약 17% 미만의 결과를 얻었다. 반면에 Success plot인 Fig.7의 경우 SiamFC보다 낮은 성능을 보여주었다.

MTMDCW_2021_v24n6_796_f0006.png 이미지

Fig. 6. Results of Precision Plot Graph of Tracking Performance Evaluation.

MTMDCW_2021_v24n6_796_f0007.png 이미지

Fig. 7. Results of Success Plot Graph of Tracking Performance Evaluation.

사이즈 변환(sv)시나리오에서 45.5%의 낮은 중첩율을 보여주었다. 다른 알고리즘과 비교해서 상대적으로 낮은 성능을 보여주는 이유는 다음과 같다.

첫째, 제안한 알고리즘은 다른 시나리오와 동일하게 SV에서 추적에 실패하지 않는다. 하지만 SV의속성으로 이루어진 영상에서 추적 대상 객체 사이즈 변화가 발생하는 경우 바운딩 박스가 변화된 객체 사이즈에 적응적으로 대응하지 못하고 배경을 포함한 영역 또는 객체보다 작은 영역을 바운딩하여 추적을 진행하기 때문에 GT의 바운딩박스 영역과 넓이가 상이하여 낮은 성능 점수를 보여주었다.

둘째, 추적 기준이 되는 초기 첫 번째 프레임의 객체 영역에 너무 많은 배경 정보가 포함되어있거나 초기 객체 사이즈가 아주 작아 추적에 사용되기 위한 충분한 객체 정보를 얻지 못하여 점진적으로 영역이 커지는 상황에 강건히 대응하지 못한 것으로 판단된다.

5. 결론

본 논문에서는 AlexNet기반 샴 네트워크를 이용한 추적 알고리즘을 제안했다. 제안한 알고리즘에서는 객체 특징 분포 맵과 위치 추정을 위한 찾기 영역 맵 두 가지 구성요소를 사용하여 객체 추적을 진행했다. 특징 분포 맵과 찾기 영역은 AlexNet을 통과하며 특징을 추출한다. 이후 샴 네트워크을 거치며 특징분포 맵은 목표 객체 모양 및 형태 대한 사전 정보를 생성하고, 찾기 영역은 찾고자 하는 객체 위치에 특징 집합을 생성한다. 컨볼루션 연산을 통해 유사도 비교를 진행한다. 검증 데이터셋을 사용한 실험 결과를 통해 Precision Plot평가에서 75.1%의 정확도 보여줬다.

Success Plot평균에서 약 53%결과를 보여줬다. 그 이유는 객체 사이즈 변화에서 강건히 대응하지 못했다.나아가 추적 기준이 되는 초기 첫 번째 프레임의 객체 영역에 너무 많은 배경 정보가 포함되어있거나, 시퀀스가 진행되며 초기 객체와 형태가 많이 달라지므로 Success Plot의 정밀도에 영향을 미칠 수 있음을 관찰했다. 향후 연구로 객체 영역의 중첩률 향상과 관련된 알고리즘을 최적화하고자 한다.

References

  1. V.A. Laurense, J.Y. Goh, and J.C. Gerdes, "Path-Tracking for Autonomous Vehicles at the Limit of Friction," Proceeding of American Control Conference (ACC), pp. 5586-5591, 2017.
  2. S.S. Rautaray and A. Agrawal, "Vision Based Hand Gesture Recognition for Human Computer Interaction: A Survey," Artificial Intelligence Review, Vol. 43, No. 1, pp. 1-54, 2015. https://doi.org/10.1007/s10462-012-9356-9
  3. S.H. Kim, S.C. Lim, and D.Y. Kim, "Intelligent Intrusion Detection System Featuring a Virtual Fence, Active Intruder Detection, Classification, Tracking, and Action Recognition," Annals of Nuclear Energy, Vol. 112, pp. 845-855, 2018. https://doi.org/10.1016/j.anucene.2017.11.026
  4. S.J. Lee and M.C. Lee, "A Vision Based People Tracking and Following for Mobile Robots Using CAMSHIFT and KLT Feature Tracker," Journal of Korea Multimedia Society, Vol. 17, No. 7, pp. 787-796, 2014. https://doi.org/10.9717/KMMS.2014.17.7.787
  5. S. Li and D.Y. Yeung, "Visual Object Tracking for Unmanned Aerial Vehicles: A Benchmark and New Motion Models," In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, Vol. 31, No. 1, pp. 4140-4146, 2017.
  6. S.C. Lim and D.Y. Kim, "Object Tracking Using Feature Map from Convolutional Neural Network," Journal of Korea Multimedia Society, Vol. 20, No. 2, pp.126-133, 2017. https://doi.org/10.9717/kmms.2017.20.2.126
  7. S.W. Park, S.H. Kim, S.C. Lim, and D.Y. Kim, "Performance Comparison of Commercial and Customized CNN for Detection in Nodular Lung Cancer," Journal of Korea Multimedia Society, Vol. 23, No. 6, pp. 729-737, 2020.
  8. S.C. Lim and D.Y. Kim, "Semantic Segmentation using Convolutional Neural Network with Conditional Random Field," The Journal of the Korea Institute of Electronic Communication Sciences, Vol. 12, No. 3, pp. 451-456, 2017. https://doi.org/10.13067/JKIECS.2017.12.3.451
  9. J. Bromley, et al., "Signature Verification Using a Siamese Time Delay Neural Network," International Journal of Pattern Recognition and Artificial Intelligence, Vol. 7, No. 4, pp. 669-688, 1993. https://doi.org/10.1142/S0218001493000339
  10. S. Chopra, R. Hadsell, and Y. LeCun, "Learning a Similarity Metric Discriminatively with Application to Face Verification," IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 539-546, 2005.
  11. S. Zagoruyko and N. Komodakis, "Learning to Compare Image Patches via Convolutional Neural Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4353-4361, 2015.
  12. M. Danelljan, G. Hager, F.K. Shahbaz, and M. Felsberg, "Learning Spatially Regularized Correlation Filters for Visual Tracking," In Proceedings of the IEEE International Conference on Computer Vision, pp. 4310-4318, 2015.
  13. Y. Qi, S. Zhang, L. Qin, H. Yao, Q. Huang, J. Lim, and M.H. Yang, "Hedged Deep Tracking," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4303-4311, 2016.
  14. C. Ma, J.B. Huang, X. Yang, and M.H. Yang, "Hierarchical Convolutional Features for Visual Tracking," In Proceedings of the IEEE International Conference on Computer Vision, pp. 3074-3082, 2015.
  15. J. Son, I. Jung, K. Park, and B. Han, "Tracking-by-Segmentation Using Online Gradient Boosting Decision Tree," In Proceedings of the IEEE International Conference on Computer Vision, pp. 3056-3064, 2015.
  16. L. Bertinetto, J. Valmadre, J.F. Henriques, A. Vedaldi, and P.H. Torr, "Fully Convolutional Siamese Networks for Object Tracking," In Proceedings of the European Conference on Computer Vision, pp. 850-865, 2016.
  17. D. Held, S. Thrun, and S. Savarese. "Learning to Track at 100 fps with Deep Regression Networks," In European Conference on Computer Vision, pp. 749-765, 2016.
  18. D. Gordon, A. Farhadi, and D. Fox, "Re3: Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects," IEEE Robotics and Automation Letters, Vol. 3, No. 2, pp. 788-795, 2018. https://doi.org/10.1109/lra.2018.2792152
  19. O. Russakovsky, et al, "Imagenet Large Scale Visual Recognition Challenge," International Journal of Computer Vision, Vol. 115, No. 3 pp. 211-252, 2015. https://doi.org/10.1007/s11263-015-0816-y
  20. H. Fan and H. Ling, "Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7952-7961, 2019.
  21. L. Bertinetto, J. Valmadre, S. Golodetz, O. Miksik, and P.H. Torr, "Staple: Complementary Learners for Real-Time Tracking," In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1401-1409, 2016.