DOI QR코드

DOI QR Code

쿼드 어휘 트리를 이용한 장소 인식 방법

Place Recognition Method Using Quad Vocabulary Tree

  • Park, Seoyeong (Department of Integrative Engineering, Chung- Ang University) ;
  • Hong, Hyunki (Department of Integrative Engineering, Chung- Ang University)
  • 투고 : 2016.04.21
  • 심사 : 2016.06.23
  • 발행 : 2016.07.30

초록

위치 기반 서비스(LBS; Location Based Service)를 위한 장소 인식 기술은 사용자 중심의 서비스를 위한 중요 기술 중 하나이다. 이미지 특징을 이용한 장소 인식 방법 중에서 FLANN(Fast Library for performing Approximate Nearest Neighbor)의 이미지 어휘 트리를 이용하면 처리 속도가 빠르지만 가려짐 등으로 인해 인식의 정확도가 높지 않다. 본 논문에서는 SURF(Speeded Up Robust Features)를 사용한 쿼드(quad) 어휘 트리 기반의 장소 인식 방법을 제안한다. 학습 단계에서 데이터베이스 이미지를 세 단계의 공간 피라미드로 표현하고 각 영역에 대한 어휘 트리를 구성한다. 질의 이미지도 세 단계의 공간 피라미드로 표현하고 각 단계별로 어휘 트리 기반 인식을 수행한다. 또한 매칭된 특징 간의 호모그래피(homography) 관계를 측정하고 이를 만족하는 영역의 개수를 고려함으로써 최종 인식의 성능을 향상시켰다.

Place recognition for LBS (Location Based Service) has been one of the important techniques for user-oriented service. FLANN (Fast Library for performing Approximate Nearest Neighbor) of place recognition with image features is fast, but it is affected much by environmental condition such as occlusions. This paper presents a place recognition method using quad vocabulary tree with SURF (Speeded Up Robust Features). In learning stage, an image is represented with spatial pyramid of three levels and vocabulary trees of their sub-regions are constructed. Query image is matched with the learned vocabulary trees in each level. The proposed method measures homography error of the matched features. By considering the number of inliers in sub-region, we can improve place recognition performance.

키워드

Ⅰ. 서 론

유비쿼터스 컴퓨팅에 대한 연구가 활발해지면서 사용자가 장착한 센서로 부터 주변 상황을 인식하고 이에 적합한 서비스를 제공해주는 기술이 각광받고 있다. 사용자의 상황에 따라 적절한 서비스를 제공하기 위해서는 사용자의 상황을 인식하는 것이 가장 중요하다. 이러한 기술 요소 중 사용자의 위치를 파악하는 장소 인식 기술은 실시간으로 인식되어 스마트폰 기반의 증강현실(Augmented Reality) 등으로 사용될 수 있으며 그 자체로도 사용자의 상황을 유추하는 정보로도 사용될 수 있다[1-5].

장소 인식을 위한 시스템은 GPS 센서와 같은 전역 신호 시스템을 이용한 방식과 사용자가 장착한 카메라를 통한 이미지를 통해 인식하는 방법 등으로 구분된다[3,6]. 장소 인식을 위한 시스템은 GPS 센서와 같은 전역 신호 시스템을 이용한 방식과 사용자가 장착한 카메라를 통한 이미지를 통해 인식하는 방법 등으로 구분된다[3,6]. 센서를 이용하는 방법에 비해, 비용이 저렴하고 다양한 자연 환경에 적용할 수 있는 방법으로 카메라를 이용한 시각적 장소 인식(visual place recognition) 기술이 활발히 개발되고 있다. 입력된 질의(query) 영상의 시각적 특징을 이용하여 해당 장소 등을 인식하는 기술로 자율주행차량, 서비스 로봇 등에 응용되고 있다.

카메라를 이용하는 인식 연구는 형태 등을 사용하여 인식하는 방법, 이미지 내의 특징들을 검색하여 인식하는 방법 등이 있다. 형태 기반의 장소 인식 방법은 혼잡한 배경에서 오인식률이 높아지는 단점이 있으며 색상 정보를 사용하는 방법은 색상 모델의 선택 문제뿐만 아니라 계산적인 면에서도 부담을 감수해야 한다.

영상 특징을 이용하는 방법은 인식을 위해 이미지가 카메라를 통해 입력되면 특징 추출이 선행된다. 카메라의 움직임에 따른 회전, 조명 변화 등의 영향을 적게 받는 SIFT(scale invariant features transform), SURF(speeded up robust features) 등의 강건한 기술자(descriptor)를 이용한 방법이 있다[7,8]. 이 방법은 인식에 좋은 결과를 나타내지만 질의 이미지에서 가려짐이 발생하면 인식률이 저하된다.

본 논문에서는 이미지 특징을 이용한 장소 인식 방법이 제안된다(그림 1). 그림 1-(a)는 학습 단계의 순서도이며, 사전에 취득한 다양한 장소 이미지로부터 특징을 추출한 후 매칭을 위한 특징들을 어휘 트리(vocabulary tree)로 정리한다. 각 장소의 이미지는 세 단계의 공간 해상도로 분할되고 각 단계의 분할 영역마다 쿼드 트리 기반의 색인(retrieval) 정보를 만든다. 이후 그림 1-(b)와 같이 사용자가 입력한 질의 이미지는 학습 이미지 정보와의 매칭을 수행하여 인식결과를 얻는다. 본 논문에서는 SURF를 이용하여 이미지 특징을 추출했고, FLANN(Fast library for performing approximate nearest neighbor) 검색을 진행하였다[9]. 또한 각 장소에 대한 매칭 성능을 개선하기 위해 대응되는 특징 간의 호모그래피 관계를 추가로 고려하였다.

그림 1.제안된 순서도. (a) 학습 단계, (b) 매칭 단계 Fig. 1. Proposed flow chart; (a) learning stage, (b) matching stage

2장에서는 장소 인식에서 사용되는 이미지 특징 등을 소개하고, 3장에서는 제안된 시스템을 설명하였다. 4장에서는 제안된 시스템의 실험과 결과를 분석하였고, 5장에서 결론 및 향후 연구를 정리하였다.

 

Ⅱ. 이미지 특징과 장소 인식 요소 기술

사용자에 의해 입력된 질의 이미지에서 장소를 인식하기 위해서는 해당 장소에 대한 효과적인 표현과 정확한 매칭 방법이 요구된다. 각 장소 이미지에 대해 SIFT, SURF 등을 이용한 특징을 추출하고 정확한 매칭을 위해 어휘 트리를 생성한다[10]. 그리고 효율적인 매칭 방법 중 하나인 FLANN 검색을 이용하여 장소를 인식한다.

1. SURF를 이용한 특징 추출

본 논문에서는 SURF를 이용하여 이미지 특징을 추출한다. 이미지 패치(patch) 영역에서 헤시안 행렬(hessian matrix)를 구성하고 행렬식(determinant) 값과 임계값 비교를 통해 코너점을 판단한다. 적분 이미지(integral image)와 가변 마스크 등을 이용하기 때문에 SIFT의 DOG(Difference of Gaussian) 연산에 비해 검출 속도가 매우 빠르다.

검출된 코너의 중심 영역에 대한 기술자를 생성하기 위해서 코너점 주위에 윈도우 영역을 설정한다. 이 윈도우를 다시 4×4 샘플링 영역으로 나눈 후 각 영역별로 Harr-wavelet 응답을 계산한다. 응답 값의 x, y 축에 대한 절대 값의 합으로 구성된 4개의 벡터를 구성하고 최종적으로 해당 윈도우 영역을 64개의 벡터로 표현한다.

2. 어휘 트리 기반의 장소 인식 방법

사용자에 의해 입력된 질의 이미지와 학습된 이미지 정보 간의 검색 시간은 자료구조의 설계 방식과 매칭 방법에 따라 결정된다. 본 논문에서는 특징의 가장 근접한 이웃을 빠르게 탐색하고 정확한 성능을 보이는 FLANN 검색을 채택했으며, 이미지 특징에 대해 randomized kd-트리, 이미지 어휘 트리, 자동 선택(automatic selection) 방법 등을 적용할 수 있다.

이미지 특징의 기술자 벡터 공간에 대해 계층적인 k- means 군집화를 적용한다. 각 k개 영역에 대해 동일 연산을 재귀적으로 적용하여 이미지 특징의 개수가 설정한 k보다 작아질 때 군집화를 종료한다.

구성된 계층적 k-means 트리를 검색하기 위해 k-최근접 이웃(k-nearest neighbor) 알고리즘을 이용한다. 질의 영상에서 추출된 기술자들을 트리의 단말 노드에서 유사도를 측정하여 가장 가까운 노드를 찾는 방식으로, 최종적으로 질의 기술자는 학습된 기술자 정보들과 매칭된다.

3. 공간 매칭

특정한 장소 등을 찾는 사례(instance) 인식이 아닌 물체의 일반적인 부류를 찾는 범주(category) 인식에 BoW(Bag of Word) 기법이 널리 사용된다[11]. 이 방법은 먼저 다수의 학습 이미지에서 추출한 전체 특징들에 대해 클러스터링을 수행하여 획득한 대표 특징들로 구성된 코드북(codebook)을 생성한다. 이때 생성된 코드북에 포함된 대표 특징들을 코드워드(codeword)라 부른다. 코드북을 이용하여 어떤 이미지가 있을 때 이 이미지에 대해서 특징을 추출한 후 각각의 특징에 대해 가장 유사한 코드워드를 찾아 히스토그램으로 이미지를 표현할 수 있다. 하지만 특징들의 빈도수로 이미지를 표현하기 때문에 특징들 간의 기하학적인 위치 관계를 잃어버리는 문제가 있다[12]. 이를 보완하기 위해 제안된 공간 피라미드 매칭(SPM; Spatial pyramid matching) 방법은 이미지를 여러 단계의 해상도로 나누어 각 단계의 분할 영역마다 BoW를 구하고, 이들을 이용하여 하나의 BoW 피라미드(pyramid)를 생성한다[13].

특정한 장소 등을 찾는 사례(instance) 인식이 아닌 물체의 일반적인 부류를 찾는 범주(category) 인식에 BoW(Bag of word) 기법이 널리 사용된다[11]. 이 방법은 먼저 다수의 학습 이미지에서 추출한 전체 특징들에 대해 클러스터링을 수행하여 획득한 대표 특징들로 구성된 코드북(codebook)을 생성한다. 이때 생성된 코드북에 포함된 대표 특징들을 코드워드(codeword)라 부른다. 대상 이미지로부터 특징을 추출하고, 각 특징에 대한 유사 코드워드의 히스토그램으로 이미지를 표현할 수 있다. 그러나 특징들의 빈도수로 이미지를 표현하기 때문에 특징들 간의 기하학적인 위치 관계를 고려하지 못하는 문제가 있다[12]. 이를 보완하기 위해 제안된 공간 피라미드 매칭(SPM; Spatial pyramid matching) 방법은 이미지를 여러 단계의 해상도로 나누어 각 단계의 분할 영역마다 BoW를 구하고, 이들을 이용하여 하나의 BoW 피라미드(pyramid)를 생성한다[13].

코드북의 크기가 3인 경우, 각 단계별 영역을 분할한 후 빈도를 그림 2에 나타내었다. 우선 데이터베이스에 대한 코드북을 생성하고 각 단계의 영역마다 BoW를 생성한다. 이미지에는 동그라미, 다이아몬드, 십자 모양의 특징이 각각 존재하며, 이미지를 3 단계의 해상도로 분할한 다음, 각 영역에서 특징의 빈도에 따라 히스토그램을 생성한다. 사용자의 질의 이미지에 대해서도 동일한 과정을 반복하여 데이터베이스 이미지와 질의 이미지의 BoW의 유사도를 측정하고 이들을 종합하여 매칭 여부를 결정한다. 본 논문에서는 공간 매칭 방법을 참조하여 이미지를 세 단계의 해상도로 분할하며, 쿼드 트리 기반의 어휘 트리를 생성한다.

그림 2.3단계 피라미드 구성의 예[13] Fig. 2. Example of constructing a three-level pyramid[13]

 

Ⅲ. 제안된 공간 매칭 기반의 장소 인식 시스템

본 논문에서는 이미지 특징의 공간 정보를 이용하는 장소 인식 방법이 제안된다. 먼저, 각 장소에 대한 데이터베이스를 구성하는 과정에서 이미지 특징들의 공간 정보를 활용한다. 학습 이미지의 특징 기술자들을 이용하여 색인 정보를 구성하고 질의 이미지에 대한 인식을 수행하면 인식 성능이 저하될 수 있다. 예를 들어, 특정한 어느 한 장소에서만 관측되는 특징이 다른 장소에서도 일반적으로 추출될 수 있는 특징들(나무, 도로 등)과 함께 질의 정보로 사용되면 전체적인 성능은 낮아진다[15]. 이를 보완하기 위해 한 장소에 대한 여러 장의 학습 이미지를 이용하여 매칭에 사용할 특징들을 선별한 후 공간 매칭 기반의 쿼드 트리를 생성하여 장소 인식 시스템을 제안한다.

1. 특징 선택

특정한 장소에 대해 어느 정도의 매칭 성능을 확보하기 위해 여러 장의 서브 이미지(sub image)를 이용하여 학습한다. 장소에 대한 좋은 특징을 추출하기 위해 기하적 군집(cliques)을 이용하는 방법이 제안되었다[14]. 평면성을 확인하는 호모그래피 행렬을 만드는 RANSAC(RAndom SAmple Consensus)을 수행하기 전에 각 특징점들 간의 기하학적 연속성(consistency)을 확인하여 오매칭된 확률이 높은 특징들을 제거한다.

두 장의 영상(t1과 t2)에서 대응점들의 기하 관계를 계산하는 과정을 그림 3에 나타내었다. 특징 u1과 u2의 대응점, v1과 v2의 대응점을 각각 m1와 m2라고 한다. 첫 번째 영상 t1에서 두 특징점(u1과 v1)간의 각도와 거리를 δu1v1, ψu1v1 으로, t2에서 두 특징점(u2과 v2)의 관계는 δu2v2와 ψu2v2로 설정한다. 두 대응점 m1와 m2간의 각도와 거리 차이(dδu1v1, dψu1v1)를 계산하고 식 (1)을 이용하여 기하적 연속성 관계를 평가한다. 먼저 n개의 대응점 집합으로부터 n×n크기의 이진 인접(adjacency) 행렬 A를 정의한다. 인접 행렬의 요소인 Aij는 대응점 m1와 m2가 기하적으로 연속성을 만족하는지 여부에 따라 0과 1로 결정된다. 즉, 식 (1)에서 dδt와 dψt는 두 대응점간의 각도 차이와 거리 차이에 대한 문턱치이며, 두 조건을 공시에 만족해야 한다. 본 논문에서는 각각 35와 29로 설정되었으며, 그림 3에서는 이미지 특징 w1과 w2는 기하적 연속성을 만족하지 않으므로 매칭 쌍에서 제거된다.

그림 3.특징 쌍의 기하 관계 계산 Fig. 3. Computation of geometric relations of correspondence points

서브 이미지들 중 장소를 가장 잘 기술하는 이미지를 대표 이미지로 선정하고 대표 이미지와 나머지 서브 이미지들과 매칭을 수행한다. 그 후 위의 방법을 이용하여 대표 이미지와 서브 이미지들에 동일하게 존재하는 특징들을 선별하여 그 장소의 랜드마크(landmark)로 결정하여 학습한다. 랜드마크는 특정 장소를 인식하는 과정에서 대표적인 이미지 특징정보를 의미한다. 그러나 대표 이미지와 서브 이미지들 모두에 존재하는 특징들만 이용하면 해당 장소를 나타내는 특징들의 수가 지나치게 감소하여 오히려 인식 성능이 저하될 수 있다. 적절한 임계값을 두어 특징 발생 빈도가 임계값을 넘으면 랜드마크로 설정하여 색인 정보를 구성한다.

2. 매칭 과정

2장의 공간 매칭 방법을 참조하여 그림 4와 같이 이미지를 단계(0, 1, 2)별로 영역을 나눈다. 전체 이미지에 대해 각 단계별로 쿼드 트리 기반의 색인 정보를 생성하여 장소 인식 과정에 사용한다.

그림 4.1단계에서 데이터베이스와 질의 이미지 매칭 예 Fig. 4. Example of matching process in level 1 (left: database, right: query image)

사전에 추출한 장소의 이미지 랜드마크들에 대해 0단계 트리를 V0, 1단계 트리를 V1_0, ⋯ , V1_3, 2단계 트리를 순서대로 V2_0, ⋯ , V2_15로 정의한다. 1단계에서 분할된 4개의 영역을 그림 4에 나타내었다. 입력된 질의 이미지도 각 단계별로 영역을 나누어 어휘 트리를 생성한다. 질의 이미지와 데이터베이스 이미지를 각 단계별로 매칭을 수행하며, 1단계에서는 4등분으로 분할된 영역에 대해 질의 이미지 영역을 매칭하여 가장 많이 매칭된 영역을 찾는다. 그림 4에서 데이터베이스 이미지의 V1_0 영역과 질의 이미지의 Q1_1 영역이 매칭되었으며, 이를 붉은 색 화살표로 표시하였다. 이 영역을 기준으로 데이터베이스와 입력 영상 간의 매칭된 영역의 기하학적 위치 관계에 따라 연결성을 확인한다. 즉, 그림 4에서 V1_0 아래에 존재하는 V1_2는 질의 이미지의 Q1_3과 매칭 여부를 확인한다. 세분화된 블록에서 매칭이 이루어지면 각 매칭된 결과에 대해 각 단계의 영역을 고려한 상대적인 가중치를 부여한다.

매칭 과정을 통과한 후보 장소들 중에서 입력 질의 이미지와 가장 가까운 장소 여부를 판별하기 위하여 호모그래피 기반의 RANSAC을 이용한다. 식 (2)와 같이 각 단계별로 매칭된 인라이어들이 일정 개수 이상이 포함된 서브 영역의 개수 M과 각 단계(i)에 대한 가중치를 곱한 값을 합하여 후보 장소들의 매칭 결과값(score)을 계산한다. 그림 4의 경우, 1단계에서 2개 영역이 매칭되었으므로, 해당 단계에서 계산된 결과값은 1이다.

그림 5.사용된 데이터베이스 이미지 Fig. 5. Database images

각 장면에 대한 색인 정보 생성 과정에서 특징점들 간에는 호모그래피 관계가 존재한다고 가정한다. 따라서 매칭 과정에서 얻어진 대응점들로부터 호모그래피를 계산하여 특징점들의 기하적 연결성을 추가로 분석한다. 호모그래피의 역투영 에러(reprojection error)를 이용하여 매칭 후보의 개수를 줄임으로써 인식의 정확성을 향상시켰다.

 

Ⅳ. 실 험

제안 방법의 성능을 검증하기 위해 50장소에 대한 1000장의 도시 이미지로 실험을 진행하였다. 각 이미지에 대하여 SURF의 기술자를 이용하여 특징의 매칭 정확도를 분석하였다. 실험에 사용된 하드웨어 구성은 Intel Core i7-4770 CPU 3.40 GHz, 4GB RAM이다.

질의 영상에 대해 단계별로 분할된 영역에서 매칭을 수행하고 얻어진 매칭 결과만으로 인식 여부를 결정한다. 또한 매칭된 후보들 중에서 각 장소에 대한 데이터베이스의 랜드마크 특징의 비율을 추가로 고려한 결과를 그림 6에서 비교하였다.

그림 6.인식 결과 성능 비교 Fig. 6. sComparison of recognition performance

질의 영상에 대한 인식 결과에서 단순히 점수를 이용하여 매칭을 하는 방법(그림 6의 Score)보다는 매칭된 장소의 전체 특징 개수에 대한 상대적인 비율을 고려하면 보다 우수한 성능이 얻어짐을 그림 6으로부터 확인하였다. 즉, 호모그래피 관계를 만족하는 인라이어와 학습된 랜드마크의 개수를 비교한다. 색인 정보를 구성하는 랜드마크들 중에서 매칭된 인라이어의 상대적 비율이 20%인 경우가 가장 안정적인 인식 성능이 얻어짐을 확인하였다. 질의 이미지와 데이터베이스 이미지 간에 매칭된 특징점의 대응 관계를 녹색 선분으로 그림 7에 표시하였다.

그림 7.장소 인식 결과 Fig. 7. Recognition results

데이터베이스의 구축 과정에서 각 장소의 랜드마크를 추출하는 기준인 임계값의 수치를 달리했을 때의 매칭 성능을 표 1에서 비교하였다. 표 1의 랜드마크 존재 비율은 인식에 중요하게 사용될 특징을 선별하는 과정에서 대상 장소를 가장 정확하게 표현할 수 있는 대표 이미지와 서브 이미지들 사이에서 생성되는 특징들의 출현 빈도이다. 어느 한 장소에 대한 학습 이미지가 대표 이미지 1장과 서브 이미지 4장으로 구성되어 있다고 하자. 랜드마크의 결정 비율이 75%이면, 대표 이미지에서 발생하는 임의의 특징이 4장의 서브 이미지에서 3장 이상에서 공통적으로 추출되는 경우에 랜드마크로 결정된다는 의미이다. 실험 결과 랜드마크의 존재 비율이 각 장소의 전체 서브 이미지에서 50% 이상일 때 성능이 더 우수함을 확인하였다. 즉, 동일 장면에 대한 대표 이미지와 서브 이미지에 충분이 존재(75%)하는 특징점만을 고려하면 오히려 랜드마크의 개수가 줄어들어서 매칭 성능이 낮아진다.

표 1.학습 이미지에서 랜드마크 존재 비율에 따른 장소 인식 결과 Table 1. Performance according to landmark’s presence rates

 

Ⅴ. 결 론

본 논문에서는 이미지 특징의 기하적 관계를 이용하는 장소 인식 방법이 제안되었다. 실제 도시 환경에서 취득된 학습 이미지의 특징을 검출하고 이에 대한 SURF 기술 정보를 구한다. 이미지를 영역별로 세 단계로 분할하고 각 영역별로 쿼드 기반의 어휘 트리를 생성한다. 이후 사용자로부터 입력된 질의 이미지는 쿼드 트리를 이용하여 특징을 표현하고 각 단계 별로 FLANN 검색을 통해 매칭한다. 주변 거리에서 1000장의 직접 취득한 이미지를 대상으로 제안된 방법의 개선된 성능을 확인하였다. 크기 및 각도 변환 등의 기하 변환에 대한 인식을 개선하기 위해 다양한 매칭 및 검색 방법을 고려할 예정이다.

참고문헌

  1. S. Dhar and U. Varshney, "Challenges and business models for mobile location-based services and advertising," Communications of the ACM, vol.54, no.5, pp.121-128, 2011. https://doi.org/10.1145/1941487.1941515
  2. J. Chon and H. Cha, "LifeMap: a smartphone-based context provider for location-based services," IEEE Pervasive Computing, vol.10, no.2, pp.58-67, 2011. https://doi.org/10.1109/MPRV.2011.13
  3. J. T. Park, W. H. Lee, Y.-H. Cho, and J. W. Na, "Location measuring method for ubiquitous sensor networks," Journal of The institute of Electronics Engineers of Korea, vol.32. no.7, pp.81-94, 2005.
  4. Y. Choi, S. Kang, and H. Hong, "Using camera and acceleration sensor in augmented reality for mobile game," Journal of Korean Society for Computer Game, vol.2, no.23, pp.125-130, 2010.
  5. W. Son and H. Hong, “Dynamic relighting in augmented reality for mobile game,” Journal of Korean Society for Computer Game, vol.2, no.23, pp.159-164, 2010.
  6. J. Zang, A. Hallquist, E. Liang, and A. Zakhor, "Location-based image retrieval for urban environments," In Proc. of International Conference on Image Processing, pp.3677-3680, 2011.
  7. D. G. Lowe, "Object recognition from local scale-invariant features," In Proc. of International Conference on Computer Vision, pp. 1150-1157, 1999.
  8. H. Bay, A. Ess, T. Tuytelaars, and L. V. Gool, "SURF:speeded up robust features," Computer Vision and Image Understanding, vol.110, no.3, pp. 346-359, 2008. https://doi.org/10.1016/j.cviu.2007.09.014
  9. M. Muja and D. G. Lowe, "Fast approximate nearest neighbors with automatic algorithm configuration," In Proc. of International Conference on Computer Vision Theory and Applications, pp.331-340, 2009.
  10. D.Nister and H.Stewenius, "Scalable Recognition with a Vocabulary Tree," In Proc. of International Conference on Computer Vision and Pattern Recognition, pp.2161-2168, 2006.
  11. J. Sivic and A. Zisserman, "Video google: A text retrieval approach to object matching in videos," In Proc. of International Conference on Computer Vision and Pattern Recognition, pp.1470-1477, 2003.
  12. P. Felzenszwalb and D. Huttenlocher, "Pictorial structures for object recognition," International Journal of Computer Vision, vol.61, no.1, pp.55-79, 2005. https://doi.org/10.1023/B:VISI.0000042934.15159.49
  13. S. Lazebnik, C. Schmid, and J. Ponce, "Beyond bags of features:spatial pyramid matching for recognizing natural scene categories," In Proc. of International Conference on Computer Vision and Pattern Recognition, pp.2169-2178, 2006.
  14. G.-Z. Yang and E. Johns, "Ransac with 2D geometric cliques for image retrieval and place recognition," In Proc. of International Conference on Computer Vision and Pattern Recognition, pp.4321-4329, 2015.
  15. J. Knopp, J. Sivic, and T. Pajdla. "Avoiding confusing features in place recognition," In Proc. of International Conference on European Conference on Computer Vision, vol.6311, pp.748-761, 2010.