DOI QR코드

DOI QR Code

고속 이미지 검색을 위한 2진 시각 단어 생성 기법

Binary Visual Word Generation Techniques for A Fast Image Search

  • 이수원 (한국과학기술원 전산학부)
  • 투고 : 2017.06.27
  • 심사 : 2017.10.01
  • 발행 : 2017.12.15

초록

다수의 지역 특징들을 취합하여 하나의 벡터로 표현하는 것은 이미지 검색의 핵심 기술이다. 이 과정에서 경사도 기반 특징에 비해 수십 배 빠르게 추출되는 2진 특징이 활용된다면 이미지 검색의 고속화가 가능하다. 이를 위해서는 2진 특징들을 군집하여 2진 시각 단어를 생성하는 기법에 대한 연구가 선행되어야 한다. 기존의 경사도 기반 특징들을 군집하는 전통적인 방식으로는 2진 특징들을 군집할 수 없기 때문이다. 이를 위해 본 논문은 2진 특징들을 군집하여 2진 시각 단어를 생성하는 기법들에 대해 연구한다. 실험을 통해 2진 특징의 활용이 이미지 검색에 미치는 정확도와 연산효율 사이의 상충관계에 대해 분석한 후, 제안한 기법들을 비교한다. 본 연구는 고속 이미지 검색을 필요로 하는 모바일 응용, 리얼 타임 응용, 웹 스케일 응용 등에 활용될 것으로 기대된다.

Aggregating local features in a single vector is a fundamental problem in an image search. In this process, the image search process can be speeded up if binary features which are extracted almost two order of magnitude faster than gradient-based features are utilized. However, in order to utilize the binary features in an image search, it is necessary to study the techniques for clustering binary features to generate binary visual words. This investigation is necessary because traditional clustering techniques for gradient-based features are not compatible with binary features. To this end, this paper studies the techniques for clustering binary features for the purpose of generating binary visual words. Through experiments, we analyze the trade-off between the accuracy and computational efficiency of an image search using binary features, and we then compare the proposed techniques. This research is expected to be applied to mobile applications, real-time applications, and web scale applications that require a fast image search.

키워드

참고문헌

  1. D. Lowe, “Distinctive image features from scaleinvariant keypoints,” International Journal of Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004. https://doi.org/10.1023/B:VISI.0000029664.99615.94
  2. J. Sivic, and A. Zisserman, "Video Google: a text retrieval approach to object matching in videos," Proc. of the IEEE International Conference on Computer Vision 2003, pp. 1470-1477, 2003.
  3. E. Rosten, and T. Drummond, "Machine learning for high-speed corner detection," Proc. of the European Conference on Computer Vision 2006, pp. 430-443, 2006.
  4. M. Calonder, V. Lepetit, C. Strecha, and P. Fua, "BRIEF: binary robust independent elementary features," Proc. of the European Conference on Computer Vision 2010, pp. 5-11, 2010.
  5. E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, "ORB: an efficient alternative to SIFT or SURF," Proc. of the International Conference on Computer Vision 2011, pp. 2564-2571, 2011.
  6. S. Leutenegger, M. Chli, and R. Siegwart, "BRISK: Binary robust invariant scalable keypoints," Proc. of the International Conference on Computer Vision 2011, pp. 2548-2555, 2011.
  7. A. Alahi, R. Ortiz, and P. Vandergheynst, "FREAK: Fast Retina Keypoint," Proc. of the IEEE Conference on Computer Vision and Pattern Recognition 2012, pp. 510-517, 2012.
  8. D. Arthur, and S. Vassilvitskii, "k-means++: the advantages of careful seeding," Proc. of the 18th annual ACM-SIAM symposium on Discrete algorithms 2007, pp. 1027-1035, 2007.
  9. D. Nister, and H. Stewenius, "Scalable recognition with a vocabulary tree," Proc. of the IEEE Conference on Computer Vision and Pattern Recognition 2006, pp. 2161-2168, 2006.