적응적 쌍선형 보간 이미지 피라미드를 이용한 DPM 기반 고속 객체 인식 기법

Fast Object Detection with DPM using Adaptive Bilinear Interpolated Image Pyramid

  • 한규동 (한국산업기술대학교 전자공학부) ;
  • 김응태 (한국산업기술대학교 전자공학부)
  • Han, Gyu-Dong (Department of Electronics Engineering, Korea Polytechnic University) ;
  • Kim, Eung-Tae (Department of Electronics Engineering, Korea Polytechnic University)
  • 투고 : 2019.01.16
  • 심사 : 2020.03.10
  • 발행 : 2020.05.30


최근 자율 주행 자동차와 지능형 CCTV에 대한 관심이 높아지면서 효율적인 객체 검출의 중요성은 필수적인 요소이다. 본 논문의 기반이 되는 DPM(Deformable Part Models)은 객체에 대한 변형 가능한 부분의 혼합을 사용하여 가변적인 객체를 나타낼 수 있는 대표적인 검출기로 다양한 분야에서 많이 연구 되고 있다. 객체 모델의 파트 모양과 구성을 잡아내는 기법으로 높은 검출 성능을 보여주지만 복잡한 알고리즘으로 인해 실제 어플리케이션에서 사용하기에는 한계가 있다. 이를 개선하기 위해 본 논문에서는 DPM에서 많은 연산을 필요로 하는 이미지 특징 피라미드(feature pyramid)를 구성하는 과정 대신, 특정 스케일에서 구해진 소수의 특징(feature) 맵에 적응적인 쌍선형(bilinear) 보간법을 이용하여 이미지 특징 피라미드를 재구성해 연산 속도를 줄이는 방법을 제안한다. 모의실험 결과, 제안된 방식의 DPM은 기존 DPM 방식 대비 검출 성능은 2.82%가 낮아졌지만 평균 연산 시간 10%를 향상시킴을 알 수 있었다.

Recently, as autonomous vehicles and intelligent CCTV are growing more interest, the efficient object detection is essential technique. The DPM(Deformable Part Models) which is basis of this paper have used a typical object system that represents highly variable objects using mixtures of deformable part for object. Although it shows high detection performance by capturing part shape and configuration of object model, but it is limited to use in real application due to the complicated algorithm. In this paper, instead of image feature pyramid that takes up a large amount of computation in one part of the detector, we propose a method to reduce the computation speed by reconstructing a new image feature pyramid that uses adaptive bilinear interpolation of feature maps obtained on a specific image scale. As a result, the detection performance for object was lowered a little by 2.82%, however, the proposed detection method improved the speed performance by 10% in comparison with original DPM.



  1. P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," in Proc. 2001 IEEE Comput. Soc. Conf. Comput. Vision and Pattern Recognition, vol. 1, pp. 511-518, Hawaii, U.S.A., Dec. 2001.
  2. Dalal, N and Triggs, B, "Histograms of oriented gradients for human detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 886-893, 2005.
  3. Qiang Zhu, Shi Avidan, Mei-Chen Yeh, Kwang-Ting Cheng, "Fast Human Detection Using a Cascade of Histograms of Oriented Gradients", Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol.2, pp.1491-1498, 2006.
  4. P. Dollar and Z. Tu, P. Perona, S. Belongie, "Integral channel features", British Machine Vision Conference, pp. 1-11, 2009. doi:10.5244/C.23.91
  5. P. F. Felzenszwalb, R. B. Girshick, D. McAllester, D. Ramanan, "Object Detection with Discriminatively Trained Part Based Models", Pattern Analysis and Machine Intelligence, Vol.32, No.9, pp.1627-1645, 2010.
  6. R. Benenson, M. Mathias, R. Timofte, and L. Van Gool, "Pedestrian detection at 100 frames per second", In IEEE Conference on Computer Vision and Pattern Recognition, pp. 2903-2910, 16-21 June, 2012.
  7. M. Everinghan, L. Van Gool, C. K. I. Williams, J. Winn, A. Zisserman, "The PASCAL Visual Object Classes(VOC) Challenge", International Journal of Computer Vision, Vol.88, pp.303-338, 2010.
  8. P. Felzenszwalb and D. Huttenlocher. Distance transforms of sampled functions. Cornell Computing and Information Science Technical Report TR2004-1963, September 2004.
  9. P. Felzenszwalb and D. Huttenlocher. Pictorial structures for object recognition. Internat. J. Computer Vision, Vol.61, No.1, pp.55-79, Jan, 2005.
  10. P. Burt and E. Adelson. "The Laplacian Pyramid as a Compact Image Code," IEEE Transaction on Communications, Vol.31, No.4, pp.532-540, April 1983