DOI QR코드

DOI QR Code

Object Detection and 3D Position Estimation based on Stereo Vision

스테레오 영상 기반의 객체 탐지 및 객체의 3차원 위치 추정

  • Received : 2017.07.21
  • Accepted : 2017.08.04
  • Published : 2017.08.30

Abstract

We introduced a stereo camera on the aircraft to detect flight objects and to estimate the 3D position of them. The Saliency map algorithm based on PCT was proposed to detect a small object between clouds, and then we processed a stereo matching algorithm to find out the disparity between the left and right camera. In order to extract accurate disparity, cost aggregation region was used as a variable region to adapt to detection object. In this paper, we use the detection result as the cost aggregation region. In order to extract more precise disparity, sub-pixel interpolation is used to extract float type-disparity at sub-pixel level. We also proposed a method to estimate the spatial position of an object by using camera parameters. It is expected that it can be applied to image - based object detection and collision avoidance system of autonomous aircraft in the future.

본 항공기에 스테레오 카메라를 장착하여 영상 기반의 비행 객체 탐지 및 탐지된 객체의 3차원 위치를 추정하는 방법을 제시하였다. 구름 사이에 존재할 수 있는 원거리의 작은 객체를 탐지하기 위한 방법으로 PCT 기반의 Saliency Map을 생성하여 이용하였으며, 이렇게 탐지된 객체는 좌우 스테레오 영상에서 매칭을 수행하여 스테레오 시차(Disparity)를 추출하였다. 정확한 Disparity를 추출하기 위하여 비용집적(Cost Aggregation) 영역을 탐지 객체에 맞추어 가변되도록 가변 영역으로 사용하였으며, 본 논문에서는 Saliency Map에서 객체의 존재 영역으로 검출된 결과를 사용하였다. 좀 더 정밀한 Disparity를 추출하기 위하여 Sub-pixel interpolation 기법을 사용하여 Sub-pixel 레벨의 실수형 Disparity를 추출하였다. 또한 이에 카메라 파라미터를 적용하여 실제 탐지된 비행 객체의 3차원 공간 좌표를 생성하여 객체의 공간위치를 추정하는 방법을 제시하였다. 이는 향후 자율비행체의 영상기반 객체 탐지 및 충돌방지 시스템에 활용될 수 있을 것으로 기대된다.

Keywords

References

  1. Tsotsos J. K., Culhane S. M., Wai W. Y. K, Lai Y, Davis N. and Nuflo F.(1995), "Modeling visual attention via selective tuning," Artificial Intelligence, vol. 78, pp.507-545. https://doi.org/10.1016/0004-3702(95)00025-9
  2. Olshausen B. A., Anderson C. H. and Van Essen D. C.(1993), "A Neurobiological Model of Visual Attension and Invariant Pattern Recognition Based on Dynamic Routing of Information," The Journal of Neuroscience, vol. 13, no. 11, pp.4700-4719. https://doi.org/10.1523/JNEUROSCI.13-11-04700.1993
  3. Itti L., Koch C. and Niebur E.(1998), "A Model of Saliency-based Visual Attention for Rapid Scene Analysis," IEEE Transactions on Pattern Analysis and Mahcine Intelligence, vol. 20, no. 11, pp.1254-1259. https://doi.org/10.1109/34.730558
  4. Yu, Ying, Bin Wang, and Liming Zhang. "Pulse discrete cosine transform for saliency-based visual attention." Development and Learning, 2009. ICDL 2009. IEEE 8th International Conference on. IEEE, 2009.
  5. Banz, Christian, et al. "Real-time stereo vision system using semi-global matching disparity estimation: Architecture and FPGA-implementation." Embedded Computer Systems (SAMOS), 2010 International Conference on. IEEE, 2010.
  6. Froba, Bernhard, and Andreas Ernst. "Face detection with the modified census transform." Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International Conference on. IEEE, 2004.
  7. Kanade, Takeo, et al. "A stereo machine for video-rate dense depth mapping and its new applications." Computer Vision and Pattern Recognition, 1996. Proceedings CVPR'96, 1996 IEEE Computer Society Conference on. IEEE, 1996.