A Robust Object Extraction Method for Immersive Video Conferencing

몰입형 화상 회의를 위한 강건한 객체 추출 방법

  • 안일구 (한국과학기술원 전기및전자공학과) ;
  • 오대영 (한국과학기술원 전기및전자공학과) ;
  • 김재광 (한국과학기술원 전기및전자공학과) ;
  • 김창익 (한국과학기술원 전기및전자공학과)
  • Received : 2010.07.09
  • Accepted : 2010.10.04
  • Published : 2011.03.25

Abstract

In this paper, an accurate and fully automatic video object segmentation method is proposed for video conferencing systems in which the real-time performance is required. The proposed method consists of two steps: 1) accurate object extraction on the initial frame, 2) real-time object extraction from the next frame using the result of the first step. Object extraction on the initial frame starts with generating a cumulative edge map obtained from frame differences in the beginning. This is because we can estimate the initial shape of the foreground object from the cumulative motion. This estimated shape is used to assign the seeds for both object and background, which are needed for Graph-Cut segmentation. Once the foreground object is extracted by Graph-Cut segmentation, real-time object extraction is conducted using the extracted object and the double edge map obtained from the difference between two successive frames. Experimental results show that the proposed method is suitable for real-time processing even in VGA resolution videos contrary to previous methods, being a useful tool for immersive video conferencing systems.

본 논문에서 우리는 실시간 성능이 요구되는 비디오 화상회의 시스템을 위해 사전정보 없이 정확하면서도 완전히 자동으로 비디오 객체를 추출하는 방법을 제안한다. 제안하는 방법은 두 단계로 이루어진다: 1) 초기 프레임에서의 정확한 객체 추출, 2) 객체 추출 결과를 이용한 그 이후 프레임에서의 실시간 객체 추출. 초기 프레임에서의 객체 추출은 초기 프레임들의 차영상으로부터 구한 에지들을 누적시킨 누적 에지맵 생성으로부터 시작된다. 즉, 객체의 초기 움직임의 누적으로부터 객체의 형상을 추측하고자 하는 것이다. 이 추측된 형상은 그래프 컷(Graph-Cut) 영상 분할을 위한 객체 씨드(seeds)와 배경 씨드를 할당하는데 이용된다. 그래프 컷 기반 객체 추출 이후 프레임부터는 객체 추출 결과와 연속된 프레임의 차영상의 에지맵을 이용하여 실시간 객체 추출이 수행된다. 실험결과를 통해 제안하는 방법이 이전 연구들과 달리 VGA 크기의 비디오에 대해서도 실시간으로 동작함을 보이고, 따라서 몰입적인 비디오 화상회의 시스템의 개발을 위한 유용한 도구임을 보이고자 한다.

Keywords

References

  1. http://en.wikipedia.org/wiki/Videoconferencing
  2. Steuer, J. "Defining Virtual Reality: Dimensions of Determining Telepresence," Journal of Communication, 42(4), 73-93. 1992. https://doi.org/10.1111/j.1460-2466.1992.tb00812.x
  3. http://en.wikipedia.org/wiki/Telepresence
  4. H. Luo, A. Eleftheriadis, "Model-Based Segmentation and Tracking of Head-and- Shoulder Video Objects for Real Time Multimedia Services," IEEE Transactions on Multimedia, vol.5, no.3, pp.379-389, 2003. https://doi.org/10.1109/TMM.2003.813285
  5. Y. Gaobo, Z. Zhaoyang, "Video object segmentation for head-shoulder sequences in the cellular neural networks architecture," Real-Time Imaging, Vol.9, Issue3, pp.171-178, 2003. https://doi.org/10.1016/S1077-2014(03)00039-1
  6. V. Kolmogorov, A. Criminisi, A. Blake, G. Cross, and C. Rother, "Bi-layer segmentation of binocular stereo video," IEEE International Conference on Computer Vision and Pattern Recognition, pp.407-414, 2005.
  7. A. Criminisi, J. Shotton, A. Blake, and P. H. S. Torr, "Gaze manipulation for one-to-one teleconferencing," IEEE International Conference on Computer Vision, pp. 191-198, 2003.
  8. C. Wang, L. Guan, "Graph Cut Video Object Segmentation using Histogram of Oriented Gradients," IEEE International Symposium on Circuits and Systems, pp.2590-2593, 2008.
  9. C. Kim and J.-N. Hwang, "Fast and Automatic Video Object Segmentation and Tracking for Content-Based Applications," IEEE Tr. on Circuits and Systems for Video Technology, vol.12, no.2, pp.122-129, Feb. 2002. https://doi.org/10.1109/76.988659
  10. Y. Boykov and M. P. Jolly, "Interactive Graph Cuts for Optimal Boundary & Region Segmentation of Objects in N-D images," IEEE International Conference on Computer Vision, vol. I, pp. 105-112, 2001.
  11. W. E. Grimson, From Images to Surfaces. Cambridge, MA : MIT Press,pp. 3-5, 1981.
  12. P. Viola, M.J. Jones, Robust real-time face detection, Int.J. Comput. Vis., 57 (2) 137-154, 2004. https://doi.org/10.1023/B:VISI.0000013087.49260.fb
  13. L. Aihong, "Evaluation of Gray Image Definition Based on Edge Kurtosis In Spatial Domain," in'09. First International Workshop on Education Technology and Computer Science, pp.472-475, 2009.