DOI QR코드

DOI QR Code

3D Human Reconstruction from Video using Quantile Regression

분위 회귀 분석을 이용한 비디오로부터의 3차원 인체 복원

  • Han, Jisoo (Inha University, Department of Information and Communication Engineering) ;
  • Park, In Kyu (Inha University, Department of Information and Communication Engineering)
  • Received : 2019.01.15
  • Accepted : 2019.03.19
  • Published : 2019.03.30

Abstract

In this paper, we propose a 3D human body reconstruction and refinement method from the frames extracted from a video to obtain natural and smooth motion in temporal domain. Individual frames extracted from the video are fed into convolutional neural network to estimate the location of the joint and the silhouette of the human body. This is done by projecting the parameter-based 3D deformable model to 2D image and by estimating the value of the optimal parameters. If the reconstruction process for each frame is performed independently, temporal consistency of human pose and shape cannot be guaranteed, yielding an inaccurate result. To alleviate this problem, the proposed method analyzes and interpolates the principal component parameters of the 3D morphable model reconstructed from each individual frame. Experimental result shows that the erroneous frames are corrected and refined by utilizing the relation between the previous and the next frames to obtain the improved 3D human reconstruction result.

본 논문은 비디오로부터 추출한 프레임으로부터 3차원 인체 형상과 자세 복원을 수행하고 이를 시간 축에서 자연스럽고 부드러운 움직임을 나타내도록 보정하는 기법을 제안한다. 제안하는 기법은 우선 비디오로부터 추출한 개별 프레임으로부터 convolutional neural network을 이용하여 관절의 위치와 인체의 윤곽을 추정한다. 인체의 형상 및 자세는 매개변수 기반의 3차원 변형가능 모델(morphable model)을 2차원 영상으로 투영후 정합하여 최적의 매개변수 값을 추정한다. 이 때 각 프레임에 대한 복원이 개별적으로 수행되면 시간 축에서 자세의 연속성과 체형의 일관성이 보장되지 못하고 올바르지 못한 복원 결과가 나타난다. 제안하는 기법은 이러한 문제점을 보완하기 위하여 각 프레임으로부터 복원된 3차원 변형가능 모델의 주성분 매개변수의 분석 및 보간을 수행한다. 실험결과 3차원 인체 복원에 오류가 발생한 프레임에 대해 이전과 이후 프레임들 사이의 관계를 통해 오류가 보정되어 개선된 복원 결과를 얻을 수 있음을 보인다.

Keywords

BSGHC3_2019_v24n2_264_f0001.png 이미지

그림 1. 비디오로부터의 3차원 인체 복원 파이프라인 Fig. 1. Pipeline of 3D human reconstruction from video

BSGHC3_2019_v24n2_264_f0002.png 이미지

그림 2. 단일 영상에 대한 3차원 인체 복원 Fig. 2. 3D human reconstruction from single image

BSGHC3_2019_v24n2_264_f0003.png 이미지

그림 3. 자세 매개변수에 대한 분위 회귀 분석 Fig. 3. Quantile regression for pose parameters

BSGHC3_2019_v24n2_264_f0004.png 이미지

그림 4. 비디오로부터 추출한 연속적인 입력 프레임 영상과 복원된 움직임을 갖는 3차원 인체 모델 Fig. 4. 3D human body reconstruction results with continuous input frame image and motion extracted from video in order

BSGHC3_2019_v24n2_264_f0005.png 이미지

그림 5. 오류 프레임에 대한 3차원 인체 움직임 복원 결과. 위로부터 입력영상, 오류 프레임이 포함된 3차원 인체 복원 영상(중앙 3번째 프레임), 제시된 기법으로 움직임 보정된 복원 영상 Fig 5. 3D Human motion reconstruction result on error frame. From up to down: input, 3D reconstruction including error frame, motion compensated result

표 1. 기존의 기법과 제안하는 기법의 3차원 관절 위치 비교 Table 1. 3D joints distance between existing technique and proposed technique

BSGHC3_2019_v24n2_264_t0001.png 이미지

표 2. 입력 영상에 대한 오류 프레임 검출 비율 Table 2. Error frame detection rate for input video

BSGHC3_2019_v24n2_264_t0002.png 이미지

References

  1. M. Loper, N. Mahmood, J. Romero, G. Pons-Moll, and M. J. Black, "SMPL: A skinned multi-person linear model," ACM Trans. on Graphics, vol. 34, no. 6, pp. 248, November 2015.
  2. L. Pishchulin, E. Insafutdinov, S. Tang, and B. Andress, "DeepCut: Joint subset partition and labeling for multi person pose estimation," Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 4929-4937, June 2016.
  3. K. Grauman and T. Darrell, "Fast contour matching using approximate earth mover's distance," Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, June 2004.
  4. J. S. Han, M. R. Cho, and I. K. Park, "Moving human shape and pose reconstruction from video," Proceedings of Korean Society of Broadcast and Media Engineers Fall Conference, pp. 66-68, November 2018.
  5. L. Sigal, A. Balan, and M. J. Black, "HumanEva: Synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion," International Journal of Computer Vision, vol. 87, no. 1-2, pp. 4-27, March 2010. https://doi.org/10.1007/s11263-009-0273-6
  6. C. Ionescu, D. Papva, V. Olaru, and C. Sminchisescu," Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 36, no. 7, pp. 1325-1339, July 2014. https://doi.org/10.1109/TPAMI.2013.248
  7. K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask R-CNN," Proceedings of IEEE International Conference on Computer Vision, pp.2980-2988, October 2017.
  8. P. Guan, A. Weiss, A. O. Balan, and M. J. Black, "Estimating human shape and pose from a single image," Proceedings of IEEE International Conference on Computer Vision, pp. 1381-1388, September 2009.
  9. F. Bogo, A. Kanazawa, C. Lassner, and P. Gehler, "Keep it SMPL: Automatic estimation of 3D human pose and shape from a single image," Proceedings of European Conference on Computer Vision, pp. 561-578, October 2016.
  10. N. Meinshausen, "Quantile regression forests," Journal of Machine Learning Research, vol. 7, no. 6, pp. 983-999, June 2006.
  11. M. Lopez-Quintero, M. Marin-jimenez, et al. "Stereo pictorial structure for 2D articulated human pose estimation," Machine Vision and Applications, vol. 27, no. 2, pp. 157-174, February 2016. https://doi.org/10.1007/s00138-015-0742-6
  12. C. Zhang, S. Pujades, M. J. Black, and G. Pons-Moll, "Detailed, accurate, human shape estimation from clothed 3D scan sequences," Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, July 2017.