DOI QR코드

DOI QR Code

3D Point Cloud Reconstruction Technique from 2D Image Using Efficient Feature Map Extraction Network

효율적인 feature map 추출 네트워크를 이용한 2D 이미지에서의 3D 포인트 클라우드 재구축 기법

  • Kim, Jeong-Yoon (Dept. Electronic Engineering, Hanbat National University) ;
  • Lee, Seung-Ho (Dept. Electronic Engineering, Hanbat National University)
  • Received : 2022.09.01
  • Accepted : 2022.09.22
  • Published : 2022.09.30

Abstract

In this paper, we propose a 3D point cloud reconstruction technique from 2D images using efficient feature map extraction network. The originality of the method proposed in this paper is as follows. First, we use a new feature map extraction network that is about 27% efficient than existing techniques in terms of memory. The proposed network does not reduce the size to the middle of the deep learning network, so important information required for 3D point cloud reconstruction is not lost. We solved the memory increase problem caused by the non-reduced image size by reducing the number of channels and by efficiently configuring the deep learning network to be shallow. Second, by preserving the high-resolution features of the 2D image, the accuracy can be further improved than that of the conventional technique. The feature map extracted from the non-reduced image contains more detailed information than the existing method, which can further improve the reconstruction accuracy of the 3D point cloud. Third, we use a divergence loss that does not require shooting information. The fact that not only the 2D image but also the shooting angle is required for learning, the dataset must contain detailed information and it is a disadvantage that makes it difficult to construct the dataset. In this paper, the accuracy of the reconstruction of the 3D point cloud can be increased by increasing the diversity of information through randomness without additional shooting information. In order to objectively evaluate the performance of the proposed method, using the ShapeNet dataset and using the same method as in the comparative papers, the CD value of the method proposed in this paper is 5.87, the EMD value is 5.81, and the FLOPs value is 2.9G. It was calculated. On the other hand, the lower the CD and EMD values, the better the accuracy of the reconstructed 3D point cloud approaches the original. In addition, the lower the number of FLOPs, the less memory is required for the deep learning network. Therefore, the CD, EMD, and FLOPs performance evaluation results of the proposed method showed about 27% improvement in memory and 6.3% in terms of accuracy compared to the methods in other papers, demonstrating objective performance.

본 논문에서는 효율적인 feature map 추출 네트워크를 이용한 2D 이미지에서의 3D 포인트 클라우드 재구축 기법을 제안한다. 본 논문에서 제안한 기법의 독창성은 다음과 같다. 첫 번째로, 메모리 측면에서 기존 기법보다 약 27% 더 효율적인 새로운 feature map 추출 네트워크를 사용한다. 제안하는 네트워크는 딥러닝 네트워크의 중간까지 크기 축소를 수행하지 않아, 3D 포인트 클라우드 재구축에 필요한 중요한 정보가 유실되지 않았다. 축소되지 않은 이미지 크기로 인해 발생하는 메모리 증가 문제는 채널의 개수를 줄이고 딥러닝 네트워크의 깊이를 얕게 효율적으로 구성하여 해결하였다. 두 번째로, 2D 이미지의 고해상도 feature를 보존하여 정확도를 기존 기법보다 향상시킬 수 있도록 하였다. 축소되지 않은 이미지로부터 추출한 feature map은 기존의 방법보다 자세한 정보가 담겨있어 3D 포인트 클라우드의 재구축 정확도를 향상시킬 수 있다. 세 번째로, 촬영 정보를 필요로 하지 않는 divergence loss를 사용한다. 2D 이미지뿐만 아니라 촬영 각도가 학습에 필요하다는 사항은 그만큼 데이터셋이 자세한 정보를 담고 있어야 하며 데이터셋의 구축을 어렵게 만드는 단점이다. 본 논문에서는 추가적인 촬영 정보 없이 무작위성을 통해 정보의 다양성을 늘려 3D 포인트 클라우드의 재구축 정확도가 높아질 수 있도록 하였다. 제안하는 기법의 성능을 객관적으로 평가하기 위해 ShapeNet 데이터셋을 이용하여 비교 논문들과 같은 방법으로 실험한 결과, 본 논문에서 제안하는 기법의 CD 값이 5.87, EMD 값이 5.81 FLOPs 값이 2.9G로 산출되었다. 한편, CD, EMD 수치가 낮을수록, 재구축한 3D 포인트 클라우드가 원본에 근접하는 정확도가 향상된 결과를 나타낸다. 또한, FLOPs 수치가 낮을수록 딥러닝 네트워크에 필요한 메모리가 적게 소요되는 결과를 나타낸다. 따라서, 제안하는 기법의 CD, EMD, FLOPs 성능평가 결과가 다른 논문의 기법들보다 메모리 측면에서 약 27%, 정확도 측면에서 약 6.3% 향상된 결과를 나타내어 객관적인 성능이 입증되었다.

Keywords

Acknowledgement

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government (MSIT)(No. NRF-2022R1F1A1066371)

References

  1. Choy, C. B., Xu, D., Gwak, J., Chen, K., & Savarese, S.. "3d-r2n2: A unified approach for single and multi-view 3d object reconstruction," In European conference on computer vision, pp. 628-644. 2016. DOI: 10.48550/arXiv.1604.00449
  2. Fan, Haoqiang, Hao Su, and Leonidas J. Guibas. "A point set generation network for 3d object reconstruction from a single image," Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. DOI: 10.48550/arXiv.1612.00603
  3. Mandikal, P., Navaneet, K. L., Agarwal, M., Babu, R. V. "3D-LMNet: Latent embedding matching for accurate and diverse 3D point cloud reconstruction from a single image," Proceedings of the British Machine Vision Conference(BMVC), 2018. DOI:10.48550/arXiv.1807.07796
  4. KINGMA, Diederik P.; WELLING, Max. "Autoencoding variational bayes," International Conference on Learning Representations (ICLR), 2014. DOI: 10.48550/arXiv.1312.6114
  5. Li, B., Zhang, Y., Zhao, B., & Shao, H. "3D-ReConstnet: a single-view 3d-object point cloud reconstruction network," IEEE Access 8 pp.83782-83790. 2020. DOI: 10.1109/ACCESS.2020.2992554
  6. He, K., Zhang, X., Ren, S., & Sun, J. (2016). "Deep residual learning for image recognition," In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.770-778. DOI: 10.48550/arXiv.1512.03385
  7. Higgins, I., Matthey, L., Pal, A., Burgess, C., Glorot, X., Botvinick, M., Lerchner, A. "beta-vae: Learning basic visual concepts with a constrained variational framework." 2016.
  8. Chang, A. X., Funkhouser, T., Guibas, L., Hanrahan, P., Huang, Q., Li, Z., ... & Yu, F.. "Shapenet: An information-rich 3d model repository," 2015. DOI: 10.48550/arXiv.1512.03012