DOI QR코드

DOI QR Code

수동 및 반자동 영상획득을 통한 3차원 공간복원의 비교

A Comparison of 3D Reconstruction through the Passive and Pseudo-Active Acquisition of Images

  • 전미정 (중앙대학교 첨단영상대학원 영상학과) ;
  • 김두범 (중앙대학교 첨단영상대학원 영상학과) ;
  • 채영호 (중앙대학교 첨단영상대학원 영상학과)
  • Jeona, MiJeong (Image Engineering, The Graduate School of Advanced Imaging Science, Multimedia and Film, Chung-Ang University) ;
  • Kim, DuBeom (Image Engineering, The Graduate School of Advanced Imaging Science, Multimedia and Film, Chung-Ang University) ;
  • Chai, YoungHo (Image Engineering, The Graduate School of Advanced Imaging Science, Multimedia and Film, Chung-Ang University)
  • 투고 : 2015.11.10
  • 심사 : 2015.12.22
  • 발행 : 2016.01.30

초록

본 논문은 실내공간의 다시점 정지 영상을 서로 다른 방식으로 획득하고, 이 데이터로부터 해당 3차원 공간에 대한 기하학적인 형상정보를 담은 두 종류의 복원 결과를 비교분석 한다. 공간 내 한 평면 복원을 목표로, 첫 번째 데이터 군 확보에는 정규격자경로를 따라 정지 영상을 얻는 수동형 영상 획득 방식을 활용하였다. 두 번째 데이터 군 확보에는 한 평면의 제한된 각도 내 3차원 정보를 얻는 레이저 스캐너의 스캐닝 방식을 정지 영상 획득 방식에 응용하였다. SIFT알고리즘을 이용해 획득된 정지 영상 데이터 간의 특징점을 검출하였고 이를 기반으로 3차원 포인트 클라우드 데이터를 생성하였다. 복원된 3차원 공간정보는 생성된 포인트 클라우드의 이미지와 개수 및 평균 밀집도, 수행 시간을 통해 표현했으며 보다 정확한 실내공간의 3차원 복원에는 카메라로 획득하는 정지 영상 데이터만이 아닌 추가적인 센서를 사용한 데이터의 확보가 필요하다는 점을 확인하였다.

In this paper, two reconstructed point cloud sets with the information of 3D features are analyzed. For a certain 3D reconstruction of the interior of a building, the first image set is taken from the sequential passive camera movement along the regular grid path and the second set is from the application of the laser scanning process. Matched key points over all images are obtained by the SIFT(Scale Invariant Feature Transformation) algorithm and are used for the registration of the point cloud data. The obtained results are point cloud number, average density of point cloud and the generating time for point cloud. Experimental results show the necessity of images from the additional sensors as well as the images from the camera for the more accurate 3D reconstruction of the interior of a building.

키워드

Ⅰ. 서 론

최근 가상현실 및 가상환경에 대한 관심이 높아지면서 실제 세계에 존재하는 물체를 가상세계에서 구축하기 위한 노력이 이어지고 있다. 컴퓨터 그래픽스와 비전 기술이 발달함에 따라 정밀도가 높은 3차원 복원기술에 대한 연구도 활발하게 진행 중이다. 3차원 복원(3D reconstruction) 기술은 물체 또는 공간의 형상과 표면의 색상을 재구성함으로 써 물체의 탐지와 인식 등 여러 가지 응용 분야에서 사용되고 있으며[1], 이 결과물은 실내·외부 및 각종 물품의 유지관리에 효율적으로 활용된다.

공간 정보를 획득하기 위해 다양한 플랫폼에 프레임 카메라(Frame Camera), 레이저 스캐너(Laser Scanner), SAR(Synthetic Aperture Radar), GPS(Global Positioning System)/INS(Inertial Navigation System) 등의 각종 센서를 탑재하는 한편, 영상 정보만을 이용하는 3차원 복원 연구도 다방면에서 진행되고 있는데 일반적으로 고정된 시점(view point)에서 획득한 영상이 물체 또는 공간의 일부분의 형상을 획득할 수 밖에 없으므로 여러 방향에서 데이터를 획득해 이들을 합성하는 다시점(multi-view) 3차원 복원에 대한 연구가 활발히 진행 중이다[2][3].

본 연구에서는 디지털 카메라를 이용하여 다시점 영상촬영 방식을 활용한 정규격자형 촬영 경로와 레이저스캐너 센서의 데이터 획득 경로를 모방한 촬영 경로를 설정해, 각기 다른 방식으로 취득한 데이터를 기반으로 실내 공간 한 평면에 대한 3차원 복원을 시도한다.

3차원 복원 결과는 최종적으로 공간 좌표상에 위치하는 구조화된 점집합인 포인트 클라우드(point cloud)로 표현되며 시각적으로 실제의 공간과 포인트 클라우드로 표현된 가상의 공간이 얼마나 유사한지가 중요하다. 포인트 클라우드를 생성하기 위한 기본적인 준비단계로써의 특징점 검출 과정 또한 핵심적인 분석대상이다. 이 두 가지의 과정을 Step1, Step2로 분류하고 Case1과 Case2에서 각 과정의 결과를 비교·분석 한다.

 

Ⅱ. 3차원 복원

1. 3차원 복원 기반 데이터 취득

3차원 복원 기술을 구현하기 위해서는, 기반 데이터를 취득해야 하는데 이 중 영상 데이터를 취득하는 방식으로 능동형 방식과 수동형 방식이 있다[4]. 수동형 방식은 주로 비전센서인 카메라로 획득한 영상을 이용하므로 3차원 정보의 신뢰도는 능동적인 방법에 비해서 떨어지지만, 데이터 취득이 용이하고 비용이 적게 든다. 그림 1에 수동형 방식의 영상 취득 목적의 카메라의 배열 및 기기를 나타냈다.

그림 1.수동형 영상 취득 방식 Fig. 1. The passive way of obtaining image

능동형 방식은 고가의 장비를 사용하는 방법으로써 실시간으로 3차원 정보를 획득할 수 있을 뿐만 아니라, 정밀한 깊이 정보를 얻을 수 있다. 그림2의 깊이 카메라, 레이저 스캐너, 구조화된 광선 패턴[5]을 이용하는 방법 등이 능동형 방식에 속한다. 정지된 영상 데이터를 기반으로 하는 3차원 복원 기술 분류에서는 두 장의 정지 영상을 사용하는 스테레오 정합 기법이 대표적이며 여러 장의 정지 영상을 사용하는 움직임 기반 3차원 복원법, 실루엣 기반 기법[6], 부피기반의 복셀 컬러링[7], 다시점 스테레오 정합[8] 등이 수행되고 있다.

그림 2.능동형 영상 취득 방식 Fig. 2. The active way of obtaining image

2. 3차원 복원 프로세스

정지 영상 기반 복원 과정에서, 정지 영상은 3차원 공간상의 점들을 2차원 평면에 투사(perspective projection)함으로써 얻어진다[9]. 그림 3에서와 같이 월드좌표계, 카메라 좌표계, 영상좌표계가 일치하지 않으므로 카메라 칼리브레이션(camera calibration)[10]을 통해 렌즈, 렌즈와 카메라 내 이미지 센서와의 거리 및 이루는 각 등의 카메라 내부 파라미터와 회전 및 이동성분을 포함하는 외부 파라미터로 3D 공간좌표(월드좌표계)와 2D 영상좌표 사이의 변환관계를 우선 정리해야한다.

그림 3.좌표계의 종류 Fig. 3. Coordinates system types

3차원 복원을 위해서, 여러 개의 정지 영상 상에 같은 물체로 인식되는 부분을 찾아내는 과정이 필요하다. 영상 처리 분야에서의 물체 인식 알고리즘으로는 배경 차 연산 방법(Background Subtraction), 분할 기반 방법(Segmentation), 특징점 기반 방법(Point Detectors), 학습 기반 방법(Supervised Learning)이 있다. 이 중, 특징점 기반 방법에는 1979년 Moravec[11]이 코너를 찾는 연구를 시작으로 Harris detector[12], Scale Invariant Feature Transformation (SIFT)[13], Affine Invariant Point Detector[14]등의 연구가 진행되어 왔다. 이 중, SIFT방법은 영상 처리법 중에서 영상 내 물체들의 가장자리를 찾는 방법 중 하나인 DoG(Difference-of-Gaussian)[15]을 스케일 공간(Scale space)에서 수행하여 극대점 또는 극소점들을 대상으로 후보가 될만한 특징점을 검출하고 안정성·적합성 검사와 보정을 통해 방향성분을 얻어낸 후 이로 이루어진 서술자(Descriptor)를 생성하는 방법이다. 연산량이 상당하다는 단점이 있지만 회전, 크기의 변화에 강인하며 조명, 은폐(Occulusion)의 변화에 부분적으로 강인함을 가지고 있다.

본 연구에서는 다시점 정지 영상 간의 물체 인식 및 검출기반의 3차원 복원을 수행하므로 SIFT방법으로 Step1의 과정을 진행한다. 여러 장의 정지 영상 상의 공통영역에서 확인된 특징점이 개별적인 각 정지 영상 상에서 동일한 것으로 확인되면, Step2에서 3차원 포인트 클라우드를 생성한다. 이 과정을 그림4에 정리하였다.

그림 4.3차원 복원 과정 Fig. 4. 3D reconstruction process

그림 5는 SIFT 알고리즘을 적용하여 특징점을 발견한 결과이다. 특징점 검출에 쓰여질 정지 영상의 최소 개수를 3개로 지정하고 크기는 4,000pixel(너비) * 3,000pixel(높이)로 고정하였다. (b)의 정지 영상이 (a),(c)와 서로 겹치는 범위가 많기 때문에 세 개의 비교 대상 중 특징점이 가장 많다.

그림 5.정지 영상 상의 특징점 Fig. 5. Keypoints of images

 

Ⅲ. 비교 연구

1. 실험 과정

본 실험에서는 8GB의 RAM을 장착한 Intel(R) Core(TM) i5-4460 CPU로 각 정지 영상 간의 특징점을 검출 하고 포인트 클라우드를 생성했다. 3차원 복원 기반 데이터로써의 정지 영상 획득에 사용한 카메라는 S사의 디지털 카메 라이며 탑재된 이미지 센서의 크기는 13.2mm*8.8mm이고 센서형태는 CMOS이다. 획득한 정지 영상 데이터의 개수는 Case별로 총 12개이며 크기는 3,888pixel(너비)*2,592 pixel(높이)로 두 비교 실험 시 항상 같은 수치를 유지했다.

카메라 조작은 Case1에서 수동형 영상 취득 방식의 다시 점 카메라 배열을 참고하여 정규격자경로의 이동을 적용했다. Case2에서는 능동형 영상 취득 방식의 일종인 레이저 스캐닝의 데이터 획득 경로를 모방해 카메라의 동선을 조작했다. 레이저 스캐너는 특정 위치에서 일정 평면(xy 또는 yz 또는 zx의 한 평면)을 대상으로 제한된 각도내의 범위를 스캐닝하여 3차원 공간 정보를 획득한다. 따라서, Case2에는 하나의 축을 기준으로 이동하되 촬영 각도를 달리하여 데이터를 취득하였다. 표 1에서는 특징점 검출 및 매칭을 이용한 기하구조 추정으로 생성된 카메라의 위치를 표기하였다.

그림 6.각 카메라 이동 경로 Fig. 6. The path of camera positions

표 1.카메라 위치와 각 정지 영상에서의 특징점 개수 Table 1. Camera position and number of keypoints per each image

2. 실험 결과

표 2에서 총 12장의 정지 영상에서 SIFT로 특징점을 검출한 결과값을 보면 각 정지 영상 당 특징점의 평균값과 집중 경향치를 표현하는 중앙값은 Case2가 높았는데 이는 카메라의 이동경로가 같은 위치에서 각도만 미비하게 다르게 설정 후 촬영했기 때문에 오버랩되는 범위가 더 넓어 매칭되는 특징점의 확보가 수월했기 때문이다.

표 2.특징점 통계 및 포인트 클라우드 생성 결과 Table 2. Statistics of keypoints and result of generating point cloud

두 가지 방식으로 복원된 포인트 클라우드의 밀집화 결과(생성 결과)는, 기존의 수동형 정규격자 경로를 따라 촬영한 정지 영상 데이터의 3차원 복원 결과물이 더 조밀하고 많은 수의 포인트 클라우드를 생성하여 더 나은 복원 결과를 나타냈으며 그림 7에서 포인트 클라우드 생성물을 표현했다. 결론적으로 능동형 영상 획득 방식을 응용·적용한 Case2의 정지 영상 데이터는 다량의 특징점 검출에서 강점을 보였으나 최종적인 3차원 포인트 클라우드 결과물은 Case1이 실제 공간과 더 유사한 모습을 보였다.

그림 7.3차원 복원 포인트 클라우드 생성 결과 Fig. 7. Result of 3D reconstruction with point cloud

 

Ⅳ. 결론 및 추후연구

본 연구에서는 서로 다른 경로 취득한 정지 영상 데이터를 기반으로 한 3차원 실내 공간 복원 결과물을 비교하였고 능동형 영상 획득법인 레이저 스캐너의 스캐닝 방식을 모방한 경우에서 기존의 수동형 방식을 응용한 경우보다 많은 특징점을 찾아내기 때문에 정지 영상의 정합만을 목표로 할 경우 더 나은 방안임을 확인하였다. 하지만 적용된 SIFT 알고리즘은 가장자리 탐지를 기본으로 특징점을 구별하기 때문에 주변영역의 변화도가 적은 부분에서는 데이터 복원이 취약한 한계점을 지니고 있으며 다른 물체로 가려진 면에 대한 데이터의 획득 과정에서의 폐색문제(Occlusion problem)[16]에 따라 3차원 복원이 완벽하지 못하다. 이를 통해 본 연구에서는 영상 데이터 기반의 복원 과정의 누락 데이터를 없애기 위한 영상의 촬영 경로를 재확립의 필요성과 추가적인 공간정보 획득 센서를 다시점적으로 배치하여 얻어지는 3차원 포인트 클라우드 데이터 확보의 중요성을 검증하였다.

또한, 본 연구는 카메라 칼리브레이션과 특징점 검출 및 매칭을 기반으로 카메라의 위치와 자세를 계산했기 때문에 카메라 위치의 좌푯값, 방향성 대한 수치적 오차를 감안한 공간 복원 결과를 도출해야했다. 추후 이를 보완하기 위해 항공측량분야 기술을 적용할 수 있다. 넓은 지형 공간을 복원할 때는 상당히 많은 영상을 획득하고 표정(Orientation) 과정을 거쳐야하기 때문에 영상 표정 정확도를 높이기 위해 촬영할 지형 곳곳에 지상기준점(Ground control points, GCP)을 표시해 놓는다[17]. 하지만 완성된 결과물에서 기준점으로 여겨지는 표식이 드러난다면 실제적인 3차원 복원이 완벽하다고 할 수 없기에 최근 그 정확도가 매우 향상된 GPS/INS 정보를 활용해 지상기준점이 없이도 정확한 영상의 위치 및 자세를 추정하는 방식이 연구되고 있다[18][19]. 이러한 항공측량법의 지오레퍼런싱(Georeferencing)은 주로 넓은 지형의 3차원 복원을 위해 영상과 지도 투영계를 연결해 지도 좌표를 부여하는 계산 과정이지만 결국에는 영상 정보와 영상 데이터 획득 센서간의 기하학적인 관계를 확립하는 과정이므로, 다양한 센서의 응용적 결합과 다시점적 데이터 획득 방법을 활용한다면 양질의 3차원 공간 복원을 실현 할 수 있을 것이다.

참고문헌

  1. Grum, Matthew, and Adrian G. Bors, "Multiple image disparity correction for 3-D scene representation." Image Processing, 2008. ICIP 2008. 15th IEEE International Conference on. IEEE, 2008
  2. Labatut, Patrick, Jean-Philippe Pons, and Renaud Keriven, "Efficient multi-view reconstruction of large-scale scenes using interest points, delaunay triangulation and graph cuts." Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on. IEEE, 2007
  3. Pons, Jean-Philippe, Renaud Keriven, and Olivier Faugeras, "Multi-view stereo reconstruction and scene flow estimation with a global image-based matching score", International Journal of Computer Vision 72, 2, pp.179-193, 2007 https://doi.org/10.1007/s11263-006-8671-5
  4. Remondino, Fabio, and Sabry El‐Hakim, "Image‐based 3D Modelling: A Review", The Photogrammetric Record, 21, 115, pp.269-291, 2006 https://doi.org/10.1111/j.1477-9730.2006.00383.x
  5. Smolic, Aljoscha. "3D video and free viewpoint video—From capture to display", Pattern recognition, 44, 9, pp.1958-1968, 2015 https://doi.org/10.1016/j.patcog.2010.09.005
  6. Sinha, Sudipta N., and Marc Pollefeys. "Multi-view reconstruction using photo-consistency and exact silhouette constraints: A maximum-flow formulation." Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on. Vol. 1. IEEE, 2005
  7. Seitz, Steven M., and Charles R. Dyer, "Photorealistic scene reconstruction by voxel coloring", International Journal of Computer Vision 35, 2, pp.151-173, 1999 https://doi.org/10.1023/A:1008176507526
  8. Cardenas-Garcia, J. F., H. G. Yao, and S. Zheng. "3D reconstruction of objects using stereo imaging", Optics and Lasers in Engineering, 22, 3, pp.193-213, 1995 https://doi.org/10.1016/0143-8166(94)00046-D
  9. Wei, Zhu Shi, et al, "Key Point Detection in 3D Reconstruction Based On Human-Computer Interaction", International Journal of Multimedia and Ubiquitous Engineering, 10, 1, pp.47-58, 2015 https://doi.org/10.14257/ijmue.2015.10.1.5
  10. Wilczkowiak, Marta, Edmond Boyer, and Peter Sturm, "Camera calibration and 3D reconstruction from single images using parallelepipeds." Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference, 1, IEEE, 2001
  11. H.P. Moravec, "Visual mapping by a robot rover," in Proc. IJCAI, pp.598-600, 1979
  12. Harris, Chris, and Mike Stephens, "A combined corner and edge detector" Alvey vision conference. Vol. 15, pp.147-151, 1988
  13. D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 60, 2, pp. 91-110, 2004 https://doi.org/10.1023/B:VISI.0000029664.99615.94
  14. Mikolajczyk, Krystian, and Cordelia Schmid, "An affine invariant interest point detector." Computer Vision—ECCV 2002. Springer Berlin Heidelberg, pp.128-142, 2002
  15. Tsay, Jaan-Rong, and Ming-Shiuan Lee, "Sift for Dense Point Cloud Matching and Aero Triangulation." ISPRS-International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences 1, pp.69-74, 2012 https://doi.org/10.5194/isprsarchives-XXXIX-B3-69-2012
  16. Hernández, Carlos, and George Vogiatzis, "Shape from photographs: a multi-view stereo pipeline", Computer Vision. Springer Berlin Heidelberg, pp.281-311, 2010
  17. Remondino, Fabio, et al, "UAV photogrammetry for mapping and 3d modeling–current status and future perspectives." International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences 38, 1, C22, 2011
  18. Zhao, Haitao, et al. "Direct georeferencing of oblique and vertical imagery in different coordinate systems." ISPRS Journal of Photogrammetry and Remote Sensing 95, pp.122-133, 2014 https://doi.org/10.1016/j.isprsjprs.2014.06.001
  19. Turner, David, Arko Lucieer, and Luke Wallace, "Direct georeferencing of ultrahigh-resolution UAV imagery." Geoscience and Remote Sensing, IEEE Transactions on 52, 5, pp.2738-2745, 2014 https://doi.org/10.1109/TGRS.2013.2265295