Abstract
In general, image-based 3D scenes can now be found in many popular vision systems, computer games and virtual reality tours. In this paper, we propose a method for creating 3D virtual scenes based on 2D image that is completely automatic and requires only a single scene as input data. The proposed method is similar to the creation of a pop-up illustration in a children's book. In particular, to estimate geometric structure information for 3D scene from a single outdoor image, we apply the tensor voting to an image segmentation. The tensor voting is used based on the fact that homogeneous region in an image is usually close together on a smooth region and therefore the tokens corresponding to centers of these regions have high saliency values. And then, our algorithm labels regions of the input image into coarse categories: "ground", "sky", and "vertical". These labels are then used to "cut and fold" the image into a pop-up model using a set of simple assumptions. The experimental results show that our method successfully segments coarse regions in many complex natural scene images and can create a 3D pop-up model to infer the structure information based on the segmented region information.
이미지 기반 3차원 장면은 비전 시스템, 게임, 가상현실 체험 등의 분야에서 쉽게 찾아볼 수 있다. 본 논문은 단일 영상으로부터 자동으로 3차원 가상 장면을 생성하기 위한 방법을 제안한다. 제안된 방법은 어린이용 도서의 팝업 이미지의 생성과 유사하다. 특히, 단일 외부 영상으로부터 장면의 3차원 기하학적 구조를 평가하기 위한 과분할 영상을 얻기 위해 텐서 보팅을 적용하였다. 텐서 보팅은 이미지의 균질 영역을 더욱더 부드러운 영역에 가깝게 만들며 영역 중심의 토큰은 매우 큰 saliency 값을 갖게 된다. 그리고 각 분할된 영역을 지면, 하늘, 수직성분 등의 대략적인 카테고리로 분류하고 라벨을 부여한다. 이 라벨은 간단한 가정 하에서 이미지를 팝업 모델로 변환시키기 위한 "잘라내기"와 "접기" 로 이용된다. 실험결과 제안된 방법은 복잡한 자연 영상에서도 성공적으로 영역 분할을 수행하였으며 분할된 영역 정보를 기반으로 구조 정보를 추론하여 3차원 팝업 영상으로 모델링하였다.