• 제목/요약/키워드: Visual Scene

검색결과 369건 처리시간 0.029초

3차원 가상 실내 환경을 위한 심층 신경망 기반의 장면 그래프 생성 (Deep Neural Network-Based Scene Graph Generation for 3D Simulated Indoor Environments)

  • 신동협;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권5호
    • /
    • pp.205-212
    • /
    • 2019
  • 장면 그래프는 영상 내 물체들과 각 물체 간의 관계를 나타내는 지식 그래프를 의미한다. 본 논문에서는 3차원 실내 환경을 위한 3차원 장면 그래프를 생성하는 모델을 제안한다. 3차원 장면 그래프는 물체들의 종류와 위치, 그리고 속성들뿐만 아니라, 물체들 간의 3차원 공간 관계들도 포함한다. 따라서 3차원 장면 그래프는 에이전트가 활동할 실내 환경을 묘사하는 하나의 사전 지식 베이스로 볼 수 있다. 이러한 3차원 장면 그래프는 영상 기반의 질문과 응답, 서비스 로봇 등과 같은 다양한 분야에서 유용하게 활용될 수 있다. 본 논문에서 제안하는 3차원 장면 그래프 생성 모델은 크게 물체 탐지 네트워크(ObjNet), 속성 예측 네트워크(AttNet), 변환 네트워크(TransNet), 관계 예측 네트워크(RelNet) 등 총 4가지 부분 네트워크들로 구성된다. AI2-THOR가 제공하는 3차원 실내 가상환경들을 이용한 다양한 실험들을 통해, 본 논문에서 제안한 모델의 높은 성능을 확인할 수 있었다.

비디오의 의미검색과 예제기반 장면검색을 위한 비디오 검색시스템 (Video Retrieval System supporting Content-based Retrieval and Scene-Query-By-Example Retrieval)

  • 윤미희;조동욱
    • 정보처리학회논문지B
    • /
    • 제9B권1호
    • /
    • pp.105-112
    • /
    • 2002
  • 비디오데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미검색기법이 요구된다. 본 논문에서는 특징 기반 검색과 주석 기반 검색을 통합하여 다양한 사용자의 의미검색을 지원하고, 유사성 질의와, SQBE(scene query by example) 질의가 가능한 비디오 검색시스템(Video Retrieval System : VRS)을 제안한다. 사용자는 SQBE 질의를 통해 장면의 검색 결과로 제시된 장면을 기반으로 객체의 추가 삭제를 통해 사용자가 원하는 좀 더 정확한 장면의 검색이 가능하다. 또한 SQBE질의를 위한 질의언어와 이 질의를 처리하기 위한 질의처리알고리즘을 제안하고 장면과 객체의 유사성 검색에 대한 성능평가를 수행했다. 제안된 시스템은 Visual C++과 Oracle을 이용하여 구현되었다.

MPEG 압축 영상에서의 고속 특징 요소 추출을 이용한 장면 전환 검출과 키 프레임 선택 (Scene Change Detection and Key Frame Selection Using Fast Feature Extraction in the MPEG-Compressed Domain)

  • 송병철;김명준;나종범
    • 방송공학회논문지
    • /
    • 제4권2호
    • /
    • pp.155-163
    • /
    • 1999
  • 본 논문은 새로운 장면 전환 검출과 키 프레임 선태 기법을 제안하였다. 이를 위해 본 논문에서는 MPEG 압축 동영상에서 직접 DC 영상 및 에지(edge) 영상을 추출하여 이용하는데, 공간 영역으로 변환 후 에지 연상을 추출할 경우 계산량이 많다는 문제점이 있다. 따라서 본 논문에서는 그 계산량을 줄이기 위해 DCT 블록 당 5개의 저 대역 AC 계수들만을 이용하여 축소된 에지 영상을 고속으로 추출하는 방법을 제안하고, 이를 바탕으로 AC 예측(prediction)을 이용한 고속 에지 추출 기법도 추가적으로 제안하였다. 화질 측면에서 전자가 후자보다 약간 우수하지만, 두 방법 모두 영상의 중요한 에지 특징들을 잘 추출할 수 있다. 이와 같이 얻어진 에지 영상 및DC 영상을 이용하여 에지 에너지 다이어그램(dege energy diagram)과 히스토그램(histogram)을 구하여 급진적인 장면 전환 및 페이드(fade), 디졸브(dissolve) 같은 점진적인 장면 전환을 정확하게 검출함을 모의 실험을 통해 확인하였다. 또한 공간 영역에서 구한 에지 영상들에 비해 제안한 방법들에 의한 에지 영상들이 점진적인 장면 검출에 있어 훨씬 적은 계산량으로 비슷한 성능을 보임을 확인하였다. 마지막으로 HVS(human visual system)에 기반하여 각 장면에서 키 프레임을 선택하는 방법도 제안하였다. 위에서 얻어진 에지 및 DC 영상을 이용하기 때문에 optical flow를 이용하는 기존 방법에 비해 적은 계산량으로 의미 있는 키 프레임을 선택할 수 있었다.

  • PDF

Geometric and Semantic Improvement for Unbiased Scene Graph Generation

  • Ruhui Zhang;Pengcheng Xu;Kang Kang;You Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2643-2657
    • /
    • 2023
  • Scene graphs are structured representations that can clearly convey objects and the relationships between them, but are often heavily biased due to the highly skewed, long-tailed relational labeling in the dataset. Indeed, the visual world itself and its descriptions are biased. Therefore, Unbiased Scene Graph Generation (USGG) prefers to train models to eliminate long-tail effects as much as possible, rather than altering the dataset directly. To this end, we propose Geometric and Semantic Improvement (GSI) for USGG to mitigate this issue. First, to fully exploit the feature information in the images, geometric dimension and semantic dimension enhancement modules are designed. The geometric module is designed from the perspective that the position information between neighboring object pairs will affect each other, which can improve the recall rate of the overall relationship in the dataset. The semantic module further processes the embedded word vector, which can enhance the acquisition of semantic information. Then, to improve the recall rate of the tail data, the Class Balanced Seesaw Loss (CBSLoss) is designed for the tail data. The recall rate of the prediction is improved by penalizing the body or tail relations that are judged incorrectly in the dataset. The experimental findings demonstrate that the GSI method performs better than mainstream models in terms of the mean Recall@K (mR@K) metric in three tasks. The long-tailed imbalance in the Visual Genome 150 (VG150) dataset is addressed better using the GSI method than by most of the existing methods.

동적 도시 환경에서 의미론적 시각적 장소 인식 (Semantic Visual Place Recognition in Dynamic Urban Environment)

  • 사바 아르샤드;김곤우
    • 로봇학회논문지
    • /
    • 제17권3호
    • /
    • pp.334-338
    • /
    • 2022
  • In visual simultaneous localization and mapping (vSLAM), the correct recognition of a place benefits in relocalization and improved map accuracy. However, its performance is significantly affected by the environmental conditions such as variation in light, viewpoints, seasons, and presence of dynamic objects. This research addresses the problem of feature occlusion caused by interference of dynamic objects leading to the poor performance of visual place recognition algorithm. To overcome the aforementioned problem, this research analyzes the role of scene semantics in correct detection of a place in challenging environments and presents a semantics aided visual place recognition method. Semantics being invariant to viewpoint changes and dynamic environment can improve the overall performance of the place matching method. The proposed method is evaluated on the two benchmark datasets with dynamic environment and seasonal changes. Experimental results show the improved performance of the visual place recognition method for vSLAM.

Video Content Manipulation Using 3D Analysis for MPEG-4

  • Sull, Sanghoon
    • 방송공학회논문지
    • /
    • 제2권2호
    • /
    • pp.125-135
    • /
    • 1997
  • This paper is concerned with realistic mainpulation of content in video sequences. Manipulation of content in video sequences is one of the content-based functionalities for MPEG-4 Visual standard. We present an approach to synthesizing video sequences by using the intermediate outputs of three-dimensional (3D) motion and depth analysis. For concreteness, we focus on video showing 3D motion of an observer relative to a scene containing planar runways (or roads). We first present a simple runway (or road) model. Then, we describe a method of identifying the runway (or road) boundary in the image using the Point of Heading Direction (PHD) which is defined as the image of, the ray along which a camera moves. The 3D motion of the camera is obtained from one of the existing 3D analysis methods. Then, a video sequence containing a runway is manipulated by (i) coloring the scene part above a vanishing line, say blue, to show sky, (ii) filling in the occluded scene parts, and (iii) overlaying the identified runway edges and placing yellow disks in them, simulating lights. Experimental results for a real video sequence are presented.

  • PDF

샷 경계검출 개선을 위한 칼라, 엣지, 옵티컬플로우 기반의 혼합형 알고리즘 구현 (The Implementing a Color, Edge, Optical Flow based on Mixed Algorithm for Shot Boundary Improvement)

  • 박서린;임양미
    • 한국멀티미디어학회논문지
    • /
    • 제21권8호
    • /
    • pp.829-836
    • /
    • 2018
  • This study attempts to detect a shot boundary in films(or dramas) based on the length of a sequence. As films or dramas use scene change effects a lot, the issues regarding the effects are more diverse than those used in surveillance cameras, sports videos, medical care and security. Visual techniques used in films are focused on the human sense of aesthetic therefore, it is difficult to solve the errors in shot boundary detection with the method employed in surveillance cameras. In order to define the errors arisen from the scene change effects between the images and resolve those issues, the mixed algorithm based upon color histogram, edge histogram, and optical flow was implemented. The shot boundary data from this study will be used when analysing the configuration of meaningful shots in sequences in the future.

시트콤 동영상에서 MPEG-7 시각 기술자를 이용한 Scene 배경의 자동 분류 방법 (An Automatic Scene Background Classification Scheme for Sitcom Videos Using MPEG-7 Visual)

  • 전재욱;손대온;낭종호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.505-507
    • /
    • 2004
  • 시트콤 동염상은 고정된 배경을 갖는 중 아웃에 연이어 오는 줌 인으로 구성되어 있고, 또한 활영되는 배경의 수는 한정되어 있는 특성이 때문에, 이러한 배경의 시각적 특성을 사용하여 배경들을 학습시키고 자동으로 분리시킬 수 있다. 본 논문에서는 신경망의 일종인 LVQ[1]를 사용하여 이러한 증류의 비디오 동영상에 대한 자동 배경 분류 방법을 제안한다. 우선, MPEG-7 시각 기술자를 이용하여 신(scene) 배경의 시각적인 특성을 추출하고 이러한 시각적 특성을 미리 제작자에 의해서 주어진 배경 점보로서 LVQ를 학습시킨다. 학습이 진행되면서 특정 배경의 시각적 특성은 LVQ의 가중치로서 표현되며, 다른 배경을 자동으로 분류하는데 사용된다 제안된 LVQ기반의 분류 방법을 사용한 두 종류의 시트콤 동영상에 대한 실험 결과는 분류에 대한 어떠한 하드코딩 없이 80-90%의 정확도로 시트콤 동영상의 배경을 자동으로 분류한다.

  • PDF

조망 높이의 차이가 초래한 감각적 간섭이 시각단기기억 수행에 미치는 영향 (The Influence of Sensory Interference Arising from View-Height Differences on Visual Short-Term Memory Performance)

  • 가야금;현주석
    • 감성과학
    • /
    • 제23권1호
    • /
    • pp.17-28
    • /
    • 2020
  • 관찰자의 조망 높이의 감소는 시각장면 내의 사물들 간 중첩의 증가를 초래해 해당 사물들의 정체 파악을 어렵게 만들 가능성이 있다. 본 연구는 이러한 가능성에 기초해 조망 높이를 달리한 시야 상에 기억이 요구되는 자극들을 제시하고 해당 자극에 대한 시각단기기억 수행을 조사했다. 실험 1에서는 관찰자의 조망 높이(고, 중, 저) 차이를 반영한 격자무늬 배경과 기억 자극을 구성해 해당 자극들의 위치와 색상을 파지하는 단기기억 과제가 실시되었다. 기억 자극의 개수 증감(3 vs. 6)을 통해 기억부담의 수준을 달리해 가면서 기억 수행을 조사한 결과, 조망 높이가 가장 낮은 경우 기억부담의 증가에 따른 기억수행의 저하가 가장 분명한 것이 관찰되었다. 실험 2에서는 선형조망을 제공하는 격자무늬 배경의 유무에 따른 기억 수행을 관찰한 결과 실험 1과 동일하게 조망 높이가 가장 낮은 경우 수행이 역시 저하되는 것이 관찰되었다. 이러한 결과는 조망 높이의 차이가 시야 상의 사물들 간 중첩 단서량의 변화를 초래하며 더 나아가 이러한 변화가 초래하는 감각적 간섭이 시각단기기억 수행에 영향을 줄 가능성을 시사한다.

애니메이션 화면 전환 수단으로서의 조형 요소 변화에 대한 연구 (A Study on the code and design elements as a way of transition)

  • 김진영
    • 만화애니메이션 연구
    • /
    • 통권14호
    • /
    • pp.83-99
    • /
    • 2008
  • 일반적으로 필름에서의 화면 전환은 컷이나 디졸브 등, 화면 전체의 일괄적 전환으로 대표된다. 애니메이션 필름에서는 프레임의 이미지를 하나하나 생성하는 제작 기법의 특수성으로 인해 화면의 다양한 요소들에 전달하고자 하는 감성이나 내러티브적 요소를 부여할 수 있으며 다른 기호적 차원의 표현으로도 전환하는 것이 가능하다. 현대에 이르러 몰핑이나 메타모포시스 등 이미지 조작 기술이 다양화 되고 정교해짐에 따라 연속적 화면 구성은 2D애니메이션만의 고유한 특수성으로 보기 힘들어졌다. 그러나 캐릭터와 배경 즉, 사물과 공간을 너머 관객의 시선을 서로 다른 시각적 차원으로 지속적으로 강렬하게 몰입시키는 것은 2D 수작업 애니메이션의 강한 매력으로 볼 수 있다. 결국 이 같은 특성은 화면 전체의 구성 요소들을 통한 섬세한 은유와 개체들 각각의 함축적 의미 체계의 전달을 가능케 하는 문학적 기능을 가능케 한다. 장면에 관한 해석은 기호적 원근법의 세계와 평면적 조형 세계의 경계를 허물며 보다 다분화 되고 복잡하게 되었다. 이에 애니메이션 필름 화면상 조형 요소의 구성 기준, 그리고 그 활용 효과를 분석하는 것은 현시대의 새로운 몰입 수단을 가진 첨단 영상 화면에 있어서의 분석과 적용에 도움이 되리라고 본다.

  • PDF