• 제목/요약/키워드: Visual Scene

검색결과 370건 처리시간 0.021초

Visual Rhythm의 방향성을 이용한 장면변환 검출 (Scene change detection using visual rhythm by direction)

  • 윤상호;유지상
    • 한국통신학회논문지
    • /
    • 제29권8C호
    • /
    • pp.1193-1202
    • /
    • 2004
  • 최근 디지털 컨텐츠 관리의 중요성이 점점 증대되는 가운데, 동영상 컨텐츠의 중복장면을 최대한 줄이고, 대량의 비디오 데이터를 효과적으로 하기 위하여 장면변환 검출과 관련된 연구가 계속 진행되고 있다. 기존의 히스토그램과 화소 차를 이용한 장면변환 검출 기법은 조명변화와 움직임에 민감한 결과를 나타내었다. 따라서, 최근에는 계산량이 적고, 장면특성을 비교적 잘 나타내는 visual rhythm을 사용한 검출 방법이 많이 연구되어지고 있다. 본 논문에서는 visual rhythm의 방향성을 이용하여 장면을 검출하는 기법을 제안하였다. 제안하는 기법에서는 계산량을 효과적으로 줄일 수 있으며, 방향성 측정으로 인해 움직임이 있는 장면에서도 지속적인 성능을 가질 수 있다. 실험 결과에서는 기존에 사용되던 히스토그램을 이용한 장면변환 검출과 비교하여 약 30%의 성능효과를 보였고, 움직임이 많은 광고와, 뮤직비디오에서 비슷한 성능이 유지됨을 확인 할 수 있었다.

Three-Dimensional Photon Counting Imaging with Enhanced Visual Quality

  • Lee, Jaehoon;Lee, Min-Chul;Cho, Myungjin
    • Journal of information and communication convergence engineering
    • /
    • 제19권3호
    • /
    • pp.180-187
    • /
    • 2021
  • In this paper, we present a computational volumetric reconstruction method for three-dimensional (3D) photon counting imaging with enhanced visual quality when low-resolution elemental images are used under photon-starved conditions. In conventional photon counting imaging with low-resolution elemental images, it may be difficult to estimate the 3D scene correctly because of a lack of scene information. In addition, the reconstructed 3D images may be blurred because volumetric computational reconstruction has an averaging effect. In contrast, with our method, the pixels of the elemental image rearrangement technique and a Bayesian approach are used as the reconstruction and estimation methods, respectively. Therefore, our method can enhance the visual quality and estimation accuracy of the reconstructed 3D images because it does not have an averaging effect and uses prior information about the 3D scene. To validate our technique, we performed optical experiments and demonstrated the reconstruction results.

Research on Scene Features of Mixed Reality Game Based on Spatial Perception-Focused on "The Fragment" Case Study

  • Li, Wei;Cho, Dong-Min
    • 한국멀티미디어학회논문지
    • /
    • 제24권4호
    • /
    • pp.601-609
    • /
    • 2021
  • This article combines literature and empirical research based on space perception theory and the case study of mixed reality game "The Fragment." It is concluded that the mixed reality scene under space perception has a three-level visual definition. This definition carries out a corresponding level analysis of the scenes of the "The Fragment" game and draws up the constituent factors of the mixed reality game scene characteristics. Finally, through questionnaire data investigation and analysis, it is verified that the three factors of virtual reality coexistence, human-computer interaction, and local serviceability can better explain the characteristics of mixed reality game scenes. At the end of the study, it is concluded that the definition of three levels of visual hierarchy and the constituent factors of mixed reality game scenes can provide reference and help for other mixed-reality game designs and a brief description of future research plans.

A Novel Two-Stage Training Method for Unbiased Scene Graph Generation via Distribution Alignment

  • Dongdong Jia;Meili Zhou;Wei WEI;Dong Wang;Zongwen Bai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권12호
    • /
    • pp.3383-3397
    • /
    • 2023
  • Scene graphs serve as semantic abstractions of images and play a crucial role in enhancing visual comprehension and reasoning. However, the performance of Scene Graph Generation is often compromised when working with biased data in real-world situations. While many existing systems focus on a single stage of learning for both feature extraction and classification, some employ Class-Balancing strategies, such as Re-weighting, Data Resampling, and Transfer Learning from head to tail. In this paper, we propose a novel approach that decouples the feature extraction and classification phases of the scene graph generation process. For feature extraction, we leverage a transformer-based architecture and design an adaptive calibration function specifically for predicate classification. This function enables us to dynamically adjust the classification scores for each predicate category. Additionally, we introduce a Distribution Alignment technique that effectively balances the class distribution after the feature extraction phase reaches a stable state, thereby facilitating the retraining of the classification head. Importantly, our Distribution Alignment strategy is model-independent and does not require additional supervision, making it applicable to a wide range of SGG models. Using the scene graph diagnostic toolkit on Visual Genome and several popular models, we achieved significant improvements over the previous state-of-the-art methods with our model. Compared to the TDE model, our model improved mR@100 by 70.5% for PredCls, by 84.0% for SGCls, and by 97.6% for SGDet tasks.

VR 애니메이션 의 시각적 미장센 연구 (A Study on Visual Mise-en-Scene of VR Animation )

  • 이랑구;정진헌
    • 디지털융복합연구
    • /
    • 제15권9호
    • /
    • pp.407-413
    • /
    • 2017
  • 미장센은 시각적 영상 미학으로 화면과 공간을 구성하는 연출 기법이다. 연극과 영화에서뿐만 아니라 애니메이션에서도 역시 미장센은 중요한 요소이며, 관람자의 몰입을 유도하고 지속할 수 있는 강력한 장치이다. 본 논문은 영화의 미장센 이론을 기반으로 애니메이션의 미장센을 알아보고, 가상공간에서는 어떻게 연출되고 표현되었으며 어떠한 요소와 특징이 관람자의 몰입을 유도하고 지속시키고 있는지 VR 애니메이션 을 구체적인 사례로 삼아 시각적 미장센 요소를 중심으로 분석하였다. 그 결과 시각적 미장센 요소로는 캐릭터와 소품, 배경, 캐릭터의 독창성과 친근함, 자연스러운 동작 및 연기, 소품의 상징성과 활용성 그리고 배경의 다양성과 일관성이 몰입을 유도하고 지속하는 것으로 나타났다. 이를 바탕으로 향후 VR 애니메이션은 시각적 미장센 요소의 특성을 활용한 연출을 통해 관람자의 시선 유도와 몰입을 지속할 수 있는 차별화된 장치와 기법이 필요하다는 연구 결과를 얻은 논문으로 관련 분야에 도움이 될 수 있는 논문으로 사료된다.

Intermediate Data Structure for MPEG-4 Scene Description

  • Cha, Kyung-Ae;Kim, Hee-Sun;Kim, Sang-Wook
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.192-195
    • /
    • 2001
  • MPEG-4 content is streaming media that are composed of different types of media objects, organized in a hierarchical fashion. This paper proposes scene composition model for authoring MPEG-4 contents which can support object based interactions. And we have developed MPEG-4 contents authoring tool applied the proposed scene composition model as intermediate data structure. Particularly, for supporting interoperability between multimedia contents, the scene composition model should be used independent of file format. So visual scene composed of media objects on the from of scene composition tree can be transformed variable data format including BIFS, scene description from proposed by MPEG-4 standard and also support the extension of capability.

  • PDF

감시 영상에서의 장면 분석을 통한 이상행위 검출 (Detection of Abnormal Behavior by Scene Analysis in Surveillance Video)

  • 배건태;어영정;곽수영;변혜란
    • 한국통신학회논문지
    • /
    • 제36권12C호
    • /
    • pp.744-752
    • /
    • 2011
  • 지능형 감시 분야에서 이상행위를 검출하는 것은 오랫동안 연구되어온 주제로 다양한 방법들이 제안되어 왔다. 그러나 많은 연구가 움직이는 객체의 개별적인 추적이 가능하다는 것을 전제로 하여 찾은 가려짐이 발생하는 실생활에 적용하는데 한계가 있다. 본 논문에서는 객체 추적이 어려운 복잡한 환경에서 장면의 주된 움직임을 분석하여 비정상적인 행위를 검출하는 방법을 제안한다. 먼저, 입력영상에서 움직임 정보를 추출하여 Visual Word와 Visual Document를 생성하고, 문서 분석 기법 중 하나인 LDA(Latent Dirichlet Allocation 알고리즘을 이용하여 장면의 주요한 움직임 정보j위치, 크기, 방향, 분포)를 추출한다. 이렇게 분석된 장면의 주요한 움직임과 입력영상에서 발생한 움직임과의 유사도를 분석하여 주요한 움직임에서 벗어나는 움직임을 비정상적인 움직임으로 간주하고 이를 이상행위로 검출하는 방법을 제안한다.

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

A 3D Audio-Visual Animated Agent for Expressive Conversational Question Answering

  • Martin, J.C.;Jacquemin, C.;Pointal, L.;Katz, B.
    • 한국정보컨버전스학회:학술대회논문집
    • /
    • 한국정보컨버전스학회 2008년도 International conference on information convergence
    • /
    • pp.53-56
    • /
    • 2008
  • This paper reports on the ACQA(Animated agent for Conversational Question Answering) project conducted at LIMSI. The aim is to design an expressive animated conversational agent(ACA) for conducting research along two main lines: 1/ perceptual experiments(eg perception of expressivity and 3D movements in both audio and visual channels): 2/ design of human-computer interfaces requiring head models at different resolutions and the integration of the talking head in virtual scenes. The target application of this expressive ACA is a real-time question and answer speech based system developed at LIMSI(RITEL). The architecture of the system is based on distributed modules exchanging messages through a network protocol. The main components of the system are: RITEL a question and answer system searching raw text, which is able to produce a text(the answer) and attitudinal information; this attitudinal information is then processed for delivering expressive tags; the text is converted into phoneme, viseme, and prosodic descriptions. Audio speech is generated by the LIMSI selection-concatenation text-to-speech engine. Visual speech is using MPEG4 keypoint-based animation, and is rendered in real-time by Virtual Choreographer (VirChor), a GPU-based 3D engine. Finally, visual and audio speech is played in a 3D audio and visual scene. The project also puts a lot of effort for realistic visual and audio 3D rendering. A new model of phoneme-dependant human radiation patterns is included in the speech synthesis system, so that the ACA can move in the virtual scene with realistic 3D visual and audio rendering.

  • PDF