• 제목/요약/키워드: Scene Description

검색결과 72건 처리시간 0.027초

교육용 비디오의 ToC 자동 생성 방법 (A Method of Generating Table-of-Contents for Educational Video)

  • 이광국;강정원;김재곤;김회율
    • 방송공학회논문지
    • /
    • 제11권1호
    • /
    • pp.28-41
    • /
    • 2006
  • 양방향 맞춤형 방송의 실현으로 인해 비디오의 내용을 자동으로 분석하여 그 구조를 기술하거나 요약을 생성하는 등의 내용 기반 비디오 분석 기술의 필요성이 요구되고 있다. 본 논문에서는 온라인에서 수요가 높고 특히 맞춤형 방송에 적합한 방송 콘텐츠인 교육용 비디오의 ToC를 자동으로 생성하기 위한 방법을 제안한다. 제안한 ToC 생성 방법은 씬 분할과 씬 서술의 두 단계로 이루어져 있다. 씬 분할 단계에서는 삿 분할을 수행한 후 샷 간의 연결관계 분석을 통해 입력 영상을 씬 단위로 분할하게 된다. 씬 서술 단계에서는 분할된 각 씬이 장면 분류, 자막 검출, 화자 인식 등에 의해 그 내용이 자동으로 서술된다. 제안된 방법을 통해 생성된 ToC는 씬과 샷의 계층 구조를 통해 비디오의 구성을 표현하고, 검출된 여러 특정을 이용해 각 씬과 샷의 내용을 서술함으로써 사용자가 비디오의 내용을 한눈에 알아볼 수 있고 원하는 내용에 손쉽게 접근할 수 있도록 도와줄 수 있다. 또 보다 상세한 ToC가 요구되는 경우에는 유용한 정보들이 포함되어 있는 초기 형태의 ToC로써 이용되어 수작업에 의한 ToC 생성에 필요한 시간을 효과적으로 줄이는 것이 가능하다. 실험을 통해 제안한 방법으로 여러 개의 교육용 비디오에서 ToC를 효과적으로 생성될 수 있음을 확인하였다.

토폴로지 기반 특징 기술을 위한 특징 검출 방법의 성능 분석 (Performance Analysis of Feature Detection Methods for Topology-Based Feature Description)

  • 박한훈;문광석
    • 융합신호처리학회논문지
    • /
    • 제16권2호
    • /
    • pp.44-49
    • /
    • 2015
  • 텍스처가 부족한 장면이나 카메라 포즈 변화가 클 경우, 기존의 텍스처 기반의 특징 추적 방법의 신뢰도는 크게 떨어진다. LLAH와 같은 특징 사이의 기하 정보를 활용하는 토폴로지 기반 특징 기술 방법이 좋은 대안이 될 수 있으나, 특징 검출방법의 성능에 크게 영향을 받는다. 본 논문에서는 토폴로지 기반 특징 기술을 위한 효과적인 특징 검출 방법을 마련하기 위한 기초 연구로, OpenCV 라이브러리에서 제공되는 특징 검출 방법들의 반복성(repeatability) 분석을 통해 토폴로지 기반 특징 기술에의 적용 가능성을 살펴본다. 실험을 통해, FAST의 성능이 가장 우수함을 확인하였다.

장면 기술을 위한 MPEG-4 기반 XMT API 구현 (MPEG-4 based XMT APIs for Scene Description)

  • 정예선;김규헌;기명석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2001년도 정기총회 및 학술대회
    • /
    • pp.91-94
    • /
    • 2001
  • MPEG-4 시스템은 장면 자체를 하나의 구성 요소로 여기는 기존의 시스템과는 달리, 그 장면을 구성하는 부호화 또는 복호화된 A/V 객체(Audio/visual Objects)들을 하나의 단위로 인식하여, 다양한 멀티미디어 컨텐츠의 장면을 구성(Scene Composition)하고 표현 하는 것에 그 특징이 있다. 이러한 MPEG-4 시스템의 객체 기반 특징은 다양한 사용자와의 대화성(Interactivity)을 가능하게 하며 , 또한 편리한 컨텐츠 편집 및 재사용 등이 가능하기에 차세대 디지털 방송 컨텐츠 제작에 중요하게 활용될 전망이다. 객체 기반 A/V 편집 도구는 MPEG-4를 기반으로 차세대 디지털 방송 컨텐츠 제작을 용이하게 하기 위한 제작/편집 도구로써 , 장면을 표현하기 위하여 BIFS(Binary Format for Scene description)와 XMT(eXtensible MPEG-4 Textual format) 포맷을 모두 사용하고 있다. BIFS 포맷은 저작된 결과물을 바이너리 형태로 표현하기 때문에, 저작된 결과물을 전송하는 데에는 용이하나, 중간에 저작된 결과물을 확인하기 어렵고, 또한 기존의 다른 어플리케이션과의 상호 작용(Interoperability)과 교환(Exchange)에도 어려움이 따른다. 이에 반해, XMT는 차세대 마크업 언어로 각광 받고 있는 XML 에 그 기반을 두고 있기에 저작된 결과물을 제작자가 쉽게 저작물을 이해할 수 있으며, SMIL 과 X3D 같은 다른 어플리케이션과의 상호작용과 교환 또한 용이하게 한다 XMT는 기술 방법에 따라 XMT-A 와 XMT-0 두 가지 형태가 있으며, XMT-A 포맷은 VRML에서 발전한 X3D(extensible 3D)를 바탕으로 MPEG-4 시스템의 특징들을 수용하여 구성되고 BIFS와 일대일로 대응된다. 반면에 XMT-0는 멀티미디어 문서를 웹문서로 표현하는 SMIL 2.0 을 그 기반으로 하였기에 MPEG-4 시스템의 특징보다는 컨텐츠를 저작하는 제작자의 초점에 맞추어 개발된 형태이다. XMT를 이용하여 컨텐츠를 저작하기 위해서는 사용자 인터페이스를 통해 입력되는 저작 정보들을 손쉽게 저장하고 조작할 수 있으며, 또한 XMT 파일 형태로 출력하기 위한 API 가 필요하다. 이에, 본 논문에서는 XMT 형태의 중간 자료형으로의 저장 및 조작을 위하여 XML 에서 표준 인터페이스로 사용하고 있는 DOM(Document Object Model)을 기반으로 하여 XMT 문법에 적합하게 API를 정의하였으며, 또한, XMT 파일을 생성하기 위한 API를 구현하였다. 본 논문에서 제공된 API는 객체기반 제작/편집 도구에 응용되어 다양한 멀티미디어 컨텐츠 제작에 사용되었다.

  • PDF

User Edited Contents 생성을 위한 동영상 메타데이터 스키마 설계 및 저작 도구 구현 (Design of a Video Metadata Schema and Implementation of an Authoring Tool for User Edited Contents Creation)

  • 송인선;낭종호
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.413-418
    • /
    • 2015
  • 본 논문에서는 UEC (User Edited Contents)를 생성을 위한 비디오 세그먼트 검색에 적합한 동영상 메타데이터 스키마를 설계 및 제안한다. 전통적인 동영상 하위 구조 및 내용 정보 구조와 달리, 제안한 동영상 메타데이터 스키마에서 메타데이터는 Title-Event-Place (Scene)-Shot의 계층적인 구조를 가지며, 각 단위 세그먼트 별로 저장하여야 할 정보를 구조화하여 정의하였다. 현재 생성되어 배포되고 있는 UEC에 대한 논리적인 특징 분석을 통해 Pilot 태깅 실험을 설계하고, 피 실험자들의 태깅 행태와 태그들의 분석을 통해 이러한 메타데이터의 구성 방식과 스키마를 설계하였다. 제안한 시키마는 UEC 생성을 위한 동영상 검색의 특성을 고려하여 설계되었기 때문에 UEC 생성에 유용한 비디오 세그먼트를 범용 MPEG-7 MDS (Multimedia Description Scheme) 보다 쉽게 찾을 수 있도록 한다.

비디오 데이터의 내용 기반 검색과 브라우징을 위한 유동 속성 트리 및 부분 결과 행렬의 이용 방법 연구 (A Study on Flexible Attribude Tree and Patial Result Matrix for Content-baseed Retrieval and Browsing of Video Date.)

  • 성인용;이원석
    • 한국멀티미디어학회논문지
    • /
    • 제3권1호
    • /
    • pp.1-13
    • /
    • 2000
  • 연속된 비디오 스트림에는 다양한 정보가 서로간의 명확한 경계구분 없이 표현되며 비디오 신의 의미는 여러 추상화 단계로 해석되어질 수 있다. 또한 비디오에 대한 기술은 사용자의 목적에 따라 각각 다르게 표현될 수 있다. 따라서 비디오 데이터에 대한 내용 기반 검색에서는 사용자가 특정 장면에 대한 내용을 유동적으로 기술할 수 있도록 지원하여야 함과 동시에 다양한 사용자가 기술한 내용이 일관되게 유지되어야 한다. 본 논문은 관계형 모델과 객체 지향 모델과 같은 기존의 데이터 베이스 모델에서 효과적인 내용 기반 검색 및 브라우징 방법을 제안한다. 유동적으로 정의된 속성과 속성값은 트리 구조의 사전 형태로 구조화되며 비디오 데이터에 대한 기술은 고정 데이터베이스 스키마에 저장된다. 또한 본 논문에서는 사용자의 효과적인 비디오 브라우징 작업을 지원하기 위한 브라우저를 제안한다. 사전 브라우저(dictionary browser)는 사용자의 질의 표현과 의미 기술 작업을 단순화시키고, 결과 브라우저(result browser)는 사용자가 질의 조건들의 다양한 조합에 대한 질의 결과를 분석할 수 있도록 지원한다.

  • PDF

하이브리드 방송 환경 하에서 HTML5 기반 장면구성 기술 (Scene Composition Technology Based on HTML5 in Hybrid Broadcasting Environment)

  • 조민우;박정욱;김규헌
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.237-248
    • /
    • 2013
  • 하이브리드 방송(Hybrid Broadcasting) 환경은 다수의 전송경로를 통한 방송 통신 융합 환경이다. 이러한 하이브리드 방송 환경은 기존 방송망의 대역폭 제한으로 소수의 미디어만을 전달하던 것과 달리, 타 통신 전송망을 동시에 활용함으로써 다수의 미디어를 전달할 수 있다. 현재, 스마트TV를 필두로 방송망과 IP망을 결합한 하이브리드 방송 환경이 조성되어 다양한 서비스가 나타나고 있으며, 스마트폰 및 태블릿PC와 같은 타 스마트기기에서 또한 머지않아 하이브리드 방송 환경을 통한 서비스가 나타날 것으로 전망된다. 이렇게 다수의 미디어를 동시에 소비할 수 있는 하이브리드 방송 환경을 효과적으로 활용하는 방법의 하나는 장면구성을 이용하는 것이다. 장면구성은 미디어가 소비되는 시간과 화면상의 공간을 특정함으로써 다수의 미디어를 복합적으로 소비하는 방법이다. 이에 본 논문에서는 하이브리드 방송 환경에 적합하고, 스마트기기에 쉽게 적용될 수 있도록 HTML5를 기반으로 한 장면구성 기술을 제안한다. 하지만 HTML5의 스크립트 언어 및 스타일 언어를 활용한 미디어의 공간구성 및 시간구성은 처리의 복잡성을 높이고, 사용 가능한 단말기의 제한을 줄 수 있다. 또한, 하나의 HTML5 문서는 하나의 장면만 표현할 수 있다. 따라서 제안하는 장면구성 기술은 마크업 언어를 통해 미디어의 공간구성 및 시간구성과 다수 장면을 표현할 수 있도록 HTML5를 확장한다. 더불어 하이브리드 방송환경에 적용을 위한 확장을 포함한다. 이를 위해 HTML5 기술 및 제안하는 장면구성 기술을 소개하고, 구현 및 실험을 통해 본 제안을 검증한다.

고주파 조명패턴을 사용한 직접광과 간접광의 분리성능 향상 기법 (An Enhancement Technique for Separation of Direct Light and Global Light Using High Frequency Illumination pattern)

  • 조미리나;박동규
    • 한국멀티미디어학회논문지
    • /
    • 제12권9호
    • /
    • pp.1262-1272
    • /
    • 2009
  • 컴퓨터 그래픽스 분야에서는 사실적인 3차원 렌더링을 위해 조명에 관한 다양한 연구가 이루어지고 있다. 우리가 보는 장면은 어떤 장면내에서 한 점에 들어오는 빛과 그 빛에 의한 래디언스에 의하여 인지된다. 한 장면에서 카메라로 들어오는 빛의 성분을 직접광과 간접광으로 구분할 수 있는데, 직접광은 한 객체의 표면에 닿은 광원을 객체의 속성에 의해서 직접 반사시킨 빛 성분이고, 간접광은 복잡한 기하학적 요소간의 상호반사에 객체로부터 반사된 빛 성분이다. 이 논문은 고주파 조명 패턴을 활용하여 임의의 장면내에 있는 빛을 직접광과 간접광 성분으로 분리시킬 때의 부정확성을 개선하여 정확성을 높이는 방법에 관한 것이다. 이를 위하여 물체의 속성에 따른 빛이 비춰지지 않은 영역에서 반사된 빛의 값을 측정하는 방법을 제안하고 이 방법을 통하여 장면에서 직접광과 간접광 성분의 분리의 정확도를 높일 수 있었다. 그리고 분리된 이미지의 간접광 성분을 특성을 이용하여, 육안으로 보이지 않는 장면에서의 이미지를 추출하는 향상된 방법을 제안하고 구현하였다.

  • PDF

밝기 정보를 결합한 LLAH의 성능 분석 (Performance Analysis of Brightness-Combined LLAH)

  • 박한훈;문광석
    • 한국멀티미디어학회논문지
    • /
    • 제19권2호
    • /
    • pp.138-145
    • /
    • 2016
  • LLAH(Locally Likely Arrangement Hashing) is a method which describes image features by exploiting the geometric relationship between their neighbors. Inherently, it is more robust to large view change and poor scene texture than conventional texture-based feature description methods. However, LLAH strongly requires that image features should be detected with high repeatability. The problem is that such requirement is difficult to satisfy in real applications. To alleviate the problem, this paper proposes a method that improves the matching rate of LLAH by exploiting together the brightness of features. Then, it is verified that the matching rate is increased by about 5% in experiments with synthetic images in the presence of Gaussian noise.

Blur-Invariant Feature Descriptor Using Multidirectional Integral Projection

  • Lee, Man Hee;Park, In Kyu
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.502-509
    • /
    • 2016
  • Feature detection and description are key ingredients of common image processing and computer vision applications. Most existing algorithms focus on robust feature matching under challenging conditions, such as inplane rotations and scale changes. Consequently, they usually fail when the scene is blurred by camera shake or an object's motion. To solve this problem, we propose a new feature description algorithm that is robust to image blur and significantly improves the feature matching performance. The proposed algorithm builds a feature descriptor by considering the integral projection along four angular directions ($0^{\circ}$, $45^{\circ}$, $90^{\circ}$, and $135^{\circ}$) and by combining four projection vectors into a single highdimensional vector. Intensive experiment shows that the proposed descriptor outperforms existing descriptors for different types of blur caused by linear motion, nonlinear motion, and defocus. Furthermore, the proposed descriptor is robust to intensity changes and image rotation.

Environment Matting 기법을 이용한 영상합성 시스템 구현 (Design and Implementation of Image Compositing system Using Environment Matting)

  • 이동훈;이동규;한수영;이두수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(4)
    • /
    • pp.207-210
    • /
    • 2001
  • This paper has been studied a environment matting and compositing, which captures not just a foreground object and its traditional opacity matte from a real-world scene, but also a description of how that object refracts and reflects light. And then this paper has verified and implemented the image compositing system using environment matting method.

  • PDF