• 제목/요약/키워드: Video representation

검색결과 194건 처리시간 0.027초

Improving Transformer with Dynamic Convolution and Shortcut for Video-Text Retrieval

  • Liu, Zhi;Cai, Jincen;Zhang, Mengmeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2407-2424
    • /
    • 2022
  • Recently, Transformer has made great progress in video retrieval tasks due to its high representation capability. For the structure of a Transformer, the cascaded self-attention modules are capable of capturing long-distance feature dependencies. However, the local feature details are likely to have deteriorated. In addition, increasing the depth of the structure is likely to produce learning bias in the learned features. In this paper, an improved Transformer structure named TransDCS (Transformer with Dynamic Convolution and Shortcut) is proposed. A Multi-head Conv-Self-Attention module is introduced to model the local dependencies and improve the efficiency of local features extraction. Meanwhile, the augmented shortcuts module based on a dual identity matrix is applied to enhance the conduction of input features, and mitigate the learning bias. The proposed model is tested on MSRVTT, LSMDC and Activity-Net benchmarks, and it surpasses all previous solutions for the video-text retrieval task. For example, on the LSMDC benchmark, a gain of about 2.3% MdR and 6.1% MnR is obtained over recently proposed multimodal-based methods.

경향 벡터 기반 비디오 스트림 검색 시스템 (A Video Stream Retrieval System based on Trend Vectors)

  • 이석룡;전석주
    • 한국멀티미디어학회논문지
    • /
    • 제10권8호
    • /
    • pp.1017-1028
    • /
    • 2007
  • 본 논문에서는 비디오 스트림을 효과적으로 표현하고 저장하며, 저장된 비디오 스트림을 효율적으로 검색하는 기법을 제안한다. 각 비디오 프레임으로부터 특징(feature)들을 추출하고, 각 특징들의 수치값을 정규화 하여 [0,1] 사이의 값으로 표현하면, f 개의 특징으로 표현된 비디오 프레임은 f 차원의 공간 $[0,1]^f$ 상의 한 점으로 나타낼 수 있다. 따라서 비디오 스트림은 다차원 공간에서 점들의 궤적으로 표현될 수 있으며 이 궤적은 카메라 샷을 기준으로 비디오 세그먼트로 분할된다. 비디오 세그먼트는 세그먼트 내의 점들의 움직임 등의 정보를 나타내는 경향 벡터(trend vector)로 표현되며, 비디오 스트림 검색은 이러한 경향 벡터에 대하여 수행된다. 스포츠, 뉴스, 기록영화, 교육용 비디오 등의 비디오 스트림에 대하여 제안한 기법을 검증하였으며, 실험 결과 기존의 방법에 비하여 복원 오차율(reconstruction error rate)이 평균37% 감소되었고, 검색의 정밀도(precision)는 비슷한 수준의 재현율(recall) 및 응답 시간을 유지하면서 평균 2.1 배까지 향상되었음을 관찰할 수 있었다.

  • PDF

감정에 관련된 비디오 셧의 특징 표현 및 검출 (Representation and Detection of Video Shot s Features for Emotional Events)

  • 강행봉;박현재
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.53-62
    • /
    • 2004
  • 인간과 컴퓨터간의 상호작용에 있어서 감정처리는 매우 중요한 부결이다. 특히, 비디오 정보처리에 있어서 사용자의 감정을 처리할 수 있다면 비디오 검색이나 요약본 추출 등 다양한 응용분야에 활용이 가능하다. 비디오 데이터로부터 이러한 감정 처리를 하기 위해서는 감정에 관련된 특징들을 표현하고, 검출하는 것이 필요하다. 쉽게 추출이 가능한 색상이나 모션 등의 저급 특징들로부터 고급 개념인 감정을 검출하는 것은 매우 어려운 일이지만, 감정에 관련된 여러 장면으로부터 LDA(Linear Discriminant Analysis)와 같은 통계적인 분석을 통해 감정에 관련된 특징들을 검출하는 것은 가능하다. 본 논문에서는 색상, 모션 및 셧 길이 정보로부터 감정과의 관련된 특징을 표현하고 검출하는 방법을 제안한다. 제안된 특징을 사용하여 감정 검출에 관련된 실험을 한 결과 바람직한 결과를 얻었다.

순차 데이터간의 유사도 표현에 의한 동영상 분류 (Video Classification System Based on Similarity Representation Among Sequential Data)

  • 이호석;양지훈
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권1호
    • /
    • pp.1-8
    • /
    • 2018
  • 동영상 데이터는 시간에 따른 정보는 물론이고, 많은 정보량과 함께 잡음도 포함하고 있기 때문에 이에 대한 간단한 표현을 학습하는 것은 쉽지 않다. 본 연구에서는 이와 같은 동영상 데이터를 추상적이면서 보다 간단하게 표현할 수 있는 순차 데이터간의 유사도 표현 방법과 딥러닝 학습방법을 제안한다. 이는 동영상을 구성하는 이미지 데이터 벡터들 사이의 유사도를 내적으로 표현할 때 그것들이 서로 최대한의 정보를 가질 수 있도록 하는 함수를 구하고 학습하는 것이다. 실제 데이터를 통하여 제안된 방법이 기존의 동영상 분류 방법들보다도 뛰어난 분류 성능을 보임을 확인하였다.

비디오 행동 인식을 위하여 다중 판별 결과 융합을 통한 성능 개선에 관한 연구 (A Study for Improved Human Action Recognition using Multi-classifiers)

  • 김세민;노용만
    • 방송공학회논문지
    • /
    • 제19권2호
    • /
    • pp.166-173
    • /
    • 2014
  • 최근 다양한 방송 및 영상 분야에서 사람의 행동을 인식하여는 연구들이 많이 이루어지고 있다. 영상은 다양한 형태를 가질 수 있기 때문에 제약된 환경에서 유용한 템플릿 방법들보다 특징점에 기반한 연구들이 실제 사용자 환경에서 더욱 관심을 받고 있다. 특징점 기반의 연구들은 영상에서 움직임이 발생하는 지점들을 찾아내어 이를 3차원 패치들로 생성한다. 이를 이용하여 영상의 움직임을 히스토그램에 기반한 descriptor(서술자)로 표현하고 학습기반의 판별기로 최종적으로 영상내에 존재하는 행동들을 인식하였다. 그러나 단일 판별기로는 다양한 행동을 인식하기에 어려움이 있다. 따라서 이러한 문제를 개선하기 위하여 최근에 다중 판별기를 활용한 연구들이 영상 판별 및 물체 검출 영역에서 사용되고 있다. 따라서 본 논문에서는 행동 인식을 위하여 support vector machine과 sparse representation을 이용한 decision-level fusion 방법을 제안하고자 한다. 제안된 논문의 방법은 영상에서 특징점 기반의 descriptor를 추출하고 이를 각각의 판별기를 통하여 판별 결과들을 획득한다. 이 후 학습단계에서 획득된 가중치를 활용하여 각 결과들을 융합하여 최종 결과를 도출하였다. 본 논문에 실험에서 제안된 방법은 기존의 융합 방법보다 높은 행동 인식 성능을 보여 주었다.

Video augmentation technique for human action recognition using genetic algorithm

  • Nida, Nudrat;Yousaf, Muhammad Haroon;Irtaza, Aun;Velastin, Sergio A.
    • ETRI Journal
    • /
    • 제44권2호
    • /
    • pp.327-338
    • /
    • 2022
  • Classification models for human action recognition require robust features and large training sets for good generalization. However, data augmentation methods are employed for imbalanced training sets to achieve higher accuracy. These samples generated using data augmentation only reflect existing samples within the training set, their feature representations are less diverse and hence, contribute to less precise classification. This paper presents new data augmentation and action representation approaches to grow training sets. The proposed approach is based on two fundamental concepts: virtual video generation for augmentation and representation of the action videos through robust features. Virtual videos are generated from the motion history templates of action videos, which are convolved using a convolutional neural network, to generate deep features. Furthermore, by observing an objective function of the genetic algorithm, the spatiotemporal features of different samples are combined, to generate the representations of the virtual videos and then classified through an extreme learning machine classifier on MuHAVi-Uncut, iXMAS, and IAVID-1 datasets.

Object Motion Analysis and Interpretation in Video

  • Song, Dan;Cho, Mi-Young;Kim, Pan-Koo
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.694-696
    • /
    • 2004
  • With the more sophisticated abilities development of video, object motion analysis and interpretation has become the fundamental task for the computer vision understanding. For that understanding, firstly, we seek a sum of absolute difference algorithm to apply to the motion detection, which was based on the scene. Then we will focus on the moving objects representation in the scene using spatio-temporal relations. The video can be explained comprehensively from the both aspects : moving objects relations and video events intervals.

  • PDF

Motion Ontology를 이용한 비디오내 객체 움직임의 의미표현 (Semantic Representation of Moving Objectin Video Data Using Motion Ontology)

  • 신주현;김판구
    • 한국멀티미디어학회논문지
    • /
    • 제10권1호
    • /
    • pp.117-127
    • /
    • 2007
  • 멀티미디어 데이터의 활용가치가 높아짐에 따라 멀티미디어 정보의 의미적인 인식과 검색 방법에 대한 필요성이 증대되고 있다. 본 논문에서는 비디오 내 이벤트에 대한 객체 움직임 요소간의 의미표현을 위해 모션 온톨로지(Motion Ontology)를 구축하고 적용한다. 본 연구에서 제안한 방법은 워드넷(WordNet)내 동사어휘들 중 장소 이동이나 방향등과 같이 움직임을 잘 표현하는 동사들에 대해 분류하여 계층구조로 표현하고, 또한 이를 OWL/RDF(S)로 작성한다. 이는 온톨로지(Ontology)의 IS-A관계와 동의어관계가 가진 특징을 이용한 추론을 위함이며, 온톨로지(Ontology)에 기반하여 비디오 데이터를 인덱싱함으로써, 의미적 표현을 가능하게 한다. 본 연구에서 비디오 데이터에 대하여 의미적 검색을 수행한 결과, 기존 키워드 기반 검색에 비해 정확률 측면에서 약 10% 정도 향상되었다.

  • PDF

스테레오 기반 비디오 압축/전송 시스템을 위한 시차영상 추정 및 표현에 관한 연구 (Study on the estimation and representation of disparity map for stereo-based video compression/transmission systems)

  • 박성철;남궁재찬
    • 방송공학회논문지
    • /
    • 제10권4호통권29호
    • /
    • pp.576-586
    • /
    • 2005
  • 본 논문에서는 스테레오 기반 비디오 압축 전송 시스템을 위하여 시차영상을 추정하고 표현하는 방법에 대하여 연구를 수행하였다. 기존에는 스테레오 영상 전송을 위하여 시차영상을 화소 단위나 블록단위로 구하는 방법이 사용되었다. 화소 단위 시차추정은 정확도는 높으나 전송시 많은 비트를 발생시키는 반면, 블록단위 시차 추정은 정보량을 줄일 수 있으나 정확도가 떨어지는 단점을 가지고 있다. 본 논문에서는 영상의 경계부분을 두 개의 영역으로 나누고 시차정보를 주변 것으로 대치함으로써 블록단위의 방법과 거의 같은 정보량을 갖으면서 경계부분에서 보다 정확한 시차정보를 표현하는 방법을 제안하였다. 본 방법은 블록의 형태를 분류하기 위하여 누적 히스토그램을 특징으로 하는 신경망을 사용하였다. 본 논문에서는 제안한 알고리즘이 경계블록을 다수 포함한 영상에서는 블록단위의 시차표현 방법보다 효과적임을 실제 영상 분석을 통하여 증명하였다.

A Novel Bit Rate Adaptation using Buffer Size Optimization for Video Streaming

  • Kang, Young-myoung
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권4호
    • /
    • pp.166-172
    • /
    • 2020
  • Video streaming application such as YouTube is one of the most popular mobile applications. To adjust the quality of video for available network bandwidth, a streaming server provides multiple representations of video of which bit rate has different bandwidth requirements. A streaming client utilizes an adaptive bit rate scheme to select a proper video representation that the network can support. The download behavior of video streaming client player is governed by several parameters such as maximum buffer size. Especially, the size of the maximum playback buffer in the client player can greatly affect the user experience. To tackle this problem, in this paper, we propose the maximum buffer size optimization according to available network bandwidth and buffer status. Our simulation study shows that our proposed buffer size optimization scheme successfully mitigates playback stalls while preserving the similar quality of streaming video compared to existing ABR schemes.