• 제목/요약/키워드: Representation of video Data

검색결과 64건 처리시간 0.039초

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

Reduced Reference Quality Metric for Synthesized Virtual Views in 3DTV

  • Le, Thanh Ha;Long, Vuong Tung;Duong, Dinh Trieu;Jung, Seung-Won
    • ETRI Journal
    • /
    • 제38권6호
    • /
    • pp.1114-1123
    • /
    • 2016
  • Multi-view video plus depth (MVD) has been widely used owing to its effectiveness in three-dimensional data representation. Using MVD, color videos with only a limited number of real viewpoints are compressed and transmitted along with captured or estimated depth videos. Because the synthesized views are generated from decoded real views, their original reference views do not exist at either the transmitter or receiver. Therefore, it is challenging to define an efficient metric to evaluate the quality of synthesized images. We propose a novel metric-the reduced-reference quality metric. First, the effects of depth distortion on the quality of synthesized images are analyzed. We then employ the high correlation between the local depth distortions and local color characteristics of the decoded depth and color images, respectively, to achieve an efficient depth quality metric for each real view. Finally, the objective quality metric of the synthesized views is obtained by combining all the depth quality metrics obtained from the decoded real views. The experimental results show that the proposed quality metric correlates very well with full reference image and video quality metrics.

효율적인 화상자료 처리와 시각 시스템과 CAD시스템의 인터페이스에 관한 연구 (A Study on Efficient Image Processing and CAD-Vision System Interface)

  • 박진우;김기동
    • 대한산업공학회지
    • /
    • 제18권2호
    • /
    • pp.11-22
    • /
    • 1992
  • Up to now, most researches on production automation have concentrated on local automation, e. g. CAD, CAM, robotics, etc. However, to achieve total automation it is required to link each local modules such as CAD, CAM into a unified and integrated system. One such missing link is between CAD and computer vision system. This thesis is an attempt to link the gap between CAD and computer vision system. In this paper, we propose algorithms that carry out edge detection, thinning and pruning from the image data of manufactured parts, which are obtained from video camera and then transmitted to computer. We also propose a feature extraction and surface determination algorithm which extract informations from the image data. The informations are compatible to IGES CAD data. In addition, we suggest a methodology to reduce search efforts for CAD data bases. The methodology is based on graph submatching algorithm in GEFG(Generalized Edge Face Graph) representation for each part.

  • PDF

MPEG-7 기반 비디오/이미지 검색 시스템(VIRS) (MPEG-7 based Video/Image Retrieval System (VIRS))

  • 이재호;김형준;김회율
    • 정보처리학회논문지B
    • /
    • 제10B권5호
    • /
    • pp.543-552
    • /
    • 2003
  • 멀티미디어데이터의 급격한 양적 팽창은 원하는 데이터를 빠르고 정확하게 검색해야 한다는 새로운 과제를 안겨주었다. 이러한 효율적 검색을 위해서 가장 중요한 기반이 되는 것이 바로 데이터의 적절한 표현이다. 2001년 국제 표준으로 제정된 MPEG-7은 바로 이러한 이유로 멀티미디어 데이터의 표현에 대한 표준화를 다루고 있다. 그러나 MPEG-7의 내용은 표준의 특성상 포함하는 범위가 방대하고 실제 검색시스템을 구축하려는 이들에게 다루기 힘든 것이 사실이다. 이에 본 논문에서는 MPEG-7에 제시되어 있는 표준 중 비주얼 기술자들만을 이용하여 간단한 검색시스템을 구축하는 방법에 대하여 제시하고 그 검색 결과를 도시하였다. 또한 개발된 시스템인 MPEG-7 VIRS(Video/Image Retrieval System)의 검색 결과를 통하여 각 비주얼 기술자를 이용한 검색과 다중 기술자들의 조합을 이용한 검색간의 결과를 분석하였으며 앞으로 MPEG-7을 이용한 검색 시스템이 나아갈 방향에 대한 간단한 제시를 하고 있다.

ViStoryNet: 비디오 스토리 재현을 위한 연속 이벤트 임베딩 및 BiLSTM 기반 신경망 (ViStoryNet: Neural Networks with Successive Event Order Embedding and BiLSTMs for Video Story Regeneration)

  • 허민오;김경민;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.138-144
    • /
    • 2018
  • 본 고에서는 비디오로부터 coherent story를 학습하여 비디오 스토리를 재현할 수 있는 스토리 학습/재현 프레임워크를 제안한다. 이를 위해 연속 이벤트 순서를 감독학습 정보로 사용함으로써 각 에피소드들이 은닉 공간 상에서 궤적 형태를 가지도록 유도하여, 순서정보와 의미정보를 함께 다룰 수 있는 복합된 표현 공간을 구축하고자 한다. 이를 위해 유아용 비디오 시리즈를 학습데이터로 활용하였다. 이는 이야기 구성의 특성, 내러티브 순서, 복잡도 면에서 여러 장점이 있다. 여기에 연속 이벤트 임베딩을 반영한 인코더-디코더 구조를 구축하고, 은닉 공간 상의 시퀀스의 모델링에 양방향 LSTM을 학습시키되 여러 스텝의 서열 데이터 생성을 고려하였다. '뽀롱뽀롱 뽀로로' 시리즈 비디오로부터 추출된 약 200 개의 에피소드를 이용하여 실험결과를 보였다. 실험을 통해 에피소드들이 은닉공간에서 궤적 형태를 갖는 것과 일부 큐가 주어졌을 때 스토리를 재현하는 문제에 적용할 수 있음을 보였다.

이동 객체의 효과적 표현을 위한 시맨틱 어노테이션 방법 (A Semantic Annotation Method for Efficient Representation of Moving Objects)

  • 이진활;홍명덕;이기성;정진국;조근식
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권7호
    • /
    • pp.67-76
    • /
    • 2011
  • 최근 비디오가 대화형 콘텐츠를 위한 타입으로 많은 각광을 받기 시작하면서 비디오 데이터에 포함된 객체들을 의미적으로 표현하고 검색하기 위한 시맨틱 어노테이션 방법에 대한 연구가 활발히 진행되고 있다. 비디오 데이터에 포함된 객체들은 시간의 변화에 따라 공간적 위치가 변화하기 때문에 매 프레임마다 상이한 위치 데이터가 발생한다. 따라서 모든 프레임의 객체에 대한 위치 데이터들을 저장하는 것은 매우 비효율적이므로 이를 부적절한 오차가 발생하지 않는 범위 내에서, 효과적으로 압축하여 표현할 필요가 있다. 본 논문은 컴퓨터 또는 에이전트가 직관적으로 객체에 대한 정보를 이해할 수 있도록 표현하기 위해 비디오 데이터가 포함하는 객체에 대하여 의미적 정보를 부여하기 위한 온톨로지 모델링 방법과 이동 객체의 위치 데이터를 압축하기 위해 3차 스플라인 보간법을 적용하여 의미적 정보와 함께 어노테이션 하는 방법을 제안한다. 제안한 어노테이션 방법의 효율을 검증하기 위한 대화형 비디오 시스템을 구현하고, 다양한 특징을 가지는 객체가 나타나는 비디오 데이터 셋을 이용하여 샘플링 간격에 따른 오차율과 데이터량을 비교하였다. 그 결과, 샘플링 간격이 15프레임 이하 일 때, 최대 80%의 데이터 저장 공간을 절약할 수 있을 뿐만 아니라 객체의 실제 좌표 대비 최대 31픽셀, 평균 4픽셀 미만의 오차 편차를 얻을 수 있었다.

VVC의 화면 내 예측에서 적응적 TBC를 사용하는 방법 (Adaptive TBC in Intra Prediction on Versatile Video Coding)

  • 이원준;박광훈
    • 방송공학회논문지
    • /
    • 제25권1호
    • /
    • pp.109-112
    • /
    • 2020
  • VVC는 화면 내 예측에서 67가지의 모드를 사용한다. 이때 화면 내 예측 모드 표현을 위한 데이터를 감소시키기 위하여 MPM(Most Probable Mode)을 사용한다. 시그널링 되는 모드가 MPM 후보 내에 존재하는 경우 MPM 리스트의 해당 index를 송신하는 방법을 사용하고 MPM 후보 내에 존재하지 않는 경우에는 TBC 부호화를 적용한다. 화면 내 예측에서 TBC가 적용될 때 MPM 후보를 제외하고 낮은 번호의 모드 순서대로 3가지가 선택되어 5비트로 부호화되고 나머지 모드는 6비트로 부호화된다. 본 논문에서는 VVC의 화면 내 예측에서 사용하는 TBC 기술의 한계점을 알아보고 화면 내 예측에서 TBC를 사용할 때 기존의 방법보다 효율적으로 부호화 할 수 있는 적응적인 방법을 제안한다. 그 결과 기존의 부호화 방법과 비교해서 overall 부호화 성능이 AI와 RA에서 각각 0.01%, 0.04%의 부호화 효율이 증대되었다.

Adaptive Bayesian Object Tracking with Histograms of Dense Local Image Descriptors

  • Kim, Minyoung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제16권2호
    • /
    • pp.104-110
    • /
    • 2016
  • Dense local image descriptors like SIFT are fruitful for capturing salient information about image, shown to be successful in various image-related tasks when formed in bag-of-words representation (i.e., histograms). In this paper we consider to utilize these dense local descriptors in the object tracking problem. A notable aspect of our tracker is that instead of adopting a point estimate for the target model, we account for uncertainty in data noise and model incompleteness by maintaining a distribution over plausible candidate models within the Bayesian framework. The target model is also updated adaptively by the principled Bayesian posterior inference, which admits a closed form within our Dirichlet prior modeling. With empirical evaluations on some video datasets, the proposed method is shown to yield more accurate tracking than baseline histogram-based trackers with the same types of features, often being superior to the appearance-based (visual) trackers.

3-4세 유아의 애착 행동과 어머니에 대한 표상 간의 관계 (The Relationship Between Attachment Behaviors and Narrative Representations about Mothers by 3 and 4 year-old Children)

  • 신혜원;이영
    • 아동학회지
    • /
    • 제26권6호
    • /
    • pp.89-110
    • /
    • 2005
  • Subjects were 66 3- to 4-year-old-Children of unemployed mothers from upper middle class families. Attachment behaviors were measured with the Preschool Strange Situation(Cassidy and Marvin, 1992) and classified as secure, avoidant, dependent, or disorganized. Narrative representations of mothers by Children were obtained by video taped interviews using the MacArthur Story-Stem Battery and coded by the MacArthur Narrative Working Group(1997) system. Data were analyzed with descriptive statistics and t test. Results were that children in the secure group showed more positive representations of their mothers, more prosocial story themes, had higher scores in theme coherence and showed more positive emotional expression than those in the insecure group. The attachment behaviors of the 4 groups(A, B, C, D) were closely correlated with the attachment representations shown in MSSB.

  • PDF

비디오 데이터에서 움직임 객체의 모델링을 위한 시공간 표현 기법 (A Spatio-temporal Representation Scheme for Modeling Moving Objects in Video Data)

  • 심춘보;장재우
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권4호
    • /
    • pp.585-595
    • /
    • 2000
  • 비디오 데이터에서 움직임 객체에 대한 움직임 경로는 내용-기반 검색을 위해 비디오 데이터를 색인하는 데 있어 매우 중요한 역할을 한다. 따라서, 본 논문에서는 비디오 데이터에서 움직임 객체의 움직임 경로를 모델링하기 위한 새로운 시공간 표현 기법을 제안한다. 비디오 데이터를 위한 보다 효율적인 내용-기반 검색을 위해, 제안하는 기법은 시간, 공간 관계성과 더불어 일정 시간 간격 동안 움직인 객체의 이동 거리(moving distance)를 고려한다. 아울러, 제안하는 표현 기법에 기반하여 단일 움직임 객체의 움직임 경로와 다수 움직임 객체들의 움직임 경로를 위한 새로운 유사성 측정 알고리즘을 제시하며, 이들 알고리즘은 검색 결과에 대해서 유사성에 준하여 순위(Ranking)를 부여할 수 있다. 마지막으로, 성능 평가를 통하여 제안된 시공간 표현 기법은 기조의 Li 방법과 Shan의 방법에 비해 동등한 재현율을 유지하며, 정확율 측면에서 약 20%의 성능 향상을 보인다.

  • PDF