• 제목/요약/키워드: Video Features

검색결과 688건 처리시간 0.024초

Classification of TV Program Scenes Based on Audio Information

  • Lee, Kang-Kyu;Yoon, Won-Jung;Park, Kyu-Sik
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권3E호
    • /
    • pp.91-97
    • /
    • 2004
  • In this paper, we propose a classification system of TV program scenes based on audio information. The system classifies the video scene into six categories of commercials, basketball games, football games, news reports, weather forecasts and music videos. Two type of audio feature set are extracted from each audio frame-timbral features and coefficient domain features which result in 58-dimensional feature vector. In order to reduce the computational complexity of the system, 58-dimensional feature set is further optimized to yield l0-dimensional features through Sequential Forward Selection (SFS) method. This down-sized feature set is finally used to train and classify the given TV program scenes using κ -NN, Gaussian pattern matching algorithm. The classification result of 91.6% reported here shows the promising performance of the video scene classification based on the audio information. Finally, the system stability problem corresponding to different query length is investigated.

A Novel Video Image Text Detection Method

  • Zhou, Lin;Ping, Xijian;Gao, Haolin;Xu, Sen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권3호
    • /
    • pp.941-953
    • /
    • 2012
  • A novel and universal method of video image text detection is proposed. A coarse-to-fine text detection method is implemented. Firstly, the spectral clustering (SC) method is adopted to coarsely detect text regions based on the stationary wavelet transform (SWT). In order to make full use of the information, multi-parameters kernel function which combining the features similarity information and spatial adjacency information is employed in the SC method. Secondly, 28 dimension classifying features are proposed and support vector machine (SVM) is implemented to classify text regions with non-text regions. Experimental results on video images show the encouraging performance of the proposed algorithm and classifying features.

A Novel Video Image Text Detection Method

  • Zhou, Lin;Ping, Xijian;Gao, Haolin;Xu, Sen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권4호
    • /
    • pp.1140-1152
    • /
    • 2012
  • A novel and universal method of video image text detection is proposed. A coarse-to-fine text detection method is implemented. Firstly, the spectral clustering (SC) method is adopted to coarsely detect text regions based on the stationary wavelet transform (SWT). In order to make full use of the information, multi-parameters kernel function which combining the features similarity information and spatial adjacency information is employed in the SC method. Secondly, 28 dimension classifying features are proposed and support vector machine (SVM) is implemented to classify text regions with non-text regions. Experimental results on video images show the encouraging performance of the proposed algorithm and classifying features.

3-D 블록분할을 이용하는 웨이브렛 기반 임베디드 비디오 부호화 (Wavelet based Embedded Video Coding with 3-D Block Partition)

  • 양창모;임태범;이석필
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.133-136
    • /
    • 2003
  • In this paper, we propose a low bit-rate embedded video coding scheme with 3-D block partition in the wavelet domain. The proposed video coding scheme includes multi-level three dimensional dyadic wavelet decomposition, raster scanning within each subband, partitioning of blocks, and adaptive arithmetic entropy coding. Although the proposed video coding scheme is quite simple, it produces bit-streams with good features, including SNR scalability from the embedded nature. Experimental results demonstrate that the proposed video coding scheme is quite competitive to other good wavelet-based video coders in the literature.

  • PDF

다중 비주얼 특징을 이용한 어학 교육 비디오의 자동 요약 방법 (Automatic Summary Method of Linguistic Educational Video Using Multiple Visual Features)

  • 한희준;김천석;추진호;노용만
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1452-1463
    • /
    • 2004
  • 양방향 방송 서비스로의 전환을 맞아 다양한 사용자 요구 및 기호에 적합한 컨텐츠를 제공하고, 증가하는 방송 컨텐츠를 효율적으로 관리, 이용하기 위해 비디오의 자동 에 대한 요구가 증가하고 있다. 본 논문에서는 내용 구성이 잘 갖추어진 어학 교육 비디오의 자동 에 대한 방법을 제안한다. 내용 기반을 자동으로 생성하기 위해 먼저 디지털 비디오로부터 샷 경계를 검출한 후, 각 샷을 대표하는 키프레임으로부터 비주얼 특징들을 추출한다. 그리고 추출된 다중 비주얼 특징을 이용해 어학 교육 비디오의 세분화된 내용 정보를 결정한다. 마지막으로, 결정된 내용 정보를 기술하는 요약문을 MPEG-7 MDS(Multimedia Description cheme)에 정의된 계층적 (Hierarchical Summary) 구조에 맞추어 XML 문서로 생성한다. 외국어 회화 비디오에 대해 실험하여 제안한 자동 방법의 효율성을 검증하였으며, 제안한 방법이 교육 방송용 컨텐츠의 다양한 서비스 제공 및 관리를 위한 비디오 요약 시스템에 효율적으로 적용 가능함을 확인하였다.

  • PDF

칼라 및 모션 특징 기반 비디오 씬 분할 기법 (Video Scene Segmentation Technique based on Color and Motion Features)

  • 송창준;고한석;권용무
    • 방송공학회논문지
    • /
    • 제5권1호
    • /
    • pp.102-112
    • /
    • 2000
  • 기존의 비디오 구조화 기법은 주로 샷 또는 샷 그룹 레벨에서 이루어져 왔다. 그러나 이러한 샷 레벨 구조는 사용자에게 의미(semantics)를 충분히 전달할 수 없는 단점이 있다. 이런 단점을 극복하기 위해, 최근 샷 보다 상위 레벨 구조인 비디오 씬 분할에 관한 연구가 진행되고 있다. 본 논문에서는 이러한 샷 레벨 구조의 단점을 극복하기 위해서 칼라와 모션 특징을 기반으로 한 비디오 씬 분할 기법을 제안한다. 샷 내의 다양한 칼라 분포를 반영하기 위해서 각 샷을 sub-shot으로 재분할하고, 이를 이용해 대표 프레임을 추출한다. 샷 내의 모션 특징은 MPEG-1 비디오 내의 모션 벡터를 이용한다. 유사한 컨텐트를 가지고 있는 샷을 찾기 위해서 탐색 구간내의 모션 특성을 반영한 적응적 가중치를 칼라와 모션 특징에 적용한다. 실험 결과 비교를 통해 씬의 과다 분할이나 의미 반영 면에서 기존의 씬 분할 기법보다 우수함을 보였다. 제안된 기법은 비디오를 의미 있는 계층 구조로 분할해서, 사용자에게 의미를 반영하는 씬 단위로의 브라우징이나 검색을 가능케 한다.

  • PDF

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

자막 정보를 이용한 축구 비디오 하이라이트 생성 (Creation of Soccer Video Highlights Using Caption Information)

  • 신성윤;강일고;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-76
    • /
    • 2005
  • 디지털 비디오는 대용량의 저장 공간을 필요로 하는 매우 긴 데이터이다. 따라서 비디오 시청자들은 원래의 긴 비디오를 시청하기 전에 요약된 버전을 시청하기를 원한다. 특히, 스포츠 분야에서 하이라이트 비디오는 자주 시청된다. 다시 말해서, 하이라이트 비디오는 비디오 시청자에게 그 비디오를 시청할 가치가 있는지를 결정하게 한다. 본 논문에서는 시간과 공간 형태로 된 자막의 구조적 특징을 이용하여 축구 비디오 하이라이트를 생성한다. 이와 같은 구조적 특징들은 자막 프레임 구간과 자막 키 프레임을 추출하는데 사용된다. 하이라이트 비디오는 자막 키 프레임의 장면 재설정, 논리적 색인화, 그리고 하이라이트 생성 규칙에 의하여 생성된다. 마지막으로, 하이라이트 비디오와 비디오 세그먼트들은 비디오 시청자가 브라우저를 통하여 원하는 항목을 선택함으로서 검색되고 브라우징 될 수 있다

  • PDF

대규모 비디오 감시 환경에서 프라이버시 보호를 위한 다중 레벨 특징 기반 얼굴검출 방법에 관한 연구 (Face Detection Using Multi-level Features for Privacy Protection in Large-scale Surveillance Video)

  • 이승호;문정익;김형일;노용만
    • 한국멀티미디어학회논문지
    • /
    • 제18권11호
    • /
    • pp.1268-1280
    • /
    • 2015
  • In video surveillance system, the exposure of a person's face is a serious threat to personal privacy. To protect the personal privacy in large amount of videos, an automatic face detection method is required to locate and mask the person's face. However, in real-world surveillance videos, the effectiveness of existing face detection methods could deteriorate due to large variations in facial appearance (e.g., facial pose, illumination etc.) or degraded face (e.g., occluded face, low-resolution face etc.). This paper proposes a new face detection method based on multi-level facial features. In a video frame, different kinds of spatial features are independently extracted, and analyzed, which could complement each other in the aforementioned challenges. Temporal domain analysis is also exploited to consolidate the proposed method. Experimental results show that, compared to competing methods, the proposed method is able to achieve very high recall rates while maintaining acceptable precision rates.

색상과 움직임 정보를 이용한 내용기반 동영상 검색 시스템 (Content-Based Video Retrieval System Using Color and Motion Features)

  • 김소희;김형준;정연구;김회율
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(3)
    • /
    • pp.133-136
    • /
    • 2001
  • Numerous challenges have been made to retrieve video using the contents. Recently MPEG-7 had set up a set of visual descriptors for such purpose of searching and retrieving multimedia data. Among them, color and motion descriptors are employed to develop a content-based video retrieval system to search for videos that have similar characteristics in terms of color and motion features of the video sequence. In this paper, the performance of the proposed system is analyzed and evaluated. Experimental results indicate that the processing time required for a retrieval using MPEG-7 descriptors is relatively short at the expense of the retrieval accuracy.

  • PDF