• Title/Summary/Keyword: Video Summarization

Search Result 60, Processing Time 0.031 seconds

Investigating the Efficient Method for Constructing Audio Surrogates of Digital Video Data (비디오의 오디오 정보 요약 기법에 관한 연구)

  • Kim, Hyun-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.26 no.3
    • /
    • pp.169-188
    • /
    • 2009
  • The study proposed the algorithm for automatically summarizing the audio information from a video and then conducted an experiment for the evaluation of the audio extraction that was constructed based on the proposed algorithm. The research results showed that first, the recall and precision rates of the proposed method for audio summarization were higher than those of the mechanical method by which audio extraction was constructed based on the sentence location. Second, the proposed method outperformed the mechanical method in summary making tasks, although in the gist recognition task(multiple choice), there is no statistically difference between the proposed and mechanical methods. In addition, the study conducted the participants' satisfaction survey regarding the use of audio extraction for video browsing and also discussed the practical implications of the proposed method in Internet and digital library environments.

Effective Hand Gesture Recognition by Key Frame Selection and 3D Neural Network

  • Hoang, Nguyen Ngoc;Lee, Guee-Sang;Kim, Soo-Hyung;Yang, Hyung-Jeong
    • Smart Media Journal
    • /
    • v.9 no.1
    • /
    • pp.23-29
    • /
    • 2020
  • This paper presents an approach for dynamic hand gesture recognition by using algorithm based on 3D Convolutional Neural Network (3D_CNN), which is later extended to 3D Residual Networks (3D_ResNet), and the neural network based key frame selection. Typically, 3D deep neural network is used to classify gestures from the input of image frames, randomly sampled from a video data. In this work, to improve the classification performance, we employ key frames which represent the overall video, as the input of the classification network. The key frames are extracted by SegNet instead of conventional clustering algorithms for video summarization (VSUMM) which require heavy computation. By using a deep neural network, key frame selection can be performed in a real-time system. Experiments are conducted using 3D convolutional kernels such as 3D_CNN, Inflated 3D_CNN (I3D) and 3D_ResNet for gesture classification. Our algorithm achieved up to 97.8% of classification accuracy on the Cambridge gesture dataset. The experimental results show that the proposed approach is efficient and outperforms existing methods.

Keyframe Extraction from Home Videos Using 5W and 1H Information (육하원칙 정보에 기반한 홈비디오 키프레임 추출)

  • Jang, Cheolhun;Cho, Sunghyun;Lee, Seungyong
    • Journal of the Korea Computer Graphics Society
    • /
    • v.19 no.2
    • /
    • pp.9-18
    • /
    • 2013
  • We propose a novel method to extract keyframes from home videos based on the 5W and 1H information. Keyframe extraction is a kind of video summarization which selects only specific frames containing important information of a video. As a home video may have content with a variety of topics, we cannot make specific assumptions for information extraction. In addition, to summarize a home video we must analyze human behaviors, because people are important subjects in home videos. In this paper, we extract 5W and 1H information by analyzing human faces, human behaviors, and the global information of background. Experimental results demonstrate that our technique extract more similar keyframes to human selections than previous methods.

A News Video Mining based on Multi-modal Approach and Text Mining (멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝)

  • Lee, Han-Sung;Im, Young-Hee;Yu, Jae-Hak;Oh, Seung-Geun;Park, Dai-Hee
    • Journal of KIISE:Databases
    • /
    • v.37 no.3
    • /
    • pp.127-136
    • /
    • 2010
  • With rapid growth of information and computer communication technologies, the numbers of digital documents including multimedia data have been recently exploded. In particular, news video database and news video mining have became the subject of extensive research, to develop effective and efficient tools for manipulation and analysis of news videos, because of their information richness. However, many research focus on browsing, retrieval and summarization of news videos. Up to date, it is a relatively early state to discover and to analyse the plentiful latent semantic knowledge from news videos. In this paper, we propose the news video mining system based on multi-modal approach and text mining, which uses the visual-textual information of news video clips and their scripts. The proposed system systematically constructs a taxonomy of news video stories in automatic manner with hierarchical clustering algorithm which is one of text mining methods. Then, it multilaterally analyzes the topics of news video stories by means of time-cluster trend graph, weighted cluster growth index, and network analysis. To clarify the validity of our approach, we analyzed the news videos on "The Second Summit of South and North Korea in 2007".

Online-Based Local Government Image Typology: A Case Study on Jakarta Provincial Government Official YouTube Videos

  • Pratama, Arif Budy
    • Journal of Contemporary Eastern Asia
    • /
    • v.16 no.1
    • /
    • pp.1-21
    • /
    • 2017
  • The Jakarta Provincial Government utilizes the YouTube channel to interact with citizens and enhance transparency. The purpose of this study is to explore online perceptions of local government image perceived by online audiences through the YouTube platform. The concepts of organizational image and credibility in the political image are adapted to analyze online public perceptions on the Jakarta Provincial Government image. Using the video summarization approach on Three hundred and forty-six official YouTube videos, which were uploaded from 1 March 2016 to 31 May 2016, and content analysis of Eight thousand two hundred and thirty-seven comments, this study shows both political and bureaucratic image emerge concurrently in the Jakarta Provincial Government case. The typology model is proposed to describe and explain the four image variations that occurred in the case study. Practical recommendations are suggested to manage YouTube channel as one of the social media used in the local government context.

Soccer Video Highlight Summarization for Intelligent PVR (지능형 PVR을 위한 축구 동영상 하이라이트 요약)

  • Kim, Hyoung-Gook;Shin, Dong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2009.11a
    • /
    • pp.209-212
    • /
    • 2009
  • 본 논문에서는 MDCT기반의 오디오 특징과 영상 특징을 이용하여 축구 동영상의 하이라이트를 효과적으로 요약하는 방식을 제안한다. 제안하는 방식에서는 입력되는 축구 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 분리된 연속적인 오디오 신호를 압축영역의 MDCT계수를 통해 이벤트 사운드별로 분류하여 오디오 이벤트 후보구간을 추출한다. 입력된 비디오 신호에서는 장면 전환점을 추출하고 추출된 장면 전환점으로부터 페널티 영역을 검출한다. 검출된 오디오 이벤트 후보구간과 검출된 페널티 영역장면을 함께 결합하여 축구 동영상의 이벤트 장면을 검출한다. 검출된 페널티 영역 장면을 통해 검출된 이벤트 구간을 다른 이벤트 구간보다 더 높은 우선순위를 갖는 하이라이트로 선정하여 요약본이 생성된다. 생성된 하이라이트 요약본의 평가는 precision과 recall을 통해 정확도를 평가하였다.

  • PDF

Object-based video summarization in a wide-area surveillance system (광범위한 지역 감시시스템에서의 물체기반 비디오 요약)

  • Kwon, HyeYoung;Lee, Kyoung-Mi
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.544-548
    • /
    • 2006
  • 본 논문에서는 광범위한 지역을 감시하기 위해 설치된 여러 대의 카메라로부터 획득된 비디오에 대해 물체를 기반으로 한 비디오 요약 시스템을 제안한다. 제안된 시스템은 시야가 겹쳐지지 않은 다수의 CCTV 카메라를 통해서 촬영한 비디오들을 30분 단위로 나누어 비디오 데이터베이스를 구축하고 시간별, 카메라별 비디오 검색이 가능하다. 비디오에서 물체기반 키프레임을 추출하여 카메라별, 사람별로 비디오를 요약할 수 있도록 하였다. 또한 임계치에 따라 키프레임 검색정도를 조절함으로써 비디오 요약정도를 조절할 수 있다. 이렇게 검색된 키프레임에 대한 카메라별, 시간별 통계를 통해서 감시지역의 물체기반 이벤트를 간단히 확인해 볼 수 있다.

  • PDF

Video Summarization Using Activity Descriptor In Compressed Domain (압축공간에서 활동도 기술자를 이용한 비디오 요약)

  • Yoon, Jin-Sun;Kim, Gye-Young;Choi, Hyung-Il
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.7-10
    • /
    • 2002
  • 본 논문에서는 MPEG-7의 활동도 기술자를 이용한 비디오 기술을 제안한다. 제안한 방법은 압축상태의 비디오 자료에서 직접 움직임 벡터들을 추출, 각 프레임들의 활동도의 강도를 계산하고 프레임의 흐름에 따라 계산된 활동도의 변화량에 대해 퓨리에 변환을 적용하여 얻어진 주파수 성분을 분석하여 활동도의 시간적 분포도를 계산한다. 계산된 강도 및 분포도는 MPEG-7의 표준에 따르기 위해 양자화하여 비디오 요약에 이용한다.

  • PDF

Content-Based Summarization of Educational Linguistic Video Using Multiple Features (다중 특징 값을 이용한 교육용 어학 비디오의 내용기반 요약)

  • Han Hee Jun;Kim Cheon Seog;Choo Jin Ho;Ro Yong Man
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2003.11a
    • /
    • pp.3-6
    • /
    • 2003
  • 방송 서비스상의 교육용 어학 컨텐츠의 증가와 더불어 비디오 컨텐츠의 효율적인 제공, 이용 및 관리를 위한 내용 기반 요약에 대한 연구가 필요하다. 본 논문에서는 교육용 어학 비디오의 내용 기반 요약을 위한 방법을 제안한다. 디지털 비디오로부터 샷 경계를 추출한 후 각 샷을 대표하는 키프레임으로부터 MPEG-7 비주얼 특징 값들을 추출한다. 추출된 특징 값들의 다중 조합을 통해 교육용 어학 비디오의 내용 정보를 세분화하여 요약 결과를 생성한다. 외국어 회화 컨텐츠에 대해 실험하여 알고리즘의 효용성을 검증하였으며. 제안한 방법은 교육용 방송 컨텐츠의 다양한 서비스 제공 및 관리론 위한 비디오 요약 시스템에 효율적으로 이용될 것이다.

  • PDF

Video Summarization with ChatGPT (ChatGPT 를 활용한 영상 요약 모델에 관한 연구)

  • Wonho Lee;Jungyu Kang;Nayoung Seong;Suhyeon Cho ;Youngjong Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.694-695
    • /
    • 2023
  • 최근 ChatGPT 를 각 분야에 활용하는 연구가 활발하게 이루어지고 있다. ChatGPT 는 최신 자연어 처리 모델로, 텍스트를 통해 입출력을 진행한다. 본 논문에서는 이러한 ChatGPT 를 활용하여 영상을 효과적으로 요약할 수 있는 새로운 접근 방식을 제시한다. STT 기술을 사용하여 영상의 자막에 대한 텍스트 파일을 추출하고 이를 ChatGPT 로 요약한다. 최종적으로 기존 텍스트와의 유사도 분석을 통해 유사도가 높은 부분을 선택하여 영상을 편집하고 요약한다.