• Title/Summary/Keyword: 비디오 정보 추출

Search Result 515, Processing Time 0.025 seconds

Structural similarity based efficient keyframes extraction from multi-view videos (구조적인 유사성에 기반한 다중 뷰 비디오의 효율적인 키프레임 추출)

  • Hussain, Tanveer;Khan, Salman;Muhammad, Khan;Lee, Mi Young;Baik, Sung Wook
    • The Journal of Korean Institute of Next Generation Computing
    • /
    • v.14 no.6
    • /
    • pp.7-14
    • /
    • 2018
  • Salient information extraction from multi-view videos is a very challenging area because of inter-view, intra-view correlations, and computational complexity. There are several techniques developed for keyframes extraction from multi-view videos with very high computational complexities. In this paper, we present a keyframes extraction approach from multi-view videos using entropy and complexity information present inside frame. In first step, we extract representative shots of the whole video from each view based on structural similarity index measurement (SSIM) difference value between frames. In second step, entropy and complexity scores for all frames of shots in different views are computed. Finally, the frames with highest entropy and complexity scores are considered as keyframes. The proposed system is subjectively evaluated on available office benchmark dataset and the results are convenient in terms of accuracy and time complexity.

Electrooculogram-based Scene Transition Detection for Interactive Video Retrieval (인터랙티브 비디오 검색을 위한 EOG 기반 장면 전환 검출)

  • Lee, Chung-Yeon;Lee, Beom-Jin;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.408-410
    • /
    • 2012
  • 기존의 비디오 검색 방법들은 관련 주석이나 영상 정보에 기반하며 사용자의 반응과 관련하여서는 많은 정보를 활용하고 있지 않다. 비디오 시청시 사용자의 뇌신호나 시선추적 정보 등의 인지적 반응을 이용하여 연속적인 비디오 스트림의 각 부분에 대하여 사용자들이 나타내는 관심이나 감성 정보를 추출한다면 보다 인터랙티브한 비디오 데이터 검색 및 추천이 가능하다. 본 논문에서는 비디오를 시청하는 사용자의 안구전도(electrooculogram)를 기록한 후, 장면 전환이 발생한 부분에서의 사건관련전위 분석을 통해 해당 부분에서 나타나는 특징적 반응을 찾고 이에 대한 인지적 해석을 도출했다. 실험 결과 장면 전환 이후200~700ms 부분에서 P300 성분과 유사한 피크가 발생하는 것을 확인하였으며, 이러한 결과는 장면 전환에 따른 피험자의 비디오 내용 인지에 대한 의도 불일치 및 주의력 증가로 해석된다.

Design and Implementation of a Clip-Based Video Retrieval System (클립 기반 비디오 검색 시스템 설계 및 구현)

  • 이중영;전형수;이윤채;유철중;장옥배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.436-438
    • /
    • 2001
  • 최근 인터넷을 이용한 분산처리와 멀티미디어에 대한 연구가 활성화됨에 따라 비디오 컨텐츠는 원활한 제공과 편리한 검색방법이 요구되고 있다. 기존의 비디오 검색 시스템은 사용자가 원하는 비디오 컨텐츠를 찾는데 많은 시간이 소요되는 문제점을 안고 있다. 이러한 문제점을 해결하기 위하여 본 논문에서는 실시간으로 웹 서비스를 지원하는 클립 기반 비디오 검색 시스템을 설계 및 구현한다. VCRS(Video Clip Retrieval System)는 비디오 분할에 의한 대표 프레임 추출과 연관된 정보의 클러스터링에 의한 클립 파일생성 및 클립단위의 비디오 데이터베이스 구축 방법으로 비디오 컨텐츠 제공자의 원활한 서비스를 지원하는 내용기반 인덱싱 시스템과 사용자의 다양한 검색을 지원하는 웹 기반 검색 시스템으로 구성된다. 결론적으로 본 논문에서 제안한 시스템은 비디오 컨텐츠를 제공하는데 있어서 유용성을 보이며, 웹 기반에서 범용 데이터베이스를 이용하여 비디오 내용을 검색할 수 있도록 하였다.

Study on Performance Analysis of Video Retrieval Using Temporal Texture (Temporal texture를 이용한 비디오 검색의 성능분석)

  • 홍지수;김영복;김도년;조동섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.443-445
    • /
    • 2000
  • 모든 물체의 표면은 독특한 성질을 보유하고 있으므로, 비디오 검색에 있어 텍스처는 형상이나 색과 더불어 중요한 변수로 사용될 수 있다. 비디오 검색에 있어서 중요한 것은 어떤 영상의 특징을 올바르게 추출하고 잘 분류하여 표현하는 것이다. Temporal texture는 무한한 시공간적 범위의 복잡하고, 추상적인 움직임 패턴도 특징화시킬 수 있으므로, temporal texture 패턴을 얼마나 잘 이용할 수 있느냐는 비디오 검색의 성능에 많은 영향을 끼칠 수 있다. 본 논문은 temporal texture의 서로 다른 특징을 가진 세 가지의 모델을 선정하여 비교한다. 특히, 특징 추출의 분류가 정확하게 이루어지느냐에 초점을 맞추어서 분석하였다. 분류의 성능은 두 가지 변수 즉, 어떤 성질의 모델이며 비디오 데이터인가에 따라 달라지게 된다. 이들 모델링이 분류하기까지 걸리는 시간의 차이는 무시할 수 있을 정도의 시간차이므로 정확도를 위주로 성능을 분석했다.

  • PDF

Video Caption Extraction and Image Enhancement (비디오 자막 추출 및 이미지 향상에 관한 연구)

  • 김소명;최영우;정규식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.359-361
    • /
    • 2000
  • 본 논문에서는 비디오 자막 이미지를 인식하기 위해 필요한 영상 향상의 단계로서 다중 결합을 적용한다. 또한 다중 결합을 위한 동일한 자막의 판단 및 결합된 결과를 재평가하기 위한 방법을 제안한다. 입력된 칼라 이미지로부터 RLS(Run Length Smearing)가 적용된 에지 이미지를 얻고, 수직 및 수평 히스토그램 분포를 이용하여 자막과 자막 영역에 대한 정보를 추출한다. 프레임 내의 자막 영역의 중첩 정도를 이용하여 동일 자막을 판단하고, 동일한 자막을 갖는 프레임들끼리 다중 결합을 수행함으로써 향상된 이미지를 얻는다. 끝으로 결합된 영상에 대한 평가를 수행하여 잘못 결합된 이미지들로 인한 오류를 해결하고 재평가한다. 제안한 방법을 통해, 배경 부분의 잡영이 완화된 자막 이미지를 추출하여 인식의 정확성과 신뢰성을 높일 수 있었다. 또한 동일한 자막의 시작 프레임과 끝 프레임의 위치 파악은 디지털 비디오의 색인 및 검색에 효과적으로 이용될 수 있을 것이다.

  • PDF

Parameter-Efficient Multi-Modal Highlight Detection via Prompting (Prompting 기반 매개변수 효율적인 멀티 모달 영상 하이라이트 검출 연구)

  • DongHoon Han;Seong-Uk Nam;Eunhwan Park;Nojun Kwak
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.372-376
    • /
    • 2023
  • 본 연구에서는 비디오 하이라이트 검출 및 장면 추출을 위한 경량화된 모델인 Visual Context Learner (VCL)을 제안한다. 기존 연구에서는 매개변수가 고정된 CLIP을 비롯한 여러 피쳐 추출기에 학습 가능한 DETR과 같은 트랜스포머를 이어붙여서 학습을 한다. 하지만 본 연구는 경량화된 구조로 하이라이트 검출 성능을 개선시킬 수 있음을 보인다. 그리고 해당 형태로 장면 추출도 가능함을 보이며 장면 추출의 추가 연구 가능성을 시사한다. VCL은 매개변수가 고정된 CLIP에 학습가능한 프롬프트와 MLP로 하이라이트 검출과 장면 추출을 진행한다. 총 2,141개의 학습가능한 매개변수를 사용하여 하이라이트 검출의 HIT@1(>=Very Good) 성능을 기존 CLIP보다 2.71% 개선된 성능과 최소한의 장면 추출 성능을 보인다.

  • PDF

The Design and Implementation of A Video Geographic Information System (비디오 지리 정보 시스템의 설계 및 구현)

  • 유재준;주인학;남광우;이종훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.274-276
    • /
    • 2002
  • 최근에 지리 정보를 검색, 관리, 분석할 수 있는 지리 정보 시스템(Geographic information System)의 사용이 확대됨에 따라 단순한 수치지도 정보 이외에 좀 더 현실적이고. 사실적인 정보를 제공해 줄 수 있는 시스템에 대한 요구가 커지고 있다 이러한 요구에 부응하는 한 방향으로써 차량에 부착된 카메라 등등 사용하여 획득한 비디오 데이터와 수치지도 정보를 연계하여 특정 수치지도 객체의 영상을 제공함으로써 수치지도 객체에 대한 자세한 현장의 정보를 쉽게 파악할 수 있도록 하는 비디오 지리 정보 시스템이 등장하였다. 하지만 기존의 비디오 지리 정보 시스템은 획득한 비디오 데이터를 수치지도의 한 속성으로서 표현하거나, 수치지도에서 비디오 데이터로의 단순한 링크를 사용하여 수치지도와 연계함으로써 수치지도의 검색을 통한 영상 정보의 출력이라는 단방향 검색만을 지원한다. 즉, 비디오 데이터에 존재하는 수치지도 객체의 검색을 통한 수치지도의 검색 및 관리, 분석은 지원해 주지 못하고 있다. 본 논문에서는 비디오 데이터와 수치지도의 양방향 검색 및 관리를 지원하는 비디오 지리 정보 시스템을 설계하고 구현한다. 이를 위해 1) 비디오 데이터와 수치지도 정보를 효율적으로 연계하기 위한 데이터 모델을 제안하고, 2) 비디오 데이터와 수치지도 정보의 연계 정보를 추출 및 구축하는 과정을 제안하며, 3) 비디오 데이터의 출력 및 검색, 수치지도의 출력 및 검색, 연계 정보를 통한 비디오 데이터와 수치지도 정보의 연동 등을 효율적으로 지원하기 위한 시스템을 컴포넌트(Component) 구조를 사용하여 설계한다. 이해성 및 이를 기반으로 하는 교육용 애플리케이션 개발의 용이성의 증대를 기대할 수 있으며, 모델의 재사용성을 보장할 수 있다. 제안한다.수행하였다. 분석에서는 제품의 효율성뿐만 아니라 보안성을 중요하게 생각하였으며, 앞으로 보안 관련 소프트웨어 개발에 사용될 수 있는 도구들이 가이드 라인에 대한 정보를 제공한다.용할 수 있는지 세부 설계를 제시한다.다.으로서 hemicellulose구조가 polyuronic acid의 형태인 것으로 사료된다. 추출획분의 구성단당은 여러 곡물연구의 보고와 유사하게 glucose, arabinose, xylose 함량이 대체로 높게 나타났다. 점미가 수가용성분에서 goucose대비 용출함량이 고르게 나타나는 경향을 보였고 흑미는 알칼리가용분에서 glucose가 상당량(0.68%) 포함되고 있음을 보여주었고 arabinose(0.68%), xylose(0.05%)도 다른 종류에 비해서 다량 함유한 것으로 나타났다. 흑미는 총식이섬유 함량이 높고 pectic substances, hemicellulose, uronic acid 함량이 높아서 콜레스테롤 저하 등의 효과가 기대되며 고섬유식품으로서 조리 특성 연구가 필요한 것으로 사료된다.리하였다. 얻어진 소견(所見)은 다음과 같았다. 1. 모년령(母年齡), 임신회수(姙娠回數), 임신기간(姙娠其間), 출산시체중등(出産時體重等)의 제요인(諸要因)은 주산기사망(周産基死亡)에 대(對)하여 통계적(統計的)으로 유의(有意)한 영향을 미치고 있어 $25{\sim}29$세(歲)의 연령군에서, 2번째 임신과 2번째의 출산에서 그리고 만삭의

  • PDF

Implementation of Web Based Video Learning Evaluation System Using User Profiles (사용자 프로파일을 이용한 웹 기반 비디오 학습 평가 시스템의 구현)

  • Shin Seong-Yoon;Kang Il-Ko;Lee Yang-Won
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.6 s.38
    • /
    • pp.137-152
    • /
    • 2005
  • In this Paper, we Propose an efficient web-based video learning evaluation system that is tailored to individual student's characteristics through the use of user profile-based information filtering. As a means of giving video-based questions, keyframes are extracted based on the location, size, and color information, and question-making intervals are extracted by means of differences in gray-level histograms as well as time windows. In addition, through a combination of the category-based system and the keyword-based system, questions for examination are given in order to ensure efficient evaluation. Therefore, students can enhance school achievement by making up for weak areas while continuing to identify their areas of interest.

  • PDF

Detection of Video Scene Boundaries based on the Local and Global Context Information (지역 컨텍스트 및 전역 컨텍스트 정보를 이용한 비디오 장면 경계 검출)

  • 강행봉
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.8 no.6
    • /
    • pp.778-786
    • /
    • 2002
  • Scene boundary detection is important in the understanding of semantic structure from video data. However, it is more difficult than shot change detection because scene boundary detection needs to understand semantics in video data well. In this paper, we propose a new approach to scene segmentation using contextual information in video data. The contextual information is divided into two categories: local and global contextual information. The local contextual information refers to the foreground regions' information, background and shot activity. The global contextual information refers to the video shot's environment or its relationship with other video shots. Coherence, interaction and the tempo of video shots are computed as global contextual information. Using the proposed contextual information, we detect scene boundaries. Our proposed approach consists of three consecutive steps: linking, verification, and adjusting. We experimented the proposed approach using TV dramas and movies. The detection accuracy of correct scene boundaries is over than 80%.

Methods for Video Caption Extraction and Extracted Caption Image Enhancement (영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법)

  • Kim, So-Myung;Kwak, Sang-Shin;Choi, Yeong-Woo;Chung, Kyu-Sik
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.4
    • /
    • pp.235-247
    • /
    • 2002
  • For an efficient indexing and retrieval of digital video data, research on video caption extraction and recognition is required. This paper proposes methods for extracting artificial captions from video data and enhancing their image quality for an accurate Hangul and English character recognition. In the proposed methods, we first find locations of beginning and ending frames of the same caption contents and combine those multiple frames in each group by logical operation to remove background noises. During this process an evaluation is performed for detecting the integrated results with different caption images. After the multiple video frames are integrated, four different image enhancement techniques are applied to the image: resolution enhancement, contrast enhancement, stroke-based binarization, and morphological smoothing operations. By applying these operations to the video frames we can even improve the image quality of phonemes with complex strokes. Finding the beginning and ending locations of the frames with the same caption contents can be effectively used for the digital video indexing and browsing. We have tested the proposed methods with the video caption images containing both Hangul and English characters from cinema, and obtained the improved results of the character recognition.