• 제목/요약/키워드: Video Classification

검색결과 356건 처리시간 0.034초

순차 데이터간의 유사도 표현에 의한 동영상 분류 (Video Classification System Based on Similarity Representation Among Sequential Data)

  • 이호석;양지훈
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권1호
    • /
    • pp.1-8
    • /
    • 2018
  • 동영상 데이터는 시간에 따른 정보는 물론이고, 많은 정보량과 함께 잡음도 포함하고 있기 때문에 이에 대한 간단한 표현을 학습하는 것은 쉽지 않다. 본 연구에서는 이와 같은 동영상 데이터를 추상적이면서 보다 간단하게 표현할 수 있는 순차 데이터간의 유사도 표현 방법과 딥러닝 학습방법을 제안한다. 이는 동영상을 구성하는 이미지 데이터 벡터들 사이의 유사도를 내적으로 표현할 때 그것들이 서로 최대한의 정보를 가질 수 있도록 하는 함수를 구하고 학습하는 것이다. 실제 데이터를 통하여 제안된 방법이 기존의 동영상 분류 방법들보다도 뛰어난 분류 성능을 보임을 확인하였다.

스포츠 장르 분석을 위한 스포츠 뉴스 비디오의 의미적 장면 분류 (Semantic Scenes Classification of Sports News Video for Sports Genre Analysis)

  • 송미영
    • 한국멀티미디어학회논문지
    • /
    • 제10권5호
    • /
    • pp.559-568
    • /
    • 2007
  • 앵커 장면 검출은 내용기반 뉴스 비디오 색인과 검색 시스템에서 비디오 장면의 의미적 파싱과 색인을 추출하는데 중요한 역할을 한다. 이 논문은 스포츠 뉴스의 단위 구조화를 위해서 뉴스 동영상에 존재하는 앵커 구간을 구분해내는 효율적인 알고리즘을 제안한다. 앵커 장면을 검출하기 위해서, 우선 MPEG4 압축 비디오에서 DCT 계수치와 모션 방향성 정보를 이용하여 앵커 후보 장면을 결정한다. 그리고 검출된 후보앵커 장면으로부터 영상처리 방법을 활용하여 뉴스 비디오를 앵커 장면과 비앵커(스포츠) 장면으로 분류한다. 제안된 방법은 앵커 장면 검출 실험에서 평균적으로 98%의 정확도와 재현율을 얻었다.

  • PDF

A Multi-category Task for Bitrate Interval Prediction with the Target Perceptual Quality

  • Yang, Zhenwei;Shen, Liquan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4476-4491
    • /
    • 2021
  • Video service providers tend to face user network problems in the process of transmitting video streams. They strive to provide user with superior video quality in a limited bitrate environment. It is necessary to accurately determine the target bitrate range of the video under different quality requirements. Recently, several schemes have been proposed to meet this requirement. However, they do not take the impact of visual influence into account. In this paper, we propose a new multi-category model to accurately predict the target bitrate range with target visual quality by machine learning. Firstly, a dataset is constructed to generate multi-category models by machine learning. The quality score ladders and the corresponding bitrate-interval categories are defined in the dataset. Secondly, several types of spatial-temporal features related to VMAF evaluation metrics and visual factors are extracted and processed statistically for classification. Finally, bitrate prediction models trained on the dataset by RandomForest classifier can be used to accurately predict the target bitrate of the input videos with target video quality. The classification prediction accuracy of the model reaches 0.705 and the encoded video which is compressed by the bitrate predicted by the model can achieve the target perceptual quality.

시청자의 후각정보 수용 특성에 따른 영상분류와 실감증대를 위한 제안 (Video Classification Based on Viewer Acceptability of Olfactory Information and Suggestion for Reality Improvement)

  • 이국희;최지훈;안충현;이형철;김신우
    • 감성과학
    • /
    • 제16권2호
    • /
    • pp.207-220
    • /
    • 2013
  • 영상실감증대를 위한 시각, 청각, 촉각정보의 제시방식에 대해서는 많은 진보가 이루어 졌다. 반면 후각은 정의하기 어렵고 다루기 까다롭기 때문에 관련연구를 찾아보기 어렵다. 본 연구에서는 후각정보를 통한 영상실감증대 연구의 첫걸음으로 후각정보에 대한 사용자 수용도를 조사한 후 이에 근거하여 다양한 영상을 분류하였다. 이를 위해 먼저 영상에 냄새가 존재하는지 (냄새존재여부), 그 냄새가 실감을 증대시키는지 (실감증대효과), 영상과 함께 해당 냄새를 경험하고 싶은지 (냄새제시선호)라는 세가지 질문을 선정하였다. 각 질문들에 높은 혹은 낮은 점수를 받을 만한 다양한 장르의 영상 (51)개를 수집한 후, 참가자들에게 하나씩 영상을 시청하게 한 후 위의 세가지 질문에 대해 7점 척도로 평정하게 하였다. 영상분류를 위해 두 질문씩 쌍으로 묶어 각 질문의 척도를 2차원 평면의 X, Y축으로 설정한 후 평정값을 이용하여 영상분류를 위한 산포도를 구성하였다. 2차원 평면의 서로 다른 사분면에 위치한 영상군집들은 영상실감증대를 위한 후각정보 제시에 중요한 시사점을 줄 것으로 기대한다.

  • PDF

압축비디오에서 인트라픽쳐 부분 복호화를 이용한 샷 움직임 분류 (Shot Motion Classification Using Partial Decoding of INTRA Picture in Compressed Video)

  • 김강욱;권성근
    • 한국멀티미디어학회논문지
    • /
    • 제14권7호
    • /
    • pp.858-865
    • /
    • 2011
  • 압축 상태에서 비디오 구조화 및 분류를 하기 위해서는 먼저 압축된 비디오에서 장면전환을 검출해서 비디오를 샷(shot)으로 분리하고 샷내 움직임 정보에 따라 샷을 특징화해야 한다. 장면전환을 검출하는 방법에는 DC 영상의 분산값 이나 복원영상의 에지 픽셀의 분포를 이용한 방법, P-픽쳐의 인트라 블록의 개수를 이용한 방법 등이 있으며 움직임에 따른 샷의 특징 분류는 움직임 벡터의 각 성분들의 평균값을 이용하는 것이 일반적인 방법이다. 그러나 움직임 벡터를 이용한 샷 움직임 분류 방법은 움직임 벡터 자체가 블록의 국부적(local) 움직임을 나타내는 것이므로 글로벌(global)한 카메라 동작을 예측하기 위해서는 많은 제약이 있다. 따라서 본 논문에서는 이러한 것을 보완하기 위해서 MPEG으로 압축된 비디오에서 인트라 프레임을 부분적으로 복호화 하고 빠른 1차원적인 연산을 통해 수평 및 수직 방향으로 평균 밝기 값의 변화 방향을 추정하여 좀더 정확히 샷내 카메라의 움직임을 분류하고자 한다.

안전지도와 연계한 지능형 영상보안 시스템 구현 (Implementation of Smart Video Surveillance System Based on Safety Map)

  • 박장식
    • 한국전자통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.169-174
    • /
    • 2018
  • 시민들의 안전을 위한 영상통합관제센터에는 수많은 CCTV 카메라가 연결되어 많은 채널의 영상을 소수의 관제사가 관제하는데 어려움이 있다. 본 논문에서는 많은 채널의 영상을 효과적으로 관제하기 위하여 안전지도와 연계한 지능형 영상보안 시스템을 제안한다. 안전지도는 범죄 발생 빈도를 데이터베이스로 구축하고, 범죄 발생 위험 정도를 표현하고, 범죄 취약 계층인 여성이 범죄 위험 지역으로 진입하면 영상통합관제센터의 관제사가 주목할 수 있도록 한다. 성별 구분을 보행자 검출 및 추적 그리고 딥러닝을 통하여 성별을 구분한다. 보행자 검출은 Adaboost 알고리즘을 이용하고, 보행자 추적을 위한 확률적 데이터 연관 필터(probablistic data association filter)를 적용한다. 보행자의 성별을 구분하기 위하여 비교적 간단한 AlexNet를 적용하여 성별을 판별한다. 실험을 통하여 제안하는 성별 구분 방법이 종래의 알고리즘에 비하여 성별 구분에 효과적임을 보인다. 또한 안전지도와 연계한 지능형 영상보안 시스템 구현 결과를 소개한다.

컨볼루션 신경망을 이용한 CCTV 영상 기반의 성별구분 (CCTV Based Gender Classification Using a Convolutional Neural Networks)

  • 강현곤;박장식;송종관;윤병우
    • 한국멀티미디어학회논문지
    • /
    • 제19권12호
    • /
    • pp.1943-1950
    • /
    • 2016
  • Recently, gender classification has attracted a great deal of attention in the field of video surveillance system. It can be useful in many applications such as detecting crimes for women and business intelligence. In this paper, we proposed a method which can detect pedestrians from CCTV video and classify the gender of the detected objects. So far, many algorithms have been proposed to classify people according the their gender. This paper presents a gender classification using convolutional neural network. The detection phase is performed by AdaBoost algorithm based on Haar-like features and LBP features. Classifier and detector is trained with data-sets generated form CCTV images. The experimental results of the proposed method is male matching rate of 89.9% and the results shows 90.7% of female videos. As results of simulations, it is shown that the proposed gender classification is better than conventional classification algorithm.

Frame Mix-Up for Long-Term Temporal Context in Video Action Recognition

  • LEE, Dongho;CHOI, Jinwoo
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1278-1281
    • /
    • 2022
  • 현재 Action classification model은 computational resources의 제약으로 인해 video전체의 frame으로 학습하지 못한다. Model에 따라 다르지만, 대부분의 경우 하나의 action을 학습시키기 위해 보통 많게는 32frame, 적게는 8frame으로 model을 학습시킨다. 본 논문에서는 이 한계를 극복하기 위해 하나의 video의 많은 frame들을 mix-up과정을 거쳐 한장의 frame에 여러장의 frame 정보를 담고자 한다. 이 과정에서 video의 시간에 따른 변화(temporal- dynamics)를 손상시키지 않기 위해 linear mix-up이라는 방법을 제안하고 그 성능을 증명하며, 여러장의 frame을 mix-up시켜 모델의 성능을 향상시키는 가능성에 대해 논하고자 한다.

  • PDF

차량 감시영상에서 그림자 제거를 통한 효율적인 차종의 학습 및 분류 (Efficient Learning and Classification for Vehicle Type using Moving Cast Shadow Elimination in Vehicle Surveillance Video)

  • 신욱선;이창훈
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.1-8
    • /
    • 2008
  • 일반적으로 감시영상에서 움직이는 물체들은 배경빼기 혹은 프레임 차를 이용하여 추출된다. 하지만 객체에 의해서 만들어지는 그림자는 심각한 탐지의 오류를 야기시킬 수 있다. 특히, 도로 상에 설치된 감시카메라로부터 획득된 영상으로부터 차량 정보를 분석할 때, 차량에 의해서 생성되는 그림자로 인하여 차량의 모양을 왜곡시켜 부정확한 결과를 만든다. 때문에 그림자의 제거는 감시 영상 내에서의 정확한 객체 추출을 위해서 반드시 필요하다. 본 논문은 도로감시영상 내에서 움직이는 차량의 차종판별 성능을 향상시키기 위한 움직이는 객체 내에 만들어지는 그림자를 제거한다. 제거된 객체의 영역은 소실점을 이용하여 3차원 객체로 피팅(Fitting)한 후 측정된 데이터를 감독 학습하여 원하는 차종 판별결과를 얻는데 사용한다. 실험은 3가지 기계학습 방법{IBL, C4.5, NN(Neural Network)}을 이용하여 그림자의 제거가 차종의 판별성능에 미치는 결과의 평가한다.

A Kidnapping Detection Using Human Pose Estimation in Intelligent Video Surveillance Systems

  • Park, Ju Hyun;Song, KwangHo;Kim, Yoo-Sung
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권8호
    • /
    • pp.9-16
    • /
    • 2018
  • In this paper, a kidnapping detection scheme in which human pose estimation is used to classify accurately between kidnapping cases and normal ones is proposed. To estimate human poses from input video, human's 10 joint information is extracted by OpenPose library. In addition to the features which are used in the previous study to represent the size change rates and the regularities of human activities, the human pose estimation features which are computed from the location of detected human's joints are used as the features to distinguish kidnapping situations from the normal accompanying ones. A frame-based kidnapping detection scheme is generated according to the selection of J48 decision tree model from the comparison of several representative classification models. When a video has more frames of kidnapping situation than the threshold ratio after two people meet in the video, the proposed scheme detects and notifies the occurrence of kidnapping event. To check the feasibility of the proposed scheme, the detection accuracy of our newly proposed scheme is compared with that of the previous scheme. According to the experiment results, the proposed scheme could detect kidnapping situations more 4.73% correctly than the previous scheme.