• Title/Summary/Keyword: 비디오 분류

Search Result 275, Processing Time 0.022 seconds

Video genre classification using Multimodal features (멀티모달 특징을 이용한 비디오 장르 분류)

  • Jin Sung Ho;Bea Tea Meon;Choo Jin Ho;Ro Yong Man;Kang Kyeongok
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2003.11a
    • /
    • pp.219-222
    • /
    • 2003
  • 본 논문에서는 멀티모달(multimodal) 특징을 이용한 비디오 장르 식별 방법을 제안한다. 비디오 장르 식별 기술은 방대한 양의 방송 컨텐츠를 보다 효율적으로 분류할 뿐 아니라 자동적인 비디오 요약을 위한 전처리 과정으로 활용될 수 있는 기술이다. 따라서, 그 필요성 및 중요성이 부각되고 있다. 본 논문에서 제안하고 있는 방법은 MPEG-7의 오디오 및 비주얼 서술자들을 적용하여 멀티모달 특징을 추출하고 여러 가지 방송 비디오 장르(genre)들로 구성된 데이터베이스에서 장르 분류를 위해 설계된 인식기(classifier)를 통한 성능을 평가한다.

  • PDF

Video Based Human Motion Detection (비디오기반 사람의 모션 검출)

  • Lee, Chang-Soo;Park, Yeon-Chool;Park, Sae-Joon;Oh, Hae-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.879-883
    • /
    • 2000
  • 비디오 기반 사람의 모션 캡쳐에 관한 연구는 최근 몇 년 동안 컴퓨터 비전분야에서 폭넓은 연구가 진행되어지고 있다. 본 논문은 비디오 기반으로 사람의 모션을 전체 프레임이 진행되는 동안 프레임 별로 디스플레이 한다. 첫 프레임에서 비디오 세그멘테이션 과정에서 샷을 검출하고 이를 이용하여 객체를 분류한다. 분류된 객체에서 사람의 영역을 추출한다. 추출된 영역은 다음 프레임의 위치를 예측하게 된다.

  • PDF

Character-Based Video Summarization Using Speaker Identification (화자 인식을 통한 등장인물 기반의 비디오 요약)

  • Lee Soon-Tak;Kim Jong-Sung;Kang Chan-Mi;Baek Joong-Hwan
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.6 no.4
    • /
    • pp.163-168
    • /
    • 2005
  • In this paper, we propose a character-based summarization algorithm using speaker identification method from the dialog in video. First, we extract the dialog of shots containing characters' face and then, classify the scene according to actor/actress by performing speaker identification. The classifier is based on the GMM(Gaussian Mixture Model) using the 24 values of MFCC(Mel Frequency Cepstrum Coefficient). GMM is trained to recognize one actor/actress among four who are all trained by GMM. Our experiment result shows that GMM classifier obtains the error rate of 0.138 from our video data.

  • PDF

Segmentation and Classification Using Audio and Image Information (오디오와 영상 정보를 이용한 비디오 세그먼테이션 및 크래시피케이션)

  • Jung, Hae-Jun;Jung, Sung-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10b
    • /
    • pp.891-894
    • /
    • 2000
  • 본 논문에서는 효과적인 내용기반 비디오 검색을 위한 샷 경계 검출, 장면 경계 검출, 그리고 비디오 크래시피케이션 방법을 연구하였다. 먼저, 샷 경계 검출을 위해 칼라 히스토그램과 DCT 변환 계수를 통합하여 사용했다. 그리고 장면 경계 검출을 위해서는 영상 정보뿐만 아니라 오디오 정보를 함께 사용하여 장면 경계를 검출하였다. 또한 비디오 크래시피케이션에서는 장면 경계검출시 추출한 오디오 정보를 이용해 비디오를 내용별로 분류하는 연구를 제안하였다. 뉴스, 광고, 스포츠 등 다양한 3개 분야의 TV 프로그램으로 구성된 약 8,500개 영상 프레임과 약 50,000개의 오디오 프레임을 가진 실험 비디오 데이터베이스를 구성하여 제안된 시스템을 실험하였다. 실험한 결과, 약 88%의 정확도(Precision)를 가지는 장면 경계 검출과 약 85%의 평균 분류율을 보였다.

  • PDF

Generative Adversarial Network based CNN model for artifact reduction on HEVC-encoded video (HEVC 비디오 영상 압축 왜곡 제거를 위한 Generative Adversarial Network 적용 기법)

  • Jeon, Jin;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2017.06a
    • /
    • pp.192-193
    • /
    • 2017
  • 본 논문에서는 비디오 영상 압축 왜곡 제거를 위해 Generative Adversarial Network (GAN)을 적용한 컨벌루션 뉴럴 네트워크 (CNN) 모델을 제안한다. GAN 모델의 생성 모델 (Generator)은 노이즈가 아닌 High Efficiency Video Coding (HEVC)로 압축된 영상을 입력 받은 뒤, 압축 왜곡이 제거된 영상을 출력하며, 분류 모델 (Discriminator)은 원본 영상과 압축된 영상을 입력 받은 뒤, 원본 영상과 압축 왜곡이 포함된 압축된 영상을 분류한다. 분류 모델은 5 개 층을 쌓은 컨벌루션 뉴럴 네트워크 구조를 사용하였고, 생성 모델은 5 개 층을 쌓은 SRCNN 구조와 VDSR 구조를 기반으로 한 두 개의 모델을 이용한 실험을 통해 얻은 결과를 비교하였다. 비디오 영상 압축 왜곡 제거 실험을 위해 원본 비디오 영상을 HEVC 을 이용하여 2Mbps, 4Mbps 로 압축된 영상을 사용하였으며, 압축된 영상 대비 왜곡이 제거된 영상을 얻을 수 있었다.

  • PDF

A Study on the Extraction of Specific Audio Feature In Basketball Video (농구 비디오에서 특정 음성 특징 추출에 관한 연구)

  • 공현장;김원필;김판구
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05d
    • /
    • pp.1075-1080
    • /
    • 2002
  • 최근 멀티미디어 정보 시스템에서의 음성 핀 시각적 내용의 분류에 관한 연구가 활발히 진행되고 있다. 이에 본 논문에서는 농구 경기의 비디오 데이터로부터 특정 음성 정보를 추출하는 방법과 이를 농구 게임의 중요 이벤트 검출에 이용하는 방법을 제안한다. MFCC 특징들과 LPC 엔트로피의 조합을 이용하여 검출된 관중들의 환호 소리로부터 중요한 이벤트의 위치를 예측할 수 있다. 농구 경기의 다양한 소리들 중에서 관중들의 환호 소리를 분류하여 이를 농구 비디오 데이터에서 중요한 이벤트들을 검출하는데 사용함으로써 매우 효과적 결과를 얻을 수 있었다.

  • PDF

Pose Estimation Techniques for Humanoid Characters in FPS Gaming Environments (인간 캐릭터 포즈 식별: FPS 게임에서의 포즈 추정 기법)

  • Youjung Han;Minseop Lee;Minsu Cha;Jiyoung Woo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.29-30
    • /
    • 2024
  • 본 논문은 Krafton의 PUBG: BATTLEGROUNDS 게임에서 플레이어 분류를 목표로 하며, 포즈 추정기술을 사용하여 일반 플레이어와 봇을 구분한다. 이는 게임에서 직접 수집한 비디오 데이터를 기반으로 하며, 다음과 같은 두 가지 접근 방식을 제안한다. 첫 번째 방법은 동작 시퀀스 분석을 통해, 사용자의 특정동작 패턴을 식별하고 로지스틱 회귀 모델을 활용해 사용자 유형을 분류한다. 두 번째 방법은 YOLO-pose 모델을 사용하여 비디오 데이터에서 키포인트를 추출하고, 이를 LSTM 모델에 적용하여 프레임별로 사용자의 유형을 분류한다. 이러한 이중 접근 방식은 게임의 공정성과 사용자 경험을 향상시키는 새로운 도구를 제공하며, 보다 안전한 게임 환경에 기여할 수 있다. 이 연구는 게임 산업뿐만 아니라 보안 및 모니터링 분야에서도 동작 분석에 대한 혁신적인 접근 방식으로 활용될 잠재력을 가지고 있다.

  • PDF

Semantic Scenes Classification of Sports News Video for Sports Genre Analysis (스포츠 장르 분석을 위한 스포츠 뉴스 비디오의 의미적 장면 분류)

  • Song, Mi-Young
    • Journal of Korea Multimedia Society
    • /
    • v.10 no.5
    • /
    • pp.559-568
    • /
    • 2007
  • Anchor-person scene detection is of significance for video shot semantic parsing and indexing clues extraction in content-based news video indexing and retrieval system. This paper proposes an efficient algorithm extracting anchor ranges that exist in sports news video for unit structuring of sports news. To detect anchor person scenes, first, anchor person candidate scene is decided by DCT coefficients and motion vector information in the MPEG4 compressed video. Then, from the candidate anchor scenes, image processing method is utilized to classify the news video into anchor-person scenes and non-anchor(sports) scenes. The proposed scheme achieves a mean precision and recall of 98% in the anchor-person scenes detection experiment.

  • PDF

A study on the characterization and traffic modeling of MPEG video sources (MPEG 비디오 소스의 특성화 및 트래픽 모델링에 관한 연구)

  • Jeon, Yong-Hee;Park, Jung-Sook
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.11
    • /
    • pp.2954-2972
    • /
    • 1998
  • It is expected that the transport of compressed video will become a significant part of total network traffic because of the widespread introduction of multimedial services such as VOD(video on demand). Accordingly, VBR(variable bit-rate) encoded video will be widely used, due to its advantages in statistical multiplexing gain and consistent vido quality. Since the transport of video traffic requires larger bandwidth than that of voice and data, the characterization of video source and traffic modeling is very important for the design of proper resource allocation scheme in ATM networks. Suitable statistical source models are also required to analyze performance metrics such as packet loss, delay and jitter. In this paper, we analyzed and described on the characterization and traffic modeling of MPEG video sources. The models are broadly classified into two categories; i.e., statistical models and deterministic models. In statistical models, the models are categorized into five groups: AR(autoregressive), Markov, composite Marko and AR, TES, and selfsimilar models. In deterministic models, the models are categorized into $({\sigma},\;{\rho}$, parameterized model, D-BIND, and Empirical Envelopes models. Each model was analyzed for its characteristics along with corresponding advantages and shortcomings, and we made comparisons on the complexity of each model.

  • PDF

Shot Motion Classification Using Partial Decoding of INTRA Picture in Compressed Video (압축비디오에서 인트라픽쳐 부분 복호화를 이용한 샷 움직임 분류)

  • Kim, Kang-Wook;Kwon, Seong-Geun
    • Journal of Korea Multimedia Society
    • /
    • v.14 no.7
    • /
    • pp.858-865
    • /
    • 2011
  • In order to allow the user to efficiently browse, select, and retrieve a desired video part without having to deal directly with GBytes of compressed data, classification of shot motion characteristic has to be carried out as a preparation for such user interaction. The organization of video information for video database requires segmentation of a video into its constituent shots and their subsequent characterization in terms of content and camera movement in shot. In order to classify shot motion, it is a conventional way to use element of motion vector. However, there is a limit to estimate global camera motion because the way that uses motion vectors only represents local movement. For shot classification in terms of motion information, we propose a new scheme consisting of partial decoding of INTRA pictures and comparing the x, y displacement vector curve between the decoded I-frame and next P-frame in compressed video data.