• 제목/요약/키워드: Video Classification

검색결과 355건 처리시간 0.028초

A motion classification and retrieval system in baseball sports video using Convolutional Neural Network model

  • Park, Jun-Young;Kim, Jae-Seung;Woo, Yong-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.31-37
    • /
    • 2021
  • 본 연구에서는 CNN(Convolution Neural Network) 모델을 이용하여 야구 경기 영상에서 투구나 스윙과 같은 특정 영상이 출현하는 장면을 자동으로 분류하여 효과적으로 검색하는 방법을 제안한다. 또한, 특정 동작의 분류 결과와 경기 기록을 연계한 영상 장면 검색시스템을 제안한다. 제안 시스템의 효율성을 검정하기 위하여 2018년부터 2019년까지 진행된 한국프로야구 경기 영상을 대상으로 특정 장면별로 분류하는 실험을 진행하였다. 야구 경기 영상에서 투구 장면을 분류하는 실험에서는 경기별로 약 90%의 정확도를 보였다. 그리고 경기 영상 내에 포함된 스코어보드를 추출하여 경기 기록과 연계하는 영상 장면 검색 실험에서는 경기별로 약 80% 정도의 정확도를 보였다. 본 연구 결과는 한국프로야구 경기에서 과거 경기 영상을 체계적으로 분석하여 경기력 향상을 위한 전략 수립을 위하여 효과적으로 사용할 수 있으리라 기대한다.

정서 영상에 대한 정서표상 및 개인 간 반응 일관성 (Affective Representation and Consistency Across Individuals Responses to Affective Videos)

  • 조아란;김현중;김종완
    • 감성과학
    • /
    • 제26권3호
    • /
    • pp.15-28
    • /
    • 2023
  • 본 연구는 정서 자극 유형 중 일상생활과 가장 유사한 정서 경험을 유발하는 자연주의적 자극인 영상 자극을 활용하여 정서표상의 유사성과 개인 간 반응 일관성을 살펴보기 위해 수행되었다. 이를 위해 다차원척도법을 실시하여 영상 자극이 핵심정서 차원에 위치하는지 확인하고, 참가자 간 분류분석을 사용하여 영상들이 정서유형 별로 구분이 잘 이루어지는지, 영상 자극에 대한 참가자들의 정서표상이 일관적인지 검증하였다. 또한 참가자간 상관분석을 통해 각 영상 자극에 대한 정서표상이 참가자들간 유사한지 추가적으로 확인하였다. 다차원척도법 결과, 정서유발 영상들이 정서가 차원에서 유의하게 구분되어 Russell(1980)의 핵심정서차원을 부분적으로 지지하였다. 분류분석 결과, 각 영상이 정서유형에 따라 잘 분류되고 예측되었다. 마지막으로, 참가자간 상관분석을 통해 정서 반응 일관성이 각 영상의 정서유형에 따라 다르게 나타남을 확인하였다. 본 연구는 영상 자극에 대한 정서표상과 정서 반응 일관성이 정서 유형에 따라 차이가 있음을 시사한다.

A Study on Gender Identity Expressed in Fashion in Music Video

  • Jeong, Ha-Na;Choy, Hyon-Sook
    • International Journal of Costume and Fashion
    • /
    • 제6권2호
    • /
    • pp.28-42
    • /
    • 2006
  • In present modern society, media contributes more to the constructing of personal identities than any other medium. Music video, a postmodernism branch among a variety of media, offers a complex experience of sounds combined with visual images. In particular. fashion in music video helps conveying contexts effectively and functions as a medium of immediate communication by visual effect. Considering the socio-cultural effects of music video. gender identity represented in fashion in it can be of great importance. Therefore, this study is geared to the reconsidering of gender identity represented through costumes in music video by analyzing fashions in it. Gender identity in socio-cultural category is classified as masculinity, femininity, and the third sex. By examining fashions based on the classification. this study will help to create new design concepts and to understand gender identity in fashion. The results of this study are as follows: First. masculinity in music video fashion was categorized into stereotyped masculinity, sexual masculinity. and metro sexual masculinity. Second, femininity in music video fashion was categorized into stereotyped femininity. sexual femininity, and contra sexual femininity. Third, the third sex in music video fashion was categorized into transvestism, masculinization of female, and feminization of male. This phenomenon is presented into music videos through females in male attire and males in female attire. Through this research, gender identity represented in fashion of music video was demonstrated, and the importance of the relationship between representation of identity through fashion and socio-cultural environment was reconfirmed.

적응형 블러 기반 비디오의 수평적 확장 여부 판별 네트워크 (Video classifier with adaptive blur network to determine horizontally extrapolatable video content)

  • 김민선;서창욱;윤현호;노준용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제30권3호
    • /
    • pp.99-107
    • /
    • 2024
  • 기존에 존재하는 비디오 영역을 가로 혹은 세로로 확장하는 비디오 확장 기술에 대한 수요가 높아지고 있지만, 최신 기술로도 모든 비디오를 성공적으로 확장할 수는 없다. 따라서 비디오 확장을 시도하기 전에 해당 비디오가 잘 확장될 수 있을지 판단하는 것이 중요하다. 이를 통해 불필요한 컴퓨팅 자원 낭비를 줄일 수 있기 때문이다. 이 논문은 비디오가 수평 확장에 적합한지 판별하는 비디오 분류기를 제안한다. 이 분류기는 광학 흐름과 적응형 가우시안 블러 네트워크를 활용하여 흐름 기반 비디오 확장 방식에 적용할 수 있다. 학습을 위한 라벨링은 유저 테스트 및 정량적 평가를 거쳐 엄격하게 이루어졌다. 이렇게 라벨링된 데이터셋으로 학습한 결과, 주어진 비디오의 확장 가능성을 분류하는 네트워크를 개발할 수 있었다. 제안된 분류기는 광학 흐름과 적응형 가우시안 블러 네트워크를 통해 비디오의 특성을 효과적으로 포착함으로써, 단순히 원본 비디오나 고정된 블러만을 사용하는 경우보다 훨씬 정확한 분류 성능을 보였다. 이 분류기는 향후 다양한 분야에서 활용될 수 있으며, 특히 몰입감 있는 시청 경험을 위해 장면을 자동으로 확장하는 기술과 함께 사용될 수 있을 것으로 기대된다.

비디오 감시 응용에서 확장된 기술자를 이용한 물체 검출과 분류 (Object Detection and Classification Using Extended Descriptors for Video Surveillance Applications)

  • 모하마드 카이룰 이슬람;파라 자한;민재홍;백중환
    • 대한전자공학회논문지SP
    • /
    • 제48권4호
    • /
    • pp.12-20
    • /
    • 2011
  • 본 논문은 비디오 감시 장치에 사용되는 효율적인 물체 검출 및 분류 알고리즘을 제안한다. 이전 연구는 주로 Scale Invariant Feature Transform (SIFT)나 Speeded Up Robust Feature (SURF)와 같은 특정 형태의 특징을 이용해 물체를 검출하거나 분류하였다. 본 논문에서는 물체 검출 및 분류에 상호 작용하는 알고리즘을 제안한다. 이는 로컬 패치들로부터 얻어지는 텍스쳐나 컬러 분포 같은 서로 다른 특성을 갖는 특징값을 이용해 물체의 검출 및 분류율을 높인다. 물체 검출에는 특징점들의 공간적인 클러스터링을, 이미지 표현이나 분류에는 Bag of Words 모델과 Naive Bayes 분류기를 사용한다. 실험을 통해 제안한 기법이 로컬 기술자를 사용한 물체 분류기법보다 우수한 성능을 나타냄을 보인다.

Video Expression Recognition Method Based on Spatiotemporal Recurrent Neural Network and Feature Fusion

  • Zhou, Xuan
    • Journal of Information Processing Systems
    • /
    • 제17권2호
    • /
    • pp.337-351
    • /
    • 2021
  • Automatically recognizing facial expressions in video sequences is a challenging task because there is little direct correlation between facial features and subjective emotions in video. To overcome the problem, a video facial expression recognition method using spatiotemporal recurrent neural network and feature fusion is proposed. Firstly, the video is preprocessed. Then, the double-layer cascade structure is used to detect a face in a video image. In addition, two deep convolutional neural networks are used to extract the time-domain and airspace facial features in the video. The spatial convolutional neural network is used to extract the spatial information features from each frame of the static expression images in the video. The temporal convolutional neural network is used to extract the dynamic information features from the optical flow information from multiple frames of expression images in the video. A multiplication fusion is performed with the spatiotemporal features learned by the two deep convolutional neural networks. Finally, the fused features are input to the support vector machine to realize the facial expression classification task. The experimental results on cNTERFACE, RML, and AFEW6.0 datasets show that the recognition rates obtained by the proposed method are as high as 88.67%, 70.32%, and 63.84%, respectively. Comparative experiments show that the proposed method obtains higher recognition accuracy than other recently reported methods.

Optimizing artificial neural network architectures for enhanced soil type classification

  • Yaren Aydin;Gebrail Bekdas;Umit Isikdag;Sinan Melih Nigdeli;Zong Woo Geem
    • Geomechanics and Engineering
    • /
    • 제37권3호
    • /
    • pp.263-277
    • /
    • 2024
  • Artificial Neural Networks (ANNs) are artificial learning algorithms that provide successful results in solving many machine learning problems such as classification, prediction, object detection, object segmentation, image and video classification. There is an increasing number of studies that use ANNs as a prediction tool in soil classification. The aim of this research was to understand the role of hyperparameter optimization in enhancing the accuracy of ANNs for soil type classification. The research results has shown that the hyperparameter optimization and hyperparamter optimized ANNs can be utilized as an efficient mechanism for increasing the estimation accuracy for this problem. It is observed that the developed hyperparameter tool (HyperNetExplorer) that is utilizing the Covariance Matrix Adaptation Evolution Strategy (CMAES), Genetic Algorithm (GA) and Jaya Algorithm (JA) optimization techniques can be successfully used for the discovery of hyperparameter optimized ANNs, which can accomplish soil classification with 100% accuracy.

A Novel Approach for Object Detection in Illuminated and Occluded Video Sequences Using Visual Information with Object Feature Estimation

  • Sharma, Kajal
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권2호
    • /
    • pp.110-114
    • /
    • 2015
  • This paper reports a novel object-detection technique in video sequences. The proposed algorithm consists of detection of objects in illuminated and occluded videos by using object features and a neural network technique. It consists of two functional modules: region-based object feature extraction and continuous detection of objects in video sequences with region features. This scheme is proposed as an enhancement of the Lowe's scale-invariant feature transform (SIFT) object detection method. This technique solved the high computation time problem of feature generation in the SIFT method. The improvement is achieved by region-based feature classification in the objects to be detected; optimal neural network-based feature reduction is presented in order to reduce the object region feature dataset with winner pixel estimation between the video frames of the video sequence. Simulation results show that the proposed scheme achieves better overall performance than other object detection techniques, and region-based feature detection is faster in comparison to other recent techniques.

직접 후두경과 비디오 후두경의 숙련도 및 유용성 평가 (Assessment of the proficiency and usability of direct laryngoscopy and video laryngoscopy)

  • 신교석;탁양주
    • 한국응급구조학회지
    • /
    • 제23권1호
    • /
    • pp.87-99
    • /
    • 2019
  • Purpose: The aim of this study was conducted to assess the proficiency of both direct laryngoscopy and video laryngoscopy and the usefulness of each laryngoscope, thereby provide basic data for further education using video laryngoscopy. Methods: Forty one paramedic subjects participated in this study. Usability was measured with the System usability scale. The Macintosh direct laryngoscope and $C-MAC^{(R)}$ video laryngoscope were two instruments evaluated in the study. Results: Training with video laryngoscopy showed significantly better results within the categories of dental injury (p=.004), esophageal intubation (p=.001), and proper depth placement of intubation tubes (p=.019). The results of the System usability scale questionnaire and the degrees of visibility based on the Cormack & Lehane classification were also found to be better achieved with the video laryngoscopy (p=.000). Conclusion: This study suggests enhancing education with video laryngoscopy, which could reduce the risk of complications and duration of intubation while increasing the success rate among students and emergency medical technicians with little experience, rather than the existing method of only using direct laryngoscope, which requires considerable experience and skills.

CNN-based Visual/Auditory Feature Fusion Method with Frame Selection for Classifying Video Events

  • Choe, Giseok;Lee, Seungbin;Nang, Jongho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1689-1701
    • /
    • 2019
  • In recent years, personal videos have been shared online due to the popular uses of portable devices, such as smartphones and action cameras. A recent report predicted that 80% of the Internet traffic will be video content by the year 2021. Several studies have been conducted on the detection of main video events to manage a large scale of videos. These studies show fairly good performance in certain genres. However, the methods used in previous studies have difficulty in detecting events of personal video. This is because the characteristics and genres of personal videos vary widely. In a research, we found that adding a dataset with the right perspective in the study improved performance. It has also been shown that performance improves depending on how you extract keyframes from the video. we selected frame segments that can represent video considering the characteristics of this personal video. In each frame segment, object, location, food and audio features were extracted, and representative vectors were generated through a CNN-based recurrent model and a fusion module. The proposed method showed mAP 78.4% performance through experiments using LSVC data.