• 제목/요약/키워드: video action recognition

검색결과 64건 처리시간 0.029초

스켈레톤 조인트 매핑을 이용한 딥 러닝 기반 행동 인식 (Deep Learning-based Action Recognition using Skeleton Joints Mapping)

  • 타스님;백중환
    • 한국항행학회논문지
    • /
    • 제24권2호
    • /
    • pp.155-162
    • /
    • 2020
  • 최근 컴퓨터 비전과 딥러닝 기술의 발전으로 비디오 분석, 영상 감시, 인터렉티브 멀티미디어 및 인간 기계 상호작용 응용을 위해 인간 행동 인식에 관한 연구가 활발히 진행되고 있다. 많은 연구자에 의해 RGB 영상, 깊이 영상, 스켈레톤 및 관성 데이터를 사용하여 인간 행동 인식 및 분류를 위해 다양한 기술이 도입되었다. 그러나 스켈레톤 기반 행동 인식은 여전히 인간 기계 상호작용 분야에서 도전적인 연구 주제이다. 본 논문에서는 동적 이미지라 불리는 시공간 이미지를 생성하기 위해 동작의 종단간 스켈레톤 조인트 매핑 기법을 제안한다. 행동 클래스 간의 분류를 수행하기 위해 효율적인 심층 컨볼루션 신경망이 고안된다. 제안된 기법의 성능을 평가하기 위해 공개적으로 액세스 가능한 UTD-MHAD 스켈레톤 데이터 세트를 사용하였다. 실험 결과 제안된 시스템이 97.45 %의 높은 정확도로 기존 방법보다 성능이 우수함을 보였다.

시공간 2D 특징 설명자를 사용한 BOF 방식의 동작인식 (BoF based Action Recognition using Spatio-Temporal 2D Descriptor)

  • 김진옥
    • 인터넷정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.21-32
    • /
    • 2015
  • 동작인식 연구에서 비디오를 표현하는 시공간 부분 특징이 모델 없는 상향식 방식의 주요 주제가 되면서 동작 특징을 검출하고 표현하는 방법이 여러 연구를 통해 다양하게 제안되고 있다. 그 중에서 BoF(bag of features)방식은 가장 일관성 있는 인식 결과를 보여주고 있다. 비디오의 동작을 BoF로 나타내기 위해서는 어떻게 동작의 역동적 정보를 표현할 것인가가 가장 중요한 부분이다. 그래서 기존 연구에서는 비디오를 시공간 볼륨으로 간주하고 3D 동작 특징점 주변의 볼륨 패치를 복잡하게 설명하는 것이 가장 일반적인 방법이다. 본 연구에서는 기존 3D 기반 방식을 간략화하여 비디오의 동작을 BoF로 표현할 때 비디오에서 2D 특징점을 직접 수집하는 방식을 제안한다. 제안 방식의 기본 아이디어는 일반적 공간프레임의 2D xy 평면뿐만 아니라 시공간 프레임으로 불리는 시간축 평면에서 동작 특징점을 추출하여 표현하는 것으로 특징점이 비디오에서 역동적 동작 정보를 포착하기 때문에 동작 표현 특징 설명자를 3D로 확장할 필요 없이 2D 설명자만으로 간단하게 동작인식이 가능하다. SIFT, SURF 특징 표현 설명자로 표현하는 시공간 BoF 방식을 주요 동작인식 데이터에 적용하여 우수한 동작 인식율을 보였다. 3D기반의 HoG/HoF 설명자와 비교한 경우에도 제안 방식이 더 계산하기 쉽고 단순하게 이해할 수 있다.

Method of extracting context from media data by using video sharing site

  • Kondoh, Satoshi;Ogawa, Takeshi
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.709-713
    • /
    • 2009
  • Recently, a lot of research that applies data acquired from devices such as cameras and RFIDs to context aware services is being performed in the field on Life-Log and the sensor network. A variety of analytical techniques has been proposed to recognize various information from the raw data because video and audio data include a larger volume of information than other sensor data. However, manually watching a huge amount of media data again has been necessary to create supervised data for the update of a class or the addition of a new class because these techniques generally use supervised learning. Therefore, the problem was that applications were able to use only recognition function based on fixed supervised data in most cases. Then, we proposed a method of acquiring supervised data from a video sharing site where users give comments on any video scene because those sites are remarkably popular and, therefore, many comments are generated. In the first step of this method, words with a high utility value are extracted by filtering the comment about the video. Second, the set of feature data in the time series is calculated by applying functions, which extract various feature data, to media data. Finally, our learning system calculates the correlation coefficient by using the above-mentioned two kinds of data, and the correlation coefficient is stored in the DB of the system. Various other applications contain a recognition function that is used to generate collective intelligence based on Web comments, by applying this correlation coefficient to new media data. In addition, flexible recognition that adjusts to a new object becomes possible by regularly acquiring and learning both media data and comments from a video sharing site while reducing work by manual operation. As a result, recognition of not only the name of the seen object but also indirect information, e.g. the impression or the action toward the object, was enabled.

  • PDF

Effective Hand Gesture Recognition by Key Frame Selection and 3D Neural Network

  • Hoang, Nguyen Ngoc;Lee, Guee-Sang;Kim, Soo-Hyung;Yang, Hyung-Jeong
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.23-29
    • /
    • 2020
  • This paper presents an approach for dynamic hand gesture recognition by using algorithm based on 3D Convolutional Neural Network (3D_CNN), which is later extended to 3D Residual Networks (3D_ResNet), and the neural network based key frame selection. Typically, 3D deep neural network is used to classify gestures from the input of image frames, randomly sampled from a video data. In this work, to improve the classification performance, we employ key frames which represent the overall video, as the input of the classification network. The key frames are extracted by SegNet instead of conventional clustering algorithms for video summarization (VSUMM) which require heavy computation. By using a deep neural network, key frame selection can be performed in a real-time system. Experiments are conducted using 3D convolutional kernels such as 3D_CNN, Inflated 3D_CNN (I3D) and 3D_ResNet for gesture classification. Our algorithm achieved up to 97.8% of classification accuracy on the Cambridge gesture dataset. The experimental results show that the proposed approach is efficient and outperforms existing methods.

행동인식을 위한 다중 영역 기반 방사형 GCN 알고리즘 (Multi-Region based Radial GCN algorithm for Human action Recognition)

  • 장한별;이칠우
    • 스마트미디어저널
    • /
    • 제11권1호
    • /
    • pp.46-57
    • /
    • 2022
  • 본 논문에서는 딥러닝을 기반으로 입력영상의 옵티컬 플로우(optical flow)와 그래디언트(gradient)를 이용하여 종단간 행동인식이 가능한 다중영역 기반 방사성 GCN(MRGCN: Multi-region based Radial Graph Convolutional Network) 알고리즘에 대해 기술한다. 이 방법은 데이터 취득이 어렵고 계산이 복잡한 스켈레톤 정보를 사용하지 않기 때문에 카메라만을 주로 사용하는 일반 CCTV 환경에도 활용이 가능하다. MRGCN의 특징은 입력영상의 옵티컬플로우와 그래디언트를 방향성 히스토그램으로 표현한 후 계산량 축소를 위해 6개의 특징 벡터로 변환하여 사용한다는 것과 시공간 영역에서 인체의 움직임과 형상변화를 계층적으로 전파시키기 위해 새롭게 고안한 방사형 구조의 네트워크 모델을 사용한다는 것이다. 또 데이터 입력 영역을 서로 겹치도록 배치하여 각 노드 간에 공간적으로 단절이 없는 정보를 입력으로 사용한 것도 중요한 특징이다. 30가지의 행동에 대해 성능평가 실험을 수행한 결과 스켈레톤 데이터를 입력으로 사용한 기존의 GCN기반 행동인식과 동등한 84.78%의 Top-1 정확도를 얻을 수 있었다. 이 결과로부터 취득이 어려운 스켈레톤 정보를 사용하지 않는 MRGCN이 복잡한 행동인식이 필요한 실제 상황에서 더욱 실용적인 방법임을 알 수 있었다.

프레임간 차를 기반으로 한 작업자의 동작인식 (Motion Recognition of Worker Based on Frame Difference)

  • 김형균;정기봉;오무송
    • 한국정보통신학회논문지
    • /
    • 제5권7호
    • /
    • pp.1280-1286
    • /
    • 2001
  • 본 연구에서는 작업자의 일정한 동작을 보다 효율적으로 인식할 수 있는 시스템을 제안하고자 한다. 먼저, 작업자의 동작을 촬영한 동영상에서 연속된 프레임간의 차를 기반으로, 고정된 배경과 움직이는 대상을 분리한다. 다음으로, 에지 검출을 이용하여 동작의 중심 위치를 추정하여 연속적으로 움직이는 동작을 인식할 수 있도록 하였다. 본 연구에서 설계한 동작 인식시스템은 기존의 산업헌장에서 적용되고 있는 동작인식 시스템의 문제점을 보완하기 위하여 작업자의 동작을 고정된 CCTV로 촬영한 영상을 인식의 대상으로 취함으로써 동작 정보를 얻기 위한 각종 장비들이 최소화되었다. 또한, 작업자의 신체 부분별 특성을 추출하기 위한 계산 작업에 소요되는 시간을 줄이기 위하여 프레임간의 차연산과 에지검출을 통한 동작인식을 실시하여 인식에 필요한 작업시간을 단축하여, 효율적이면서 비용이 저렴한 동작 인식시스템을 설계하였다.

  • PDF

동영상 시맨틱 이해를 위한 시각 동사 도출 및 액션넷 데이터베이스 구축 (Visual Verb and ActionNet Database for Semantic Visual Understanding)

  • 배창석;김보경
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권5호
    • /
    • pp.19-30
    • /
    • 2018
  • 영상 데이터에 대한 시맨틱 정보를 정확하게 이해하는 것은 인공지능 및 기계학습 분야에서 가장 어려운 도전과제의 하나로 알려져 있다. 본 논문에서는 동영상 시맨틱 이해를 위한 시각 동사 도출과 이를 바탕으로 하는 동영상 데이터베이스인 액션넷 데이터베이스 구축에 관해 제안하고 있다. 오늘날 인공지능 기술의 눈부신 발달에는 인공지능 알고리즘의 발전이 크게 기여하였지만 알고리즘의 학습과 성능 평가를 위한 방대한 데이터베이스의 제공도 기여한 바가 매우 크다고 할 수 있다. 인공지능이 도전하기 어려운 분야였던 시각 정보 처리에 있어서도 정지 영상 내의 객체인식에 있어서는 인간의 수준을 능가하기 시작하면서 점차 동영상에서의 내용에 대한 시맨틱 이해 기술 개발로 발전하고 있다. 본 논문에서는 이러한 동영상 이해를 위한 학습 및 테스트 데이터베이스로서 액션넷 구축에 요구되는 시각 동사의 후보를 도출한다. 이를 위해 언어학 기반의 동사 분류체계를 살펴보고, 영상에서의 시각 정보를 명세한 데이터 및 언어학에서의 시각 동사 빈도 등으로부터 시각 동사의 후보를 도출한다. 시각 동사 분류체계와 시각 동사후보를 바탕으로 액션넷 데이터베이스 스키마를 정의하고 구축한다. 본 논문에서 제안하는 시각 동사 및 스키마와 이를 바탕으로 하는 액션넷 데이터베이스를 개방형 환경에서 확장하고 활용성을 제고함으로써 동영상 이해 기술 발전에 기여할 수 있을 것으로 기대한다.

비디오 행동인식을 위한 효과적인 딥러닝 알고리즘 (Efficient Deep-learning Algorithm for Action Recognition in Video)

  • 차상국;한종기
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.253-254
    • /
    • 2018
  • 본 논문은 비디오기반 행동인식을 연구하였으며, 기존의 구조를 참조하여 더 높은 인식률을 위한 새로운 구조를 제안한다. 딥러닝의 기본인 CNN과 RNN을 베이스로 한 구조이며 UCF-101 이라는 Data Set를 사용하였다.

  • PDF

계층적 군집화 기반 Re-ID를 활용한 객체별 행동 및 표정 검출용 영상 분석 시스템 (Video Analysis System for Action and Emotion Detection by Object with Hierarchical Clustering based Re-ID)

  • 이상현;양성훈;오승진;강진범
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.89-106
    • /
    • 2022
  • 최근 영상 데이터의 급증으로 이를 효과적으로 처리하기 위해 객체 탐지 및 추적, 행동 인식, 표정 인식, 재식별(Re-ID)과 같은 다양한 컴퓨터비전 기술에 대한 수요도 급증했다. 그러나 객체 탐지 및 추적 기술은 객체의 영상 촬영 장소 이탈과 재등장, 오클루전(Occlusion) 등과 같이 성능을 저하시키는 많은 어려움을 안고 있다. 이에 따라 객체 탐지 및 추적 모델을 근간으로 하는 행동 및 표정 인식 모델 또한 객체별 데이터 추출에 난항을 겪는다. 또한 다양한 모델을 활용한 딥러닝 아키텍처는 병목과 최적화 부족으로 성능 저하를 겪는다. 본 연구에서는 YOLOv5기반 DeepSORT 객체추적 모델, SlowFast 기반 행동 인식 모델, Torchreid 기반 재식별 모델, 그리고 AWS Rekognition의 표정 인식 모델을 활용한 영상 분석 시스템에 단일 연결 계층적 군집화(Single-linkage Hierarchical Clustering)를 활용한 재식별(Re-ID) 기법과 GPU의 메모리 스루풋(Throughput)을 극대화하는 처리 기법을 적용한 행동 및 표정 검출용 영상 분석 시스템을 제안한다. 본 연구에서 제안한 시스템은 간단한 메트릭을 사용하는 재식별 모델의 성능보다 높은 정확도와 실시간에 가까운 처리 성능을 가지며, 객체의 영상 촬영 장소 이탈과 재등장, 오클루전 등에 의한 추적 실패를 방지하고 영상 내 객체별 행동 및 표정 인식 결과를 동일 객체에 지속적으로 연동하여 영상을 효율적으로 분석할 수 있다.

Egocentric Vision for Human Activity Recognition Using Deep Learning

  • Malika Douache;Badra Nawal Benmoussat
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.730-744
    • /
    • 2023
  • The topic of this paper is the recognition of human activities using egocentric vision, particularly captured by body-worn cameras, which could be helpful for video surveillance, automatic search and video indexing. This being the case, it could also be helpful in assistance to elderly and frail persons for revolutionizing and improving their lives. The process throws up the task of human activities recognition remaining problematic, because of the important variations, where it is realized through the use of an external device, similar to a robot, as a personal assistant. The inferred information is used both online to assist the person, and offline to support the personal assistant. With our proposed method being robust against the various factors of variability problem in action executions, the major purpose of this paper is to perform an efficient and simple recognition method from egocentric camera data only using convolutional neural network and deep learning. In terms of accuracy improvement, simulation results outperform the current state of the art by a significant margin of 61% when using egocentric camera data only, more than 44% when using egocentric camera and several stationary cameras data and more than 12% when using both inertial measurement unit (IMU) and egocentric camera data.