• 제목/요약/키워드: motion classification

검색결과 366건 처리시간 0.025초

CNN 모델과 FMM 신경망을 이용한 동적 수신호 인식 기법 (Dynamic Hand Gesture Recognition Using CNN Model and FMM Neural Networks)

  • 김호준
    • 지능정보연구
    • /
    • 제16권2호
    • /
    • pp.95-108
    • /
    • 2010
  • 본 연구에서는 동영상으로부터 동적 수신호 패턴을 효과적으로 인식하기 위한 방법론으로서 복합형 신경망 모델을 제안한다. 제안된 모델은 특징추출 모듈과 패턴분류 모듈로 구성되는데, 이들 각각을 위하여 수정된 구조의 CNN 모델과, WFMM 모델을 도입한다. 또한 목표물의 움직임 정보에 기초한 시공간적 템플릿 구조의 데이터표현을 소개한다. 본 논문에서는 우선 수신호 패턴 데이터에서 특징점의 시간적 변이 및 공간적 변이에 의한 영향을 보완하기 위하여 3차원 수용영역 구조로 확장된 CNN 모델을 제시한다. 이어서 패턴분류 단계를 위하여 가중치를 갖는 구조의 FMM 신경망 모델을 소개하고, 신경망의 구조와 동작특성에 관해 기술한다. 또한 제안된 모델이 기존의 FMM 신경망에서 중첩 하이퍼박스의 축소과정에서 발생하는 학습효과의 왜곡현상을 개선할 수 있음을 보인다. 응용으로 가전제품 원격제어 문제를 전제하여 간략화된 수신호패턴 인식 문제에 적용한 실험결과로부터 제안된 이론의 타당성을 고찰한다.

A motion classification and retrieval system in baseball sports video using Convolutional Neural Network model

  • Park, Jun-Young;Kim, Jae-Seung;Woo, Yong-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.31-37
    • /
    • 2021
  • 본 연구에서는 CNN(Convolution Neural Network) 모델을 이용하여 야구 경기 영상에서 투구나 스윙과 같은 특정 영상이 출현하는 장면을 자동으로 분류하여 효과적으로 검색하는 방법을 제안한다. 또한, 특정 동작의 분류 결과와 경기 기록을 연계한 영상 장면 검색시스템을 제안한다. 제안 시스템의 효율성을 검정하기 위하여 2018년부터 2019년까지 진행된 한국프로야구 경기 영상을 대상으로 특정 장면별로 분류하는 실험을 진행하였다. 야구 경기 영상에서 투구 장면을 분류하는 실험에서는 경기별로 약 90%의 정확도를 보였다. 그리고 경기 영상 내에 포함된 스코어보드를 추출하여 경기 기록과 연계하는 영상 장면 검색 실험에서는 경기별로 약 80% 정도의 정확도를 보였다. 본 연구 결과는 한국프로야구 경기에서 과거 경기 영상을 체계적으로 분석하여 경기력 향상을 위한 전략 수립을 위하여 효과적으로 사용할 수 있으리라 기대한다.

북트레일러의 유형에 대한 연구 (A study on Classification of Book Trailers)

  • 김현희
    • 디자인융복합연구
    • /
    • 제14권2호
    • /
    • pp.67-87
    • /
    • 2015
  • 문화 산업과 다양한 정보 기술의 발달로, 영상을 활용한 디지털 마케팅이 활성화 되면서, 과거 인쇄 광고에 의지해 오던 출판 업계는 영화 트레일러와 유사한 북트레일러(Book Trailer)를 홍보 수단으로 활용하기 시작했다. 본 연구에서는 앞으로 더욱 활성화 될 것이라 예상되는 북트레일러에 대한 연구가 국내외적으로 부족하여, 체계적인 기초 연구를 바탕으로 북트레일러가 발전할 기초 토대를 마련할 필요가 있다고 판단하여 본 연구를 진행하게 되었다. 본 연구에서는 북트레일러에 대한 기초 개념을 확립하는 동시에 북트레일러의 유형을 분류 해 보았다. 유형에 영향을 주는 여러 요인이 있지만, 본 연구에서는 유형 분류에 있어 가장 기본이 되는 내용적 유형과 외형적 유형을 기준으로 유형을 구분하였다. 내용적 유형은 북트레일러의 내용에 따라, 그리고 외형적 유형은 북트레일러의 이미지 조합에 따라 유형을 나누었다. 결과적으로 내용적 유형은 스토리의 구성 요소를 토대로 메시지 활용형, 갈등 활용형, 인물 활용형으로 분류 할 수 있었고, 형식적 유형은 북트레일러를 구성하는 이미지의 조합에 따라 스틸 사진 활용형, 모션 타이포그라피 형, 인터뷰형, 영화 스토리 촬영형, 애니메이션형으로 유형을 분류 할 수 있었다.

지진동모델 파라미터 동시역산을 이용한 지진관측소 분류 (Classification of Seismic Stations Based on the Simultaneous Inversion Result of the Ground-motion Model Parameters)

  • 연관희;서정희
    • 지구물리와물리탐사
    • /
    • 제10권3호
    • /
    • pp.183-190
    • /
    • 2007
  • 지진기록의 수평성분 S파 푸리에스펙트럼을 이용한 추계학적 지진동모델(stochastic point-source ground-motion model; Boore, 2003) 파라미터 역산결과를 기반으로 지진공학적으로 활용될 수 있는 지진관측소 분류를 시도하였다. 추계학적 지진동모델에서 부지효과는 고주파감쇠상수인 $K_0$ (Anderson and Hough, 1984)와 지층의 탄성임피던스의 차이에 의해 발생하는 부지증폭함수(A(f))의 조합으로 표현된다. 본 연구에서는 A(f)를 지진파 스펙트럼의 수평/수직성분비(H/V)와, 이를 초기값으로 하여 얻어진 역산결과에 의한 관측소별 로그오차평균을 합산하여 계산하였다. 지진관측소는 $1{\sim}10$ Hz 범위의 부지증폭함수의 상용로그 최대값($logA_{1-10}^{max}$(f))에 의해 다섯 등급(A: $logA_{1-10}^{max}$(f) < 0.2, B: 0.2 $\leq$ $logA_{1-10}^{max}$(f) < 0.4, C: 0.4 $\leq$ $logA_{1-10}^{max}$(f) < 0.6, D: 0.6 $\leq$ log < 0.8, E: 0.8 $\leq$ $logA_{1-10}^{max}$(f))으로 분류하였다. 분류된 진관측소의 평균적인 부지증폭함수는 A에서 E 등급으로 변함에 따라 지반의 고유진동수가 저주파로 이동하는 의미 있는 결과를 나타내었으며, 최근에 설치장소를 이전한 기상청 일부 관측소에 대해 이설 전후의 등급변화 및 최근 발생한 중규모 지진관측자료와 지진동 거리감쇠식과의 비교분석을 통해 관측소 분류결과의 타당성을 입증할 수 있었다.

관절질환 관리를 위한 Mask R-CNN을 이용한 모션 모니터링 (Motion Monitoring using Mask R-CNN for Articulation Disease Management)

  • 박성수;백지원;조선문;정경용
    • 한국융합학회논문지
    • /
    • 제10권3호
    • /
    • pp.1-6
    • /
    • 2019
  • 현대사회는 생활과 개성이 중요시 되면서 개인화된 생활습관 및 패턴이 생기고 있으며, 잘못된 생활습관으로 인해 관절질환자가 증가하고 있다. 또한 1인 가구가 점점 증가하면서 응급상황이 발생할 경우 알맞은 시간에 응급처치를 받지 못하는 경우가 생긴다. 건강과 질병관리에 필요한 개인의 상태에 따른 정확한 분석을 통해 스스로 관리할 수 있는 정보와 응급상황에 맞는 케어가 필요하다. 딥러닝 중에서 CNN은 데이터의 분류 및 예측에 효율적으로 사용된다. CNN은 데이터 특징에 따라 정확도 및 처리 속도에 차이를 보인다. 따라서 실시간 헬스케어를 위해 처리속도 향상과 정확도 개선이 필요하다. 본 논문에서는 관절질환 관리를 위한 Mask R-CNN을 이용한 모션 모니터링을 제안한다. 제안하는 방법은 Mask R-CNN을 이용하여 CNN의 정확도와 처리 속도를 개선하는 방법이다. 사용자의 모션을 신경망에 학습시킨 후 사용자의 모션이 학습된 데이터와 차이가 있을 경우 사용자에게 관리법을 피드백 해주고 보호자에게 응급상황을 알릴 수 있으며 상황에 맞는 적절한 조치를 취할 수 있다.

순환 아키텍쳐 및 하이퍼파라미터 최적화를 이용한 데이터 기반 군사 동작 판별 알고리즘 (A Data-driven Classifier for Motion Detection of Soldiers on the Battlefield using Recurrent Architectures and Hyperparameter Optimization)

  • 김준호;채건주;박재민;박경원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.107-119
    • /
    • 2023
  • 군인의 동작 및 운동 상태를 인식하는 기술은 웨어러블 테크놀로지와 인공지능의 결합으로 최근 대두되어 병력 관리의 패러다임을 바꿀 기술로 주목받고 있다. 이때 훈련 상황에서의 평가 및 솔루션 제공, 전투 상황에서의 효율적 모니터링 기능을 의도한대로 제공하기 위해서는 상태 판별의 정확도가 매우 높은 수준으로 유지되어야만 한다. 하지만 입력 데이터가 시계열 또는 시퀀스로 주어지는 경우, 기존의 피드포워드 신경망으로는 분류 성능을 극대화하는데 한계가 발생한다. 전장에서의 군사 동작 인식을 위해 다뤄지는 인간의 행동양식 데이터(3축 가속도 및 3축 각속도)는 시의존적 특성의 분석이 요구되기 때문에, 본 논문은 순환 신경망인 LSTM(Long-short Term Memory) 네트워크를 활용하여 취득 데이터의 이동 양상 및 순서 의존성을 파악하고 여덟 가지의 대표적 군사 동작(Sitting, Standing, Walking, Running, Ascending, Descending, Low Crawl, High Crawl)을 분류하는 고성능 인공지능 모델을 제안한다. 이때, 학습 조건 및 모델 변수는 그 정확도에 결정적인 영향을 끼치지만 인간의 수동적 조정이 필요해 비용 비효율적이고 최적의 값을 보장하지 못한다. 본 논문은 기계 스스로 일반화 성능이 극대화된 조건들을 취득할 수 있도록 베이지안 최적화를 활용해 하이퍼파라미터를 최적화한다. 그 결과, 최종 아키텍쳐는 학습 가능한 파라미터의 개수가 유사한 기존의 인공 신경망과 비교해서 오차율이 62.56% 감소할 수 있었으며, 최종적으로 98.39%의 정확도로 군사 동작 인식 기능을 구현할 수 있었다.

Human Motion Recognition Based on Spatio-temporal Convolutional Neural Network

  • Hu, Zeyuan;Park, Sange-yun;Lee, Eung-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제23권8호
    • /
    • pp.977-985
    • /
    • 2020
  • Aiming at the problem of complex feature extraction and low accuracy in human action recognition, this paper proposed a network structure combining batch normalization algorithm with GoogLeNet network model. Applying Batch Normalization idea in the field of image classification to action recognition field, it improved the algorithm by normalizing the network input training sample by mini-batch. For convolutional network, RGB image was the spatial input, and stacked optical flows was the temporal input. Then, it fused the spatio-temporal networks to get the final action recognition result. It trained and evaluated the architecture on the standard video actions benchmarks of UCF101 and HMDB51, which achieved the accuracy of 93.42% and 67.82%. The results show that the improved convolutional neural network has a significant improvement in improving the recognition rate and has obvious advantages in action recognition.

비디오 압축을 위한 영상간 차분 DCT 계수의 문맥값 기반 부호화 방법 (Context-based coding of inter-frame DCT coefficients for video compression)

  • Lee, Jin-Hak;Kim, Jae-Kyoon
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.281-285
    • /
    • 2000
  • This paper proposes context-based coding methods for variable length coding of inter-frame DCT coefficients. The proposed methods classify run-level symbols depending on the preceding coefficients. No extra overhead needs to be transmitted, since the information of the previously transmitted coefficients is used for classification. Two entropy coding methods, arithmetic coding and Huffman coding, are used for the proposed context-based coding. For Huffman coding, there is no complexity increase from the current standards by using the existing inter/intra VLC tables. Experimental results show that the proposed methods give ~ 19% bits gain and ~ 0.8 dB PSNR improvement for adaptive inter/intra VLC table selection, and ~ 37% bits gain and ~ 2.7dB PSNR improvement for arithmetic coding over the current standards, MPEG-4 and H.263. Also, the proposed methods obtain larger gain for small quantizaton parameters and the sequences with fast and complex motion. Therefore, for high quality video coding, the proposed methods have more advantage.

  • PDF

경계 강도 기반의 적응적 보간 필터 (Boundary Strength based Adaptive Interpolation Filter)

  • 송윤석;최정아;호요성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.26-27
    • /
    • 2014
  • This paper presents an adaptive interpolation filtering scheme for the High Efficiency Video Coding (HEVC) standard. In regards to interpolation for motion estimation and compensation, the conventional HEVC employs 8-tap and 4-tap filters for luma and chroma samples, respectively. Coefficients in such filters are determined by discrete cosine transform (DCT). In the proposed scheme, boundary strength values are stored after the execution of the deblocking filter. For each block, the sum of boundary strength values is calculated to indicate whether its region is complex or simple. Consequently, based on the region classification, 12-tap and 8-tap interpolation filters are used for complex and simple regions, respectively. This process is applied to luma sample interpolation only. Simulation results show 1.8% average BD-rate reduction compared to the conventional method.

  • PDF

Multiscale Spatial Position Coding under Locality Constraint for Action Recognition

  • Yang, Jiang-feng;Ma, Zheng;Xie, Mei
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권4호
    • /
    • pp.1851-1863
    • /
    • 2015
  • – In the paper, to handle the problem of traditional bag-of-features model ignoring the spatial relationship of local features in human action recognition, we proposed a Multiscale Spatial Position Coding under Locality Constraint method. Specifically, to describe this spatial relationship, we proposed a mixed feature combining motion feature and multi-spatial-scale configuration. To utilize temporal information between features, sub spatial-temporal-volumes are built. Next, the pooled features of sub-STVs are obtained via max-pooling method. In classification stage, the Locality-Constrained Group Sparse Representation is adopted to utilize the intrinsic group information of the sub-STV features. The experimental results on the KTH, Weizmann, and UCF sports datasets show that our action recognition system outperforms the classical local ST feature-based recognition systems published recently.