• 제목/요약/키워드: temporal feature

검색결과 315건 처리시간 0.027초

Video Object Segmentation with Weakly Temporal Information

  • Zhang, Yikun;Yao, Rui;Jiang, Qingnan;Zhang, Changbin;Wang, Shi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권3호
    • /
    • pp.1434-1449
    • /
    • 2019
  • Video object segmentation is a significant task in computer vision, but its performance is not very satisfactory. A method of video object segmentation using weakly temporal information is presented in this paper. Motivated by the phenomenon in reality that the motion of the object is a continuous and smooth process and the appearance of the object does not change much between adjacent frames in the video sequences, we use a feed-forward architecture with motion estimation to predict the mask of the current frame. We extend an additional mask channel for the previous frame segmentation result. The mask of the previous frame is treated as the input of the expanded channel after processing, and then we extract the temporal feature of the object and fuse it with other feature maps to generate the final mask. In addition, we introduce multi-mask guidance to improve the stability of the model. Moreover, we enhance segmentation performance by further training with the masks already obtained. Experiments show that our method achieves competitive results on DAVIS-2016 on single object segmentation compared to some state-of-the-art algorithms.

심음 기반의 심장질환 분류를 위한 새로운 시간영역 특징 (New Temporal Features for Cardiac Disorder Classification by Heart Sound)

  • 곽철;권오욱
    • 한국음향학회지
    • /
    • 제29권2호
    • /
    • pp.133-140
    • /
    • 2010
  • 연속 심음신호로부터 추출한 새로운 시간영역에서의 특징들을 추가하여 심장질환 분류의 성능을 개선한다. 기존에 사용되고 있는 켑스트럼 영역 특징인 멜주파수 켑스트럼 계수 (MFCC)에 심음 포락선, 심잡음 확률벡터, 심잡음 진폭값 변동으로 구성된 새로운 3종류의 시간영역 특징을 추가한다. 심장 질환 분류 및 검출 실험에서, 시간영역 특징의 분류 정확도에 대한 기여도를 평가하고 순차적 특징선택 방식을 이용하여 시간영역 특징을 선택한다. 선택된 특징들은 다층 퍼셉트론(MLP), support rector machine (SVM), extreme learning machine (ELM)와 같은 신경회로망 패턴 분류기에 대하여 의미있고 일관되게 분류 정확도를 개선함을 보여준다.

Telephone Speech Recognition with Data-Driven Selective Temporal Filtering based on Principal Component Analysis

  • Jung Sun Gyun;Son Jong Mok;Bae Keun Sung
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.764-767
    • /
    • 2004
  • The performance of a speech recognition system is generally degraded in telephone environment because of distortions caused by background noise and various channel characteristics. In this paper, data-driven temporal filters are investigated to improve the performance of a specific recognition task such as telephone speech. Three different temporal filtering methods are presented with recognition results for Korean connected-digit telephone speech. Filter coefficients are derived from the cepstral domain feature vectors using the principal component analysis.

  • PDF

Extended Temporal Ordinal Measurement Using Spatially Normalized Mean for Video Copy Detection

  • Lee, Heung-Kyu;Kim, June
    • ETRI Journal
    • /
    • 제32권3호
    • /
    • pp.490-492
    • /
    • 2010
  • This letter proposes a robust feature extraction method using a spatially normalized mean for temporal ordinal measurement. Before computing a rank matrix from the mean values of non-overlapped blocks, each block mean is normalized so that it obeys the invariance property against linear additive and subtractive noise effects and is insensitive against multiplied and divided noise effects. Then, the temporal ordinal measures of spatially normalized mean values are computed for the feature matching. The performance of the proposed method showed about 95% accuracy in both precision and recall rates on various distortion environments, which represents the 2.7% higher performance on average compared to the temporal ordinal measurement.

3차원 웨이블렛 변환을 이용한 다중시기 SAR 영상의 특징 추출 및 분류 (Feature Extraction and Classification of Multi-temporal SAR Data Using 3D Wavelet Transform)

  • 유희영;박노욱;홍석영;이경도;김이현
    • 대한원격탐사학회지
    • /
    • 제29권5호
    • /
    • pp.569-579
    • /
    • 2013
  • 이 연구에서는 다중시기 SAR 영상으로부터 3D 웨이블렛 변환을 통해 추출된 특징 정보를 이용하여 토지피복 분류를 수행하였고 그 적용가능성을 평가하였다. 분류를 하기 전 단계로 3차원 웨이블렛 변환기반 특징을 추출하였고, 이후 토지 피복 분류에 사용하였다. 비교를 목적으로 특징추출 단계가 들어가지 않는 원본 영상과 주성분분석 기반 특징들의 분류를 함께 수행하였다. 성능 검증을 위해 당진에서 촬영된 다중시기 Radarsat-1호 영상을 사용하였고 토지피복은 논, 밭, 산림, 수계, 도심지가 포함된 5개의 클래스로 구분하였다. 토지피복 식별 능력 분석에 따르면 밭과 산림은 매우 유사한 특성을 보이기 때문에 두 클래스를 구분하는 것은 매우 어렵다. 3차원 웨이블렛 기반 특징을 사용하는 경우, 도심지를 제외하고 모든 클래스의 분류 정확도가 향상되었다. 특히 밭과 산림의 정확도가 향상된 것을 확인할 수 있었다. 이러한 향상은 다중시기자료를 시간과 공간적으로 동시에 분석하는 3차원 웨이블렛 변환 과정에 기인한 것으로 판단된다. 이 결과로부터 3차원 웨이블렛 변환이 영상으로부터 특징을 추출하는데 이용 가능하다는 것을 확인할 수 있었고, 추후에 다른 센서나 다른 연구지역으로 추가 실험을 수행할 예정이다.

화자인식을 위한 주파수 워핑 기반 특징 및 주파수-시간 특징 평가 (Evaluation of Frequency Warping Based Features and Spectro-Temporal Features for Speaker Recognition)

  • 최영호;반성민;김경화;김형순
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.3-10
    • /
    • 2015
  • In this paper, different frequency scales in cepstral feature extraction are evaluated for the text-independent speaker recognition. To this end, mel-frequency cepstral coefficients (MFCCs), linear frequency cepstral coefficients (LFCCs), and bilinear warped frequency cepstral coefficients (BWFCCs) are applied to the speaker recognition experiment. In addition, the spectro-temporal features extracted by the cepstral-time matrix (CTM) are examined as an alternative to the delta and delta-delta features. Experiments on the NIST speaker recognition evaluation (SRE) 2004 task are carried out using the Gaussian mixture model-universal background model (GMM-UBM) method and the joint factor analysis (JFA) method, both based on the ALIZE 3.0 toolkit. Experimental results using both the methods show that BWFCC with appropriate warping factor yields better performance than MFCC and LFCC. It is also shown that the feature set including the spectro-temporal information based on the CTM outperforms the conventional feature set including the delta and delta-delta features.

공간과 시간적 특징 융합 기반 유해 비디오 분류에 관한 연구 (Using the fusion of spatial and temporal features for malicious video classification)

  • 전재현;김세민;한승완;노용만
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.365-374
    • /
    • 2011
  • 최근 인터넷, IPTV/SMART TV, 소셜 네트워크 (social network)와 같은 정보 유통 채널의 다양화로 유해 비디오 분류 및 차단 기술 연구에 대한 요구가 높아가고 있으나, 현재까지는 비디오에 대한 유해성을 판단하는 연구는 부족한 실정이다. 기존 유해 이미지 분류 연구에서는 이미지에서의 피부 영역의 비율이나 Bag of Visual Words (BoVW)와 같은 공간적 특징들 (spatial features)을 이용하고 있다. 그러나, 비디오에서는 공간적 특징 이외에도 모션 반복성 특징이나 시간적 상관성 (temporal correlation)과 같은 시간적 특징들 (temporal features)을 추가적으로 이용하여 유해성을 판단할 수 있다. 기존의 유해 비디오 분류 연구에서는 공간적 특징과 시간적 특징들에서 하나의 특징만을 사용하거나 두 개의 특징들을 단순히 결정 단계에서 데이터 융합하여 사용하고 있다. 일반적으로 결정 단계 데이터 융합 방법은 특징 단계 데이터 융합 방법보다 높은 성능을 가지지 못한다. 본 논문에서는 기존의 유해 비디오 분류 연구에서 사용되고 있는 공간적 특징과 시간적 특징들을 특징 단계 융합 방법을 이용하여 융합하여 유해 비디오를 분류하는 방법을 제안한다. 실험에서는 사용되는 특징이 늘어남에 따른 분류 성능 변화와 데이터 융합 방법의 변화에 따른 분류 성능 변화를 보였다. 공간적 특징만을 이용하였을 때에는 92.25%의 유해 비디오 분류 성능을 보이는데 반해, 모션 반복성 특징을 이용하고 특징 단계 데이터 융합 방법을 이용하게 되면 96%의 향상된 분류 성능을 보였다.

시공간 2D 특징 설명자를 사용한 BOF 방식의 동작인식 (BoF based Action Recognition using Spatio-Temporal 2D Descriptor)

  • 김진옥
    • 인터넷정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.21-32
    • /
    • 2015
  • 동작인식 연구에서 비디오를 표현하는 시공간 부분 특징이 모델 없는 상향식 방식의 주요 주제가 되면서 동작 특징을 검출하고 표현하는 방법이 여러 연구를 통해 다양하게 제안되고 있다. 그 중에서 BoF(bag of features)방식은 가장 일관성 있는 인식 결과를 보여주고 있다. 비디오의 동작을 BoF로 나타내기 위해서는 어떻게 동작의 역동적 정보를 표현할 것인가가 가장 중요한 부분이다. 그래서 기존 연구에서는 비디오를 시공간 볼륨으로 간주하고 3D 동작 특징점 주변의 볼륨 패치를 복잡하게 설명하는 것이 가장 일반적인 방법이다. 본 연구에서는 기존 3D 기반 방식을 간략화하여 비디오의 동작을 BoF로 표현할 때 비디오에서 2D 특징점을 직접 수집하는 방식을 제안한다. 제안 방식의 기본 아이디어는 일반적 공간프레임의 2D xy 평면뿐만 아니라 시공간 프레임으로 불리는 시간축 평면에서 동작 특징점을 추출하여 표현하는 것으로 특징점이 비디오에서 역동적 동작 정보를 포착하기 때문에 동작 표현 특징 설명자를 3D로 확장할 필요 없이 2D 설명자만으로 간단하게 동작인식이 가능하다. SIFT, SURF 특징 표현 설명자로 표현하는 시공간 BoF 방식을 주요 동작인식 데이터에 적용하여 우수한 동작 인식율을 보였다. 3D기반의 HoG/HoF 설명자와 비교한 경우에도 제안 방식이 더 계산하기 쉽고 단순하게 이해할 수 있다.

객체기반의 시공간 단서와 이들의 동적결합 된돌출맵에 의한 상향식 인공시각주의 시스템 (A New Covert Visual Attention System by Object-based Spatiotemporal Cues and Their Dynamic Fusioned Saliency Map)

  • 최경주
    • 한국멀티미디어학회논문지
    • /
    • 제18권4호
    • /
    • pp.460-472
    • /
    • 2015
  • Most of previous visual attention system finds attention regions based on saliency map which is combined by multiple extracted features. The differences of these systems are in the methods of feature extraction and combination. This paper presents a new system which has an improvement in feature extraction method of color and motion, and in weight decision method of spatial and temporal features. Our system dynamically extracts one color which has the strongest response among two opponent colors, and detects the moving objects not moving pixels. As a combination method of spatial and temporal feature, the proposed system sets the weight dynamically by each features' relative activities. Comparative results show that our suggested feature extraction and integration method improved the detection rate of attention region.

Human Activities Recognition Based on Skeleton Information via Sparse Representation

  • Liu, Suolan;Kong, Lizhi;Wang, Hongyuan
    • Journal of Computing Science and Engineering
    • /
    • 제12권1호
    • /
    • pp.1-11
    • /
    • 2018
  • Human activities recognition is a challenging task due to its complexity of human movements and the variety performed by different subjects for the same action. This paper presents a recognition algorithm by using skeleton information generated from depth maps. Concatenating motion features and temporal constraint feature produces feature vector. Reducing dictionary scale proposes an improved fast classifier based on sparse representation. The developed method is shown to be effective by recognizing different activities on the UTD-MHAD dataset. Comparison results indicate superior performance of our method over some existing methods.