• 제목/요약/키워드: temporal feature

검색결과 317건 처리시간 0.034초

가중 ARMA 필터를 이용한 강인한 음성인식 (Robust Speech Recognition Using Weighted Auto-Regressive Moving Average Filter)

  • 반성민;김형순
    • 말소리와 음성과학
    • /
    • 제2권4호
    • /
    • pp.145-151
    • /
    • 2010
  • In this paper, a robust feature compensation method is proposed for improving the performance of speech recognition. The proposed method is incorporated into the auto-regressive moving average (ARMA) based feature compensation. We employ variable weights for the ARMA filter according to the degree of speech activity, and pass the normalized cepstral sequence through the weighted ARMA filter. Additionally when normalizing the cepstral sequences in training, the cepstral means and variances are estimated from total training utterances. Experimental results show the proposed method significantly improves the speech recognition performance in the noisy and reverberant environments.

  • PDF

Feature Extraction System for Land Cover Changes Based on Segmentation

  • Jung, Myung-Hee;Yun, Eui-Jung
    • 대한원격탐사학회지
    • /
    • 제20권3호
    • /
    • pp.207-214
    • /
    • 2004
  • This study focused on providing a methodology to utilize temporal information obtained from remotely sensed data for monitoring a wide variety of targets on the earth's surface. Generally, a methodology in understanding of global changes is composed of mapping, quantifying, and monitoring changes in the physical characteristics of land cover. The selected processing and analysis technique affects the quality of the obtained information. In this research, feature extraction methodology is proposed based on segmentation. It requires a series of processing of multitempotal images: preprocessing of geometric and radiometric correction, image subtraction/thresholding technique, and segmentation/thresholding. It results in the mapping of the change-detected areas. Here, the appropriate methods are studied for each step and especially, in segmentation process, a method to delineate the exact boundaries of features is investigated in multiresolution framework to reduce computational complexity for multitemporal images of large size.

음악과 음성 판별을 위한 웨이브렛 영역에서의 특징 파라미터 (Feature Parameter Extraction and Analysis in the Wavelet Domain for Discrimination of Music and Speech)

  • 김정민;배건성
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.63-74
    • /
    • 2007
  • Discrimination of music and speech from the multimedia signal is an important task in audio coding and broadcast monitoring systems. This paper deals with the problem of feature parameter extraction for discrimination of music and speech. The wavelet transform is a multi-resolution analysis method that is useful for analysis of temporal and spectral properties of non-stationary signals such as speech and audio signals. We propose new feature parameters extracted from the wavelet transformed signal for discrimination of music and speech. First, wavelet coefficients are obtained on the frame-by-frame basis. The analysis frame size is set to 20 ms. A parameter $E_{sum}$ is then defined by adding the difference of magnitude between adjacent wavelet coefficients in each scale. The maximum and minimum values of $E_{sum}$ for period of 2 seconds, which corresponds to the discrimination duration, are used as feature parameters for discrimination of music and speech. To evaluate the performance of the proposed feature parameters for music and speech discrimination, the accuracy of music and speech discrimination is measured for various types of music and speech signals. In the experiment every 2-second data is discriminated as music or speech, and about 93% of music and speech segments have been successfully detected.

  • PDF

Human Activity Recognition Based on 3D Residual Dense Network

  • Park, Jin-Ho;Lee, Eung-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제23권12호
    • /
    • pp.1540-1551
    • /
    • 2020
  • Aiming at the problem that the existing human behavior recognition algorithm cannot fully utilize the multi-level spatio-temporal information of the network, a human behavior recognition algorithm based on a dense three-dimensional residual network is proposed. First, the proposed algorithm uses a dense block of three-dimensional residuals as the basic module of the network. The module extracts the hierarchical features of human behavior through densely connected convolutional layers; Secondly, the local feature aggregation adaptive method is used to learn the local dense features of human behavior; Then, the residual connection module is applied to promote the flow of feature information and reduced the difficulty of training; Finally, the multi-layer local feature extraction of the network is realized by cascading multiple three-dimensional residual dense blocks, and use the global feature aggregation adaptive method to learn the features of all network layers to realize human behavior recognition. A large number of experimental results on benchmark datasets KTH show that the recognition rate (top-l accuracy) of the proposed algorithm reaches 93.52%. Compared with the three-dimensional convolutional neural network (C3D) algorithm, it has improved by 3.93 percentage points. The proposed algorithm framework has good robustness and transfer learning ability, and can effectively handle a variety of video behavior recognition tasks.

모바일 환경을 위한 GML 기반 시공간 질의 처리 시스템 (Spatio-Temporal Query Processing System based on GML for The Mobile Environment)

  • 김정준;신인수;원승호;이기영;한기준
    • Spatial Information Research
    • /
    • 제20권3호
    • /
    • pp.95-106
    • /
    • 2012
  • 최근 무선 액세스 망의 범위가 증가하고 발전함에 따라 다양한 분야에서 u-GIS 서비스가 지원되고 있으며, 특히 모바일 환경에서의 u-GIS 서비스를 위해 시공간 데이터가 널리 활용되고 있다. 그러나 모바일 환경에서 활용되는 시공간 데이터에 대한 표준이 없으므로 서로 다른 시공간 데이터를 사용하는 모바일 u-GIS 서비스 간의 상호운용성을 위한 효율적인 시공간 데이터 처리 기술이 필요하다. 또한 모바일 장치의 저용량과 낮은 성능을 고려한 시공간 데이터의 수집, 저장, 관리 시스템이 필수적이다. 따라서 본 논문에서는 모바일 환경에서 시공간 데이터의 효율적인 관리를 위해 GML 기반의 질의 처리 시스템을 설계 및 구현하였다. GML 기반 시공간 질의 처리 시스템은 GML 문서의 특성인 상호운용성을 유지하고 저장 효율성을 높이기 위해 GML 스키마와 저장 테이블을 매핑하는 구조형 저장 방식과 Fast Infoset 기법을 이용한 바이너리 XML 저장 방식을 제공한다. 그리고 저장된 GML 문서의 시공간 데이터에 대한 신속한 질의 처리를 위하여 시공간 연산자를 제공한다. 마지막으로 본 논문에서 개발한 시스템을 가상 시나리오에 적용하여 본 시스템이 u-GIS 서비스를 위한 시스템으로 활용될 수 있음을 확인하였다.

동영상 복사본 검출을 위한 시공간 정보를 이용한 동영상 서명 - 동심원 구획 기반 서술자를 이용한 동영상 복사본 검출 기술 (Video Signature using Spatio-Temporal Information for Video Copy Detection)

  • 조익환;오원근;정동석
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.607-611
    • /
    • 2008
  • 본 논문에서는 동영상 복사본 검출을 위해 시공간 정보를 이용한 새로운 동영상 서명 방법을 제안한다. 제안된 동영상 복사본 검출 방법은 각 키프레임에 대하여 동심원 구획방법에 기반을 두고 있다. 우선 입력 동영상으로부터 일정한 간격으로 시간적 이중 선형 보간법을 이용하여 키프레임을 추출하고 각 프레임은 동심원 형태로 구획된다. 구획된 세부영역에 대하여 상대적인 관계를 이용하여 평균 픽셀값, 평균 픽셀값의 차분값, 대칭적 차분값, 원형 차분값 분포의 4 가지 특징 분포를 추출한다. 최종적으로 이 특징 분포들은 간단한 해시 함수를 이용하여 이진 수열 형태로 변형되고 순서대로 병합된다. 제안된 동영상 서명에 대한 유사도 거리는 간단한 해밍 거리를 이용하여 계산되고 따라서 매우 빠른 정합 속도를 보인다. 실험 결과로부터 제안된 방법이 다양한 변형에 대하여 평균 97.4%의 높은 검출 성공률을 보이는 것을 알 수 있다. 그러므로 제안된 방법이 동영상 복사본 검출분야에서 폭넓게 사용될 수 있을 것으로 기대된다.

  • PDF

표정 HMM과 사후 확률을 이용한 얼굴 표정 인식 프레임워크 (A Recognition Framework for Facial Expression by Expression HMM and Posterior Probability)

  • 김진옥
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권3호
    • /
    • pp.284-291
    • /
    • 2005
  • 본 연구에서는 학습한 표정 패턴을 기반으로 비디오에서 사람의 얼굴을 검출하고 표정을 분석하여 분류하는 프레임워크를 제안한다. 제안 프레임워크는 얼굴 표정을 인식하는데 있어 공간적 정보 외시간에 따라 변하는 표정의 패턴을 표현하기 위해 표정 특성을 공간적으로 분석한 PCA와 시공간적으로 분석한 Hidden Markov Model(HMM) 기반의 표정 HMM을 이용한다. 표정의 공간적 특징 추출은 시간적 분석 과정과 밀접하게 연관되어 있기 때문에 다양하게 변화하는 표정을 검출하여 추적하고 분류하는데 HMM의 시공간적 접근 방식을 적용하면 효과적이기 때문이다. 제안 인식 프레임워크는 현재의 시각적 관측치와 이전 시각적 결과간의 사후 확률 방법에 의해 완성된다. 결과적으로 제안 프레임워크는 대표적인 6개 표정뿐만 아니라 표정의 정도가 약한 프레임에 대해서도 정확하고 강건한 표정 인식 결과를 보인다. 제안 프레임 워크를 이용하면 표정 인식, HCI, 키프레임 추출과 같은 응용 분야 구현에 효과적이다

MPEG CDVA 전역 특징 서술자 압축 방법 (Compression Method for MPEG CDVA Global Feature Descriptors)

  • 김준수;조원;임근택;윤정일;곽상운;정순흥;정원식;추현곤;서정일;최유경
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.295-307
    • /
    • 2022
  • 본 논문은 동영상의 시각적 특징을 추출하는 MPEG CDVA 표준 기술에서 개별 프레임의 전역적인 특징을 표현하는 scalable Fisher vector (SCFV)의 새로운 압축 방법을 제안한다. CDVA 표준은 전역 특징 서술자에 대한 시간적 중복성 제거 기법을 도입하였으며, 구체적으로 부호화 단위 세그먼트 내의 SCFV 들이 서로 유사할 가능성이 높다는 점을 활용하여 SCFV에 대한 차분을 부호화하는 방식을 사용하고 있다. 그러나 SCFV의 구조적 특징에 의해 SCFV의 차분을 부호화 한 결과물이 원본 데이터보다도 용량이 큰 경우가 발생하게 된다. 이와 같은 현상을 방지하기 위해 비대칭적 SCFV의 차분 계산 방법과 변경된 SCFV 차분을 활용하여 원본 SCFV를 복원하는 새로운 방법을 제안하였다. FIVR 데이터셋을 활용한 실험결과는 전역 특징 서술자의 압축 효율이 기존 CDVA Experimental Model에 대비하여 유의미하게 증가함을 보여준다.

정서재활 바이오피드백을 위한 얼굴 영상 기반 정서인식 연구 (Study of Emotion Recognition based on Facial Image for Emotional Rehabilitation Biofeedback)

  • 고광은;심귀보
    • 제어로봇시스템학회논문지
    • /
    • 제16권10호
    • /
    • pp.957-962
    • /
    • 2010
  • If we want to recognize the human's emotion via the facial image, first of all, we need to extract the emotional features from the facial image by using a feature extraction algorithm. And we need to classify the emotional status by using pattern classification method. The AAM (Active Appearance Model) is a well-known method that can represent a non-rigid object, such as face, facial expression. The Bayesian Network is a probability based classifier that can represent the probabilistic relationships between a set of facial features. In this paper, our approach to facial feature extraction lies in the proposed feature extraction method based on combining AAM with FACS (Facial Action Coding System) for automatically modeling and extracting the facial emotional features. To recognize the facial emotion, we use the DBNs (Dynamic Bayesian Networks) for modeling and understanding the temporal phases of facial expressions in image sequences. The result of emotion recognition can be used to rehabilitate based on biofeedback for emotional disabled.

특이값분해 기반 동적의료영상 재구성기법의 특징 파악을 위한 시뮬레이션 연구 (Simulation Study for Feature Identification of Dynamic Medical Image Reconstruction Technique Based on Singular Value Decomposition)

  • 김도휘;정영진
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제42권2호
    • /
    • pp.119-130
    • /
    • 2019
  • Positron emission tomography (PET) is widely used imaging modality for effective and accurate functional testing and medical diagnosis using radioactive isotopes. However, PET has difficulties in acquiring images with high image quality due to constraints such as the amount of radioactive isotopes injected into the patient, the detection time, the characteristics of the detector, and the patient's motion. In order to overcome this problem, we have succeeded to improve the image quality by using the dynamic image reconstruction method based on singular value decomposition. However, there is still some question about the characteristics of the proposed technique. In this study, the characteristics of reconstruction method based on singular value decomposition was estimated over computational simulation. As a result, we confirmed that the singular value decomposition based reconstruction technique distinguishes the images well when the signal - to - noise ratio of the input image is more than 20 decibels and the feature vector angle is more than 60 degrees. In addition, the proposed methode to estimate the characteristics of reconstruction technique can be applied to other spatio-temporal feature based dynamic image reconstruction techniques. The deduced conclusion of this study can be useful guideline to apply medical image into SVD based dynamic image reconstruction technique to improve the accuracy of medical diagnosis.