• 제목/요약/키워드: Gaussian mixture models

검색결과 98건 처리시간 0.036초

Multivariate Gaussian 함수를 이용한 센서 네트워크의 수화 인식에의 적용 (Application of Sensor Network Using Multivariate Gaussian Function to Hand Gesture Recognition)

  • 김성호;한윤종;디아코네스쿠 보그다나
    • 제어로봇시스템학회논문지
    • /
    • 제11권12호
    • /
    • pp.991-995
    • /
    • 2005
  • Sensor networks are the results of convergence of very important technologies such as wireless communication and micro electromechanical systems. In recent years, sensor networks found a wide applicability in various fields such as health, environment and habitat monitoring, military, etc. A very important step for these many applications is pattern classification and recognition of data collected by sensors installed or deployed in different ways. But, pattern classification and recognition are sometimes difficult to perform. Systematic approach to pattern classification based on modern teaming techniques like Multivariate Gaussian mixture models, can greatly simplify the process of developing and implementing real-time classification models. This paper proposes a new recognition system which is hierarchically composed of many sensor nodes haying the capability of simple processing and wireless communication. The proposed system is able to perform classification of sensed data using the Multivariate Gaussian function. In order to verify the usefulness of the proposed system, it was applied to hand gesture recognition system.

Gaussian Mixture Model과 프레임 단위 유사도 추정을 이용한 유해동영상 필터링 시스템 구현 (A Realization of Injurious moving picture filtering system with Gaussian Mixture Model and Frame-level Likelihood Estimation)

  • 김민정;정종혁
    • 한국지능시스템학회논문지
    • /
    • 제23권2호
    • /
    • pp.184-189
    • /
    • 2013
  • 본 논문에서는 인터넷 및 인터넷 저장 공간에 제한없이 유통되고 있는 유해동영상을 필터링하기 위해 유해동영상에 포함된 특정 소리를 이용한 유해 동영상 필터링 시스템을 제안한다. 이를 위하여 소리의 특성을 잘 표현할 수 있는 Gaussian Mixture Model을 이용하였으며, 필터링 대상 데이터와 소리모델과의 유사도를 계산하기위해 프레임단위 유사도 추정을 이용하였다. 또, 실시간 처리를 위하여 비교대상 데이터의 수를 줄임으로서 실시간 처리가 가능한 프루닝 방법을 적용하였으며, 고정도의 구별 성능을 위하여 기존 화자식별에서 우수한 성능을 보였던 MWMR 방법을 적용하였다. 식별실험결과, 일반 영상과 유해 영상의 기준인 전체프레임 대비 유사도 높은 프레임의 비를 50%로 설정한 경우, 판별 오류율은 6.06%였으며, 프레임 비의 기준이 60%인 경우, 오류율은 3.03%를 나타내어 소리를 이용한 유해동영상 필터링 시스템이 효과적으로 일반영상과 유해영상을 구별할 수 있는 것을 확인하였다.

연속 음성 인식 시스템을 위한 향상된 결정 트리 기반 상태 공유 (Improved Decision Tree-Based State Tying In Continuous Speech Recognition System)

  • 김동화;;;김형순;김영호
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.49-56
    • /
    • 1999
  • 결정 트리 기반 상태 공유 방법은 HMM을 사용하는 많은 연속 음성 인식 시스템에서 강인하고 정확한 문맥 종속 음향 모델링 뿐만 아니라 훈련 중에는 나타나지 않은 모델들의 합성을 위하여 널리 사용되고 있다. 음성 결정 트리를 구성하기 위한 표준적인 방법은 단일 가우시안 트라이폰 모델을 이용한 1계층 프루닝 만을 사용하고 있다. 본 논문에서는 더욱 정교한 음향 모델링을 통하여 인식 성능 향상을 도모하기 위하여 새로운 2가지 접근 방법 즉, 2계층 결정 트리와 복수 혼합 결정 트리를 제안한다. 2계층 결정 트리는 상태 공유와 혼합 가중치 공유를 위하여 2계층 프루닝을 수행하며, 두 번째 계층을 사용하여 공유 상태들도 음성 문맥의 유사도에 따라서 서로 다른 가중치들을 사용할 수 있다. 두 번째 제안된 방법 에서는 훈련 과정 즉, 혼합 분할 및 재추정 과정과 함께 음성 결정 트리가 계속 갱신되어 진다. 복수 혼합 결정 트리를 구성하기 위하여 단일 가우시안 뿐만 아니라 복수 혼합 가우시안 모델이 함께 사용된다. 제안된 방법들을 이용하여 BN-96과 WSJ5k 데이터를 사용한 연속 음성 인식 실험을 수행한 결과, 표준 결정 트리를 사용한 시스템과 비교하여 공유 상태의 개수를 비슷하게 유지하면서 단어 오인식률을 줄일 수 있었다.

  • PDF

PTM 모델을 사용한 HMM 음성인식기에서 효율적인 디코딩을 위한 가우시안 선택기법 (Gaussian Selection in HMM Speech Recognizer with PTM Model for Efficient Decoding)

  • 손종목;정성윤;배건성
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.75-81
    • /
    • 2004
  • 가우시안 선택기법은 연속 확률분포를 갖는 HMM음성인식기에서 인식성능을 저하시키지 않으면서 관측확률을 구할 때 계산되는 가우시안의 수를 줄여 효율적인 디코딩을 하기 위해 많이 이용되는 방법이다. 본 논문에서는 PTM 구조를 갖는 HMM에서 관측확률을 계산하는데 필요한 가우시안 함수의 부분집합을 구하는 새로운 가우시안 선택기법을 제안한다. PTM 모델에서는 음성신호의 음향특성에 따라 구분되는 클래스별 가중치와 공통적인 가우시안 집합을 이용하여 각 상태를 나타내는데, 제안한 방법에서는 PTM 구조가 갖는 이러한 특성을 이용하여 인식성능의 저하없이 관측확률 계산에 소요되는 적은 수의 가우시안 부분집합을 구한다. 실험결과 기존의 가우시안 선택기법이 가우시안 선택기법을 적용하지 않았을 경우에 비해 20∼30% 계산량을 필요로 하는데, 제안한 기법은 16.41%의 가우시안 함수 계산만으로도 별다른 인식성능 저하없이 인식 과정을 수행할 수 있었다.

Terrain Geometry from Monocular Image Sequences

  • McKenzie, Alexander;Vendrovsky, Eugene;Noh, Jun-Yong
    • Journal of Computing Science and Engineering
    • /
    • 제2권1호
    • /
    • pp.98-108
    • /
    • 2008
  • Terrain reconstruction from images is an ill-posed, yet commonly desired Structure from Motion task when compositing visual effects into live-action photography. These surfaces are required for choreography of a scene, casting physically accurate shadows of CG elements, and occlusions. We present a novel framework for generating the geometry of landscapes from extremely noisy point cloud datasets obtained via limited resolution techniques, particularly optical flow based vision algorithms applied to live-action video plates. Our contribution is a new statistical approach to remove erroneous tracks ('outliers') by employing a unique combination of well established techniques-including Gaussian Mixture Models (GMMs) for robust parameter estimation and Radial Basis Functions (REFs) for scattered data interpolation-to exploit the natural constraints of this problem. Our algorithm offsets the tremendously laborious task of modeling these landscapes by hand, automatically generating a visually consistent, camera position dependent, thin-shell surface mesh within seconds for a typical tracking shot.

Detection of Pathological Voice Using Linear Discriminant Analysis

  • Lee, Ji-Yeoun;Jeong, Sang-Bae;Choi, Hong-Shik;Hahn, Min-Soo
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.77-88
    • /
    • 2007
  • Nowadays, mel-frequency cesptral coefficients (MFCCs) and Gaussian mixture models (GMMs) are used for the pathological voice detection. This paper suggests a method to improve the performance of the pathological/normal voice classification based on the MFCC-based GMM. We analyze the characteristics of the mel frequency-based filterbank energies using the fisher discriminant ratio (FDR). And the feature vectors through the linear discriminant analysis (LDA) transformation of the filterbank energies (FBE) and the MFCCs are implemented. An accuracy is measured by the GMM classifier. This paper shows that the FBE LDA-based GMM is a sufficiently distinct method for the pathological/normal voice classification, with a 96.6% classification performance rate. The proposed method shows better performance than the MFCC-based GMM with noticeable improvement of 54.05% in terms of error reduction.

  • PDF

HOS 특징 벡터를 이용한 장애 음성 분류 성능의 향상 (Performance Improvement of Classification Between Pathological and Normal Voice Using HOS Parameter)

  • 이지연;정상배;최흥식;한민수
    • 대한음성학회지:말소리
    • /
    • 제66호
    • /
    • pp.61-72
    • /
    • 2008
  • This paper proposes a method to improve pathological and normal voice classification performance by combining multiple features such as auditory-based and higher-order features. Their performances are measured by Gaussian mixture models (GMMs) and linear discriminant analysis (LDA). The combination of multiple features proposed by the frame-based LDA method is shown to be an effective method for pathological and normal voice classification, with a 87.0% classification rate. This is a noticeable improvement of 17.72% compared to the MFCC-based GMM algorithm in terms of error reduction.

  • PDF

A novel Neuro Fuzzy Modeling using Gaussian Mixture Models

  • Kim, Sung-Suk;Kwak, Keun-Chang;Kim, Sung-Soo;Chun, Myung-Geun;Ryu, Jeong-Woong
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.110.1-110
    • /
    • 2002
  • We propose a novel neuro-fuzzy system based on an efficient clustering method. It is a very useful method that improves the performance of a fuzzy model with small number of fuzzy rules. The fuzzy clustering methods are studied in the wide range of fuzzy modeling. One of them, the grid partition method has problem of exponentially increasing number of rules when the dimension of input or number of membership function is linearly increased. On the other hand, the Expectation Maximization algorithm is an efficient estimation for unknown parameters of the Gaussian mixture model. Here it is noted that the parameters can be used for fuzzy clustering method. In a fuzzy modeling, it is desired that...

  • PDF

GPGPU를 이용한 가우시안 혼합 모델의 관측확률 계산 성능 향상 (Performance Improvement in Observation Probability Computation of Gaussian Mixture Models Using GPGPU)

  • 김형주;김승희;김상훈;장길진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.148-151
    • /
    • 2012
  • 범용 GPU (general-purpose computing on graphics processing units, GPGPU)는 GPU를 일반적인 목적으로 사용하고자 하는 병렬 컴퓨터 구조로써, 과학 연산 등 여러 분야에서 응용 프로그램의 성능을 향상시키기 위하여 사용되고 있다. 본 연구에서는 음성인식기에서 주로 사용되는 가우시안 혼합 모델(Gaussian mixture model, GMM)에서 많은 연산시간을 차지하는 관측확률 계산의 성능을 향상시키고자 GPGPU를 이용하는 알고리즘을 구현하였으며, 기존 CPU 기반 알고리즘 대비 약 13배 연산시간을 단축하였다.

멀티 카메라 연동을 위한 군집화 기반의 객체 특징 정합 (Clustering based object feature matching for multi-camera system)

  • 김현수;김경환
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.915-916
    • /
    • 2008
  • We propose a clustering based object feature matching for identification of same object in multi-camera system. The method is focused on ease to system initialization and extension. Clustering is used to estimate parameters of Gaussian mixture models of objects. A similarity measure between models are determined by Kullback-Leibler divergence. This method can be applied to occlusion problem in tracking.

  • PDF