• 제목/요약/키워드: GMM method

검색결과 300건 처리시간 0.025초

GMM을 위한 점진적 ${\cal}k-means$ 알고리즘에 의해 초기값을 갖는 EM알고리즘과 화자식별에의 적용 (EM Algorithm with Initialization Based on Incremental ${\cal}k-means$ for GMM and Its Application to Speaker Identification)

  • 서창우;한헌수;이기용;이윤정
    • 한국음향학회지
    • /
    • 제24권3호
    • /
    • pp.141-149
    • /
    • 2005
  • 개개인의 음성을 이용한 화자식별에서, 화자 모델을 추정하는데 가우시안 혼합모델이 주로 사용된다. 최대 우도 추정을 갖는 가우시안 혼합모델의 파라미터 추정은 Expectation-Maximisation (EM)을 사용하여 얻을 수 있다. 그러나, EM 알고리즘은 초기값에 상당히 민감하고, 혼합성분의 개수를 미리 알고 있어야 하는 단점이 있다. 본 논문에서는, EM 알고리즘의 문제점을 해결하기 위하여 가우시안 혼합모델을 위한 점진적 ${\cal}k-means$ 알고리즘에 의한 초기값을 갖는 EM 알고리즘을 제안한다. 제안된 방법은 혼합성분의 개수를 점진적 ${\cal}k-means$ 방법을 이용하여 한번에 하나씩 혼합성분을 추정하여 최적의 혼합성분이 얻어 질 때까지 이를 반복 수행한다. 하나의 혼합성분이 추가될 때마다, 새로 얻어진 혼합성분과 이전에 구한 혼합성분들간의 상호 관계를 각각 측정한다. 이로부터, 통계적으로 독립인 최적의 혼합성분 개수를 추정할 수 있다. 제안된 방법의 성능을 확인하기 위하여 임의의 생성 데이터와 실제 음성을 사용하였다. 실험 결과에서, 제안된 방법이 기존의 방법보다 화자 식별 성능이 우수하였으며, 또한 성능을 유지하면서도 계산량 감소의 효과까지 볼 수 있었다.

영상기반 보행자 키 추정 방법 (Height Estimation of pedestrian based on image)

  • 김성민;송종관;윤병우;박장식
    • 한국전자통신학회논문지
    • /
    • 제9권9호
    • /
    • pp.1035-1042
    • /
    • 2014
  • 객체인식은 지능적이고 다양화된 범죄 예방을 위한 영상 감시 시스템에서 중요한 기술 중 하나이다. 사람의 신체 정보인 키는 그 대상이 가지고 있는 신체적인 특징 중 하나로 신원을 확인하는데 중요한 정보가 될 수 있다. 본 논문에서는 CCTV 영상으로부터 보행자를 검출하고 검출된 객체인 보행자의 키를 추정하는 방법을 제안하였다. 이를 위하여 GMM(Gaussian Mixture Model) 방식을 이용하여 움직이는 객체를 분리하고, 분리된 후보 객체들의 가로세로 비율, 크기 등의 조건을 이용하여 보행자를 검출하였다. 제안한 방법을 CCTV 영상에 적용하고 동일 보행자에 대하여 근거리, 중거리, 원거리의 위치에서 키를 추정하고 정확성을 평가하였다. 실험결과 근거리에서 97%, 중거리에서 98%, 원거리에서 97% 이상의 정확도로 키 추정이 가능함을 보였다. 또한 영상내의 보행자는 위치에 따라 크기가 다르지만 실험을 통하여 제안하는 방법이 보행자의 위치에 관계없이 키를 추정하는데 효과적임을 확인하였다.

웨이블릿 영역에서 훈련 없는 은닉 마코프 트리 모델을 이용한 영상 보간 (Image Interpolation Using Hidden Markov Tree Model Without Training in Wavelet Domain)

  • 우동헌;엄일규;김유신
    • 대한전자공학회논문지SP
    • /
    • 제41권4호
    • /
    • pp.31-37
    • /
    • 2004
  • 웨이블릿 변환은 영상을 분석하고 처리하는데 유용한 도구로써 영상 압축, 영상 잡음 제거 등의 분야에서 우수한 성능을 보여주었다. 웨이블릿 계수들은 은닉 마코프 트리(Hidden Markov Tree: HMT) 모델에 의해 효과적으로 모델링 될 수 있다. 그러나 영상 보간에서 은닉 마코프 트리 모델을 적용하기 위해서는 훈련 과정이 필요하며 훈련 과정에서 획득된 파라미터들이 입력 영상과 잘 맞지 않는 단점이 있다. 본 논문에서는 웨이블릿 영역에서 영상 보간을 위해 은닉 마코프 트리의 구조를 사용하되, 그 파라미터들은 훈련 과정 없이 부대역간의 통계적 특성을 이용하여 직접 추정한다. 제안 방법에서 웨이블릿 계수는 가우스 혼합 모델(Gauss Mixture Model: GMM)로 모델링 된다. 가우스 혼합 모델의 상태 천이 확률은 부대역간의 웨이블릿 계수의 통계적 천이 특성을 이용하여 결정하며, 각 상태의 분산은 웨이블릿 계수의 지수적 감소(exponential decay) 특성에 의해, 추정된다. 모의실험에서 제안 방법은 전통적인 bicubic 방법이나 훈련 과정을 필요로 하는 은닉 마코프 모델을 사용한 방법보다 여러 테스트 영상들에 대해서 개선된 성능을 보여주었다.

Background Subtraction in Dynamic Environment based on Modified Adaptive GMM with TTD for Moving Object Detection

  • Niranjil, Kumar A.;Sureshkumar, C.
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권1호
    • /
    • pp.372-378
    • /
    • 2015
  • Background subtraction is the first processing stage in video surveillance. It is a general term for a process which aims to separate foreground objects from a background. The goal is to construct and maintain a statistical representation of the scene that the camera sees. The output of background subtraction will be an input to a higher-level process. Background subtraction under dynamic environment in the video sequences is one such complex task. It is an important research topic in image analysis and computer vision domains. This work deals background modeling based on modified adaptive Gaussian mixture model (GMM) with three temporal differencing (TTD) method in dynamic environment. The results of background subtraction on several sequences in various testing environments show that the proposed method is efficient and robust for the dynamic environment and achieves good accuracy.

대각공분산 GMM에 최적인 선형변환을 이용한 강인한 화자식별 (Robust Speaker Identification Using Linear Transformation Optimized for Diagonal Covariance GMM)

  • 김민석;양일호;유하진
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.67-80
    • /
    • 2008
  • We have been building a text-independent speaker recognition system that is robust to unknown channel and noise environments. In this paper, we propose a linear transformation to obtain robust features. The transformation is optimized to maximize the distances between the Gaussian mixtures. We use rotation of the axes, to cope with the problem of scaling the transformation matrix. The proposed transformation is similar to PCA or LDA, but can achieve better result in some special cases where PCA and LDA can not work properly. We use YOHO database to evaluate the proposed method and compare the result with PCA and LDA. The results show that the proposed method outperforms all the baseline, PCA and LDA.

  • PDF

Text Segmentation from Images with Various Light Conditions Based on Gaussian Mixture Model

  • Tran, Khoa Anh;Lee, Gueesang
    • International Journal of Contents
    • /
    • 제9권1호
    • /
    • pp.1-5
    • /
    • 2013
  • Standard Gaussian Mixture Model (GMM) is a well-known method for image segmentation. However, one of its problems is that we consider the pixel as independent to each other, which can cause the segmentation results sensitive to noise. It explains why some of existing algorithms still cannot segment texts from the background clearly. Therefore, we present a new method in which we incorporate the spatial relationship between a pixel and its neighbors inside $3{\times}3$ windows to segment the text. Our approach works well with images containing texts, which has different sizes, shapes or colors in case of light changes or complex background. Experimental results demonstrate the robustness, accuracy and effectiveness of the proposed model in image segmentation compared to other methods.

A Study on Vocal Separation from Mixtured Music

  • Kim, Hyun-Tae;Park, Jang-Sik
    • Journal of information and communication convergence engineering
    • /
    • 제9권2호
    • /
    • pp.161-165
    • /
    • 2011
  • Recently, According to increasing interest to original sound Karaoke instrument, MIDI type karaoke manufacturer attempt to make more cheap method instead of original recoding method. Separating technique for singing voice from music accompaniment is very useful in such equipment. We propose a system to separate singing voice from music accompaniment for stereo recordings. Our system consists of three stages. The first stage is a spectral change detector. The second stage classifies an input into vocal and non vocal portions by using GMM classifier. The last stage is a selective frequency separation stage. The results of removed by listening test from the results for computer based extraction simulation, spectrogram results show separation task successfully. Listening test with extracted MR from proposed system show vocal separating and removal task successfully.

피처벡터 축소방법에 기반한 장애음성 분류 (Classification of pathological and normal voice based on dimension reduction of feature vectors)

  • 이지연;정상배;최홍식;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.123-126
    • /
    • 2007
  • This paper suggests a method to improve the performance of the pathological/normal voice classification. The effectiveness of the mel frequency-based filter bank energies using the fisher discriminant ratio (FDR) is analyzed. And mel frequency cepstrum coefficients (MFCCs) and the feature vectors through the linear discriminant analysis (LDA) transformation of the filter bank energies (FBE) are implemented. This paper shows that the FBE LDA-based GMM is more distinct method for the pathological/normal voice classification than the MFCC-based GMM.

  • PDF

A Speaker Pruning Method for Real-Time Speaker Identification System

  • 김민정;석수영;정종혁
    • 대한임베디드공학회논문지
    • /
    • 제10권2호
    • /
    • pp.65-71
    • /
    • 2015
  • It has been known that GMM (Gaussian Mixture Model) based speaker identification systems using ML (Maximum Likelihood) and WMR (Weighting Model Rank) demonstrate very high performances. However, such systems are not so effective under practical environments, in terms of real time processing, because of their high calculation costs. In this paper, we propose a new speaker-pruning algorithm that effectively reduces the calculation cost. In this algorithm, we select 20% of speaker models having higher likelihood with a part of input speech and apply MWMR (Modified Weighted Model Rank) to these selected speaker models to find out identified speaker. To verify the effectiveness of the proposed algorithm, we performed speaker identification experiments using TIMIT database. The proposed method shows more than 60% improvement of reduced processing time than the conventional GMM based system with no pruning, while maintaining the recognition accuracy.

비디오 셧의 감정 관련 특징에 대한 통계적 모델링 (Statistical Model for Emotional Video Shot Characterization)

  • 박현재;강행봉
    • 한국통신학회논문지
    • /
    • 제28권12C호
    • /
    • pp.1200-1208
    • /
    • 2003
  • 비디오 데이터에 존재하는 감정을 처리하는 것은 지능적인 인간과 컴퓨터와의 상호작용을 위해서 매우 중요한 일이다. 이러한 감정을 추출하기 위해서는 비디오로부터 감정에 관련된 특징들을 검출하기 위한 컴퓨팅 모델을 구축하는 것이 바람직하다. 본 논문에서는 비디오 셧에 존재하는 저급 특징들의 확률적인 분포를 이용하여 감정 이벤트 발생에 관련된 통계학적인 모델을 제안한다. 즉, 비디오 셧의 기본적인 특징을 추출하고 그 특징을 통계적으로 모델화 하여 감정을 유발하는 셧을 찾아낸다. 비디오 셧의 특징으로는 칼라, 카메라 모션 및 셧 길이의 변화를 이용한다. 이러한 특징들을 EM(Expectation Maximization) 알고리즘을 이용하여 GMM(Gaussian Mixture Model) 으로 모델링하고, 감정과 시간과의 관계를 MLE(Maximum Likelihood Estimation)를 이용하여 시간에 따른 확률분포 모델로 구성한다. 이런 두 개의 통계적인 모델들을 융합하여 베이시안 분류법을 적용하여 비디오 데이터로부터 감정에 관련된 셧을 찾아낸다.