• 제목/요약/키워드: Gaussian mixture model (GMM)

검색결과 237건 처리시간 0.026초

3GPP2 SMV의 실시간 유/무성음 분류 성능 향상을 위한 Gaussian Mixture Model 기반 연구 (Enhancement Voiced/Unvoiced Sounds Classification for 3GPP2 SMV Employing GMM)

  • 송지현;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제45권5호
    • /
    • pp.111-117
    • /
    • 2008
  • 본 논문에서는 패턴 인식에서 우수한 성능을 보이는 가우시안 혼합모델 (Gaussian mixture model, GMM)을 이용하여 비정상적인 잡음환경에서 3GPP2 selectable mode vocoder (SMV)의 유/무성음 분류 알고리즘 성능 향상을 위한 방법을 제안한다. 기존의 SMV에 대해서 분석하고, 이론 기반으로 유/무성음 분류 알고리즘에서 우수한 성능을 보여주는 특징 벡터를 선택하여 GMM의 입력벡터로 효과적으로 이용한다 다양한 잡음환경에서 시스템의 성능을 평가한 결과 GMM을 이용한 제안된 방법이 기존의 SMV의 방법보다 우수한 유/무성음 분류 성능을 보였다.

Text-Independent Speaker Verification Using Variational Gaussian Mixture Model

  • Moattar, Mohammad Hossein;Homayounpour, Mohammad Mehdi
    • ETRI Journal
    • /
    • 제33권6호
    • /
    • pp.914-923
    • /
    • 2011
  • This paper concerns robust and reliable speaker model training for text-independent speaker verification. The baseline speaker modeling approach is the Gaussian mixture model (GMM). In text-independent speaker verification, the amount of speech data may be different for speakers. However, we still wish the modeling approach to perform equally well for all speakers. Besides, the modeling technique must be least vulnerable against unseen data. A traditional approach for GMM training is expectation maximization (EM) method, which is known for its overfitting problem and its weakness in handling insufficient training data. To tackle these problems, variational approximation is proposed. Variational approaches are known to be robust against overtraining and data insufficiency. We evaluated the proposed approach on two different databases, namely KING and TFarsdat. The experiments show that the proposed approach improves the performance on TFarsdat and KING databases by 0.56% and 4.81%, respectively. Also, the experiments show that the variationally optimized GMM is more robust against noise and the verification error rate in noisy environments for TFarsdat dataset decreases by 1.52%.

3GPP2 SMV 기반의 보이스 피싱 검출 알고리즘 (Voice-Pishing Detection Algorithm Based on 3GPP2 SMV)

  • 이계환;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제45권4호
    • /
    • pp.92-99
    • /
    • 2008
  • 본 논문에서는 보이스 피싱 (Voice Pishing) 예방을 위한 알고리즘을 3GPP2 Selectable Mode Vocoder (SMV) 코딩 파라미터를 기반으로 제안한다. 상대방 휴대폰에서 전송된 신호를 기반으로 SMV의 복호화 과정에서 자동적으로 추출되는 중요 특징벡터만을 사용하여 Gaussian Mixture Model (GMM)을 구성하고 이를 기반으로 보이스 피싱 예방을 위한 검출 알고리즘을 제안하였다. 실험 결과 제안된 코딩 파라미터 기반의 보이스 피싱 알고리즘이 전화사기 예방에 우수한 성능을 보인 것을 알 수 있었다.

모폴로지 연산과 가우시안 혼합 모형에 기반한 컬러 영상 분할 (Color Image Segmentation Based on Morphological Operation and a Gaussian Mixture Model)

  • 이명은;박순영;조완현
    • 대한전자공학회논문지SP
    • /
    • 제43권3호
    • /
    • pp.84-91
    • /
    • 2006
  • 본 논문에서는 수학적 모폴로지 연산과 가우시안 혼합 모형에 기초한 새로운 칼라 영상 분할 알고리즘을 제안한다. 우리는 혼합 모형에서 구성 성분의 수를 결정하고, 각 구성 성분의 중심값을 계산하는데 모폴로지의 연산과 라벨링 연산을 이용한다. 그리고 칼라 특징 벡터의 확률 모형으로 가우시안 혼합 모형을 사용하고, 이들의 모수 값들을 추정하는데 결정적 어닐링 EM알고리즘을 사용한다. 최종적으로 혼합 모형으로부터 계산된 사후 확률을 이용하여 칼라 영상을 분할한다. 실험 결과를 통하여 모폴로지 연산이 혼합모형의 수를 자동으로 결정하고 각 성분의 모드를 계산하는데 아주 효율적인 방법임을 보였고, 또한 결정적 어닐링 EM 알고리즘에 의하여 추정된 가우시안 혼합 모형을 사용하여 계산된 사후 확률에 의한 영상 분할 방법이 기존의 분할 알고리즘보다 정확한 분할 방법임을 보였다.

PCA 퍼지 혼합 모델을 이용한 화자 식별 (Speaker Identification Using PCA Fuzzy Mixture Model)

  • 이기용
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.149-157
    • /
    • 2003
  • In this paper, we proposed the principal component analysis (PCA) fuzzy mixture model for speaker identification. A PCA fuzzy mixture model is derived from the combination of the PCA and the fuzzy version of mixture model with diagonal covariance matrices. In this method, the feature vectors are first transformed by each speaker's PCA transformation matrix to reduce the correlation among the elements. Then, the fuzzy mixture model for speaker is obtained from these transformed feature vectors with reduced dimensions. The orthogonal Gaussian Mixture Model (GMM) can be derived as a special case of PCA fuzzy mixture model. In our experiments, with having the number of mixtures equal, the proposed method requires less training time and less storage as well as shows better speaker identification rate compared to the conventional GMM. Also, the proposed one shows equal or better identification performance than the orthogonal GMM does.

  • PDF

계층적 클러스터링과 Gaussian Mixture Model을 이용한 뉴로-퍼지 모델링 (A Neuro-Fuzzy Modeling using the Hierarchical Clustering and Gaussian Mixture Model)

  • 김승석;곽근창;유정웅;전명근
    • 한국지능시스템학회논문지
    • /
    • 제13권5호
    • /
    • pp.512-519
    • /
    • 2003
  • 본 논문에서는 계층적 클러스터링과 GMM을 순차적으로 이용하여 최적의 파라미터를 추정하고 이를 뉴로-퍼지 모델의 초기 파리미터로 사용하여 모델의 성능 개선을 제안한다. 반복적인 시도 중 가장 좋은 파라미터를 선택하는 기존의 알고리즘 과 달리 계층적 클러스터링은 데이터들 간의 유클리디언 거리를 이용하여 클러스터를 생성하므로 반복적인 시도가 불필요하다. 또한 클러스터링 방법에 의해 퍼지 모델링을 행하므로 클러스터와 동일한 갯수의 적은 규칙을 갖는다. 제안된 방법의 유용함을 비선형 데이터인 Box-Jenkins의 가스로 예측 문제와 Sugeno의 비선형 시스템에 적용하여 이전의 연구보다 적은 규칙으로도 성능이 개선되는 것을 보였다.

음성신호의 대역폭 확장을 위한 GMM 방법 및 HMM 방법의 성능평가 (Performance Comparison of GMM and HMM Approaches for Bandwidth Extension of Speech Signals)

  • 송근배;김석호
    • 한국음향학회지
    • /
    • 제27권3호
    • /
    • pp.119-128
    • /
    • 2008
  • 본 논문에서는 대역폭 확장 (Bandwidth Extension, BWE)을 위한 대표적인 통계적 방법인 가우스 혼합 모델 (Gaussian Mixture Model, GMM) 방법과 은닉마코프 모델 (Hidden Markov Model, HMM) 방법의 관계를 분석하고 성능을 비교한다. HMM 방법은 GMM 방법과 달리 기억능력을 가진 시스템으로서 인접한 음성 프레임간의 상관성을 모델링하고 이를 BWE 시스템에 활용한다는 장점을 가진다. 따라서 원래 신호의 프레임간 스펙트럼 변화특성을 보다 잘 추정할 수 있으리라 예상할 수 있다. 이 점을 확인하기 위해 정적 측도 외에 음성 스펙트럼의 일차 도 함수와 관련된 동적 측도를 적용하였다. 성능평가 결과, 정적 측도 관점에서는 두 방법은 대등한 성능을 보였지만 동적 측도 관점에서는 HMM 방법이 우수한 성능을 보였다. 또한 이러한 차이는 HMM 모델의 상태 수에 비례하여 증가함을 확인할 수 있었다. 이와 같은 실험결과는 HMM 방법이 적어도 'blind BWE' 문제에 있어서 적절한 해법임을 시사한다. 한편, 동적 측도의 관점에서는 비록 열세로 나타났지만 GMM 방법은 상대적으로 단순하다는 장점을 가지고 있으며 특히, 정적 측도에 있어서 HMM 방법과 대등하다는 사실은 응용분야에 따라서는 HMM 방법의 효과적인 대안이 될 수 있음을 시사한다.

손목 움직임 추정을 위한 Gaussian Mixture Model 기반 표면 근전도 패턴 분류 알고리즘 (A Gaussian Mixture Model Based Surface Electromyogram Pattern Classification Algorithm for Estimation of Wrist Motions)

  • 정의철;유송현;이상민;송영록
    • 대한의용생체공학회:의공학회지
    • /
    • 제33권2호
    • /
    • pp.65-71
    • /
    • 2012
  • In this paper, the Gaussian Mixture Model(GMM) which is very robust modeling for pattern classification is proposed to classify wrist motions using surface electromyograms(EMG). EMG is widely used to recognize wrist motions such as up, down, left, right, rest, and is obtained from two electrodes placed on the flexor carpi ulnaris and extensor carpi ulnaris of 15 subjects under no strain condition during wrist motions. Also, EMG-based feature is derived from extracted EMG signals in time domain for fast processing. The estimated features based in difference absolute mean value(DAMV) are used for motion classification through GMM. The performance of our approach is evaluated by recognition rates and it is found that the proposed GMM-based method yields better results than conventional schemes including k-Nearest Neighbor(k-NN), Quadratic Discriminant Analysis(QDA) and Linear Discriminant Analysis(LDA).

환경음 인식을 위한 GMM의 혼합모델 개수 추정 (Estimation of Optimal Mixture Number of GMM for Environmental Sounds Recognition)

  • 한다정;박아론;백성준
    • 한국산학기술학회논문지
    • /
    • 제13권2호
    • /
    • pp.817-821
    • /
    • 2012
  • 본 논문에서는 환경음 인식에 GMM(Gaussain mixture model)을 이용할 때 MDL(minimum description length)와 BIC(Bayesian information criterion) 모델선택 기준을 이용하여 최적의 혼합모델 개수를 결정하는 방법에 대해 다루었다. 실험은 모두 9가지 종류의 환경음으로부터 12차 MFCC(mel-frequency cepstral coefficients) 특징 27747개를 추출하고 이를 GMM으로 분류하였다. 각 환경음 클래스의 최적 혼합모델 개수를 추정 하기위해 MDL과 BIC를 적용하고 그 결과를 고정 개수의 혼합모델을 사용한 경우와 비교하였다. 실험 결과에 따르면 혼합모델 선택 방법을 적용한 경우가 그렇지 않은 경우에 비해 거의 유사한 인식성능을 유지하면서 계산복잡도는 BIC와 MDL를 통해 각각 17.8%와 31.7%가 감소하는 것을 확인하였다. 이는 GMM을 이용한 환경음 인식에서 BIC와 MDL 적용을 통해 계산복잡도를 효과적으로 감소시킬 수 있음을 보여준다.

화자 식별을 위한 GMM의 혼합 성분의 개수 추정 (Estimation of Mixture Numbers of GMM for Speaker Identification)

  • 이윤정;이기용
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.237-245
    • /
    • 2004
  • In general, Gaussian mixture model(GMM) is used to estimate the speaker model for speaker identification. The parameter estimates of the GMM are obtained by using the expectation-maximization (EM) algorithm for the maximum likelihood(ML) estimation. However, if the number of mixtures isn't defined well in the GMM, those parameters are obtained inappropriately. The problem to find the number of components is significant to estimate the optimal parameter in mixture model. In this paper, to estimate the optimal number of mixtures, we propose the method that starts from the sufficient mixtures, after, the number is reduced by investigating the mutual information between mixtures for GMM. In result, we can estimate the optimal number of mixtures. The effectiveness of the proposed method is shown by the experiment using artificial data. Also, we performed the speaker identification applying the proposed method comparing with other approaches.

  • PDF