• 제목/요약/키워드: GMM Model

검색결과 372건 처리시간 0.024초

Mahalanobis 거리측정 방법 기반의 GMM-Supervector SVM 커널을 이용한 화자인증 방법 (Speaker Verification Using SVM Kernel with GMM-Supervector Based on the Mahalanobis Distance)

  • 김형국;신동
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.216-221
    • /
    • 2010
  • 본 논문에서는 Gaussian Mixture Model (GMM)-supervector의 Mahalanobis 거리측정 방법 기반의 Support Vector Machine (SVM) 커널을 이용한 새로운 화자인증 방법을 제안한다. 제안된 GMM-supervector SVM 커널방식은 GMM 방식과 SVM 방식을 결합한 방식으로서, GMM 파라미터에 의해 형성된 화자 및 비 화자 GMM-supervectors의 화자인증 임계값을 Mahalanobis 거리측정 방법기반의 SVM 커널에 적용함으로써 화자인증 정확도를 높인다. 제안한 방식의 성능 측정을 위해 20명의 화자를 대상으로 문장독립형 화자인증 실험을 수행하여 기존에 사용되고 있는 GMM, SVM, Kullback-Leibler (KL) divergence 거리측정 방법 기반의 GMM-supervector SVM 커널, Bhattacharyya 거리측정 방법기반의 GMM-supervector SVM 커널 방식을 통한 화자인증 결과들과 비교하였다.

수정된 EM알고리즘을 이용한 GMM 화자식별 시스템의 성능향상 (Performance Enhancement of Speaker Identification System Based on GMM Using the Modified EM Algorithm)

  • 김성종;정익주
    • 음성과학
    • /
    • 제12권4호
    • /
    • pp.31-42
    • /
    • 2005
  • Recently, Gaussian Mixture Model (GMM), a special form of CHMM, has been applied to speaker identification and it has proved that performance of GMM is better than CHMM. Therefore, in this paper the speaker models based on GMM and a new GMM using the modified EM algorithm are introduced and evaluated for text-independent speaker identification. Various experiments were performed to evaluate identification performance of two algorithms. As a result of the experiments, the GMM speaker model attained 94.6% identification accuracy using 40 seconds of training data and 32 mixtures and 97.8% accuracy using 80 seconds of training data and 64 mixtures. On the other hand, the new GMM speaker model achieved 95.0% identification accuracy using 40 seconds of training data and 32 mixtures and 98.2% accuracy using 80 seconds of training data and 64 mixtures. It shows that the new GMM speaker identification performance is better than the GMM speaker identification performance.

  • PDF

음소별 GMM을 이용한 화자식별 (Speaker Identification using Phonetic GMM)

  • 권석봉;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.185-188
    • /
    • 2003
  • In this paper, we construct phonetic GMM for text-independent speaker identification system. The basic idea is to combine of the advantages of baseline GMM and HMM. GMM is more proper for text-independent speaker identification system. In text-dependent system, HMM do work better. Phonetic GMM represents more sophistgate text-dependent speaker model based on text-independent speaker model. In speaker identification system, phonetic GMM using HMM-based speaker-independent phoneme recognition results in better performance than baseline GMM. In addition to the method, N-best recognition algorithm used to decrease the computation complexity and to be applicable to new speakers.

  • PDF

MFCC를 이용한 GMM 기반의 음성/혼합 신호 분류 (Speech/Mixed Content Signal Classification Based on GMM Using MFCC)

  • 김지은;이인성
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.185-192
    • /
    • 2013
  • 본 논문에서는 MFCC를 이용한 GMM 기반의 음성과 혼합 신호 분류 알고리즘을 MPEG의 표준 코덱인 USAC에 적용하였다. 효과적인 패턴 인식을 위해 GMM을 이용하였고, EM알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안하는 분류 알고리즘은 두 가지 중요한 부분으로 나뉜다. 첫째는 GMM을 통해 최적의 파라미터를 추출하는 것 이고, 두 번째는 MFCC 값을 이용한 패턴인식을 통해 음성/혼합 신호를 분류하였다. 제안된 알고리즘의 성능을 평가한 결과 MFCC를 이용한 GMM 기반의 제안된 방법이 기존 USAC의 방법보다 우수한 음성/혼합 신호 분류 성능을 보였다.

화자 식별을 위한 GMM의 혼합 성분의 개수 추정 (Estimation of Mixture Numbers of GMM for Speaker Identification)

  • 이윤정;이기용
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.237-245
    • /
    • 2004
  • In general, Gaussian mixture model(GMM) is used to estimate the speaker model for speaker identification. The parameter estimates of the GMM are obtained by using the expectation-maximization (EM) algorithm for the maximum likelihood(ML) estimation. However, if the number of mixtures isn't defined well in the GMM, those parameters are obtained inappropriately. The problem to find the number of components is significant to estimate the optimal parameter in mixture model. In this paper, to estimate the optimal number of mixtures, we propose the method that starts from the sufficient mixtures, after, the number is reduced by investigating the mutual information between mixtures for GMM. In result, we can estimate the optimal number of mixtures. The effectiveness of the proposed method is shown by the experiment using artificial data. Also, we performed the speaker identification applying the proposed method comparing with other approaches.

  • PDF

화자독립 음성인식을 위한 GMM 기반 화자 정규화 (Speaker Normalization using Gaussian Mixture Model for Speaker Independent Speech Recognition)

  • 신옥근
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.437-442
    • /
    • 2005
  • 화자독립 음성인식기의 화자 정규화를 위해 GMM(Gaussian mixture model)분포를 이용하는 방법에 대해 실험한다. 이 방법은 벡터 양자화기를 이용한 선행 연구를 개선한 것으로, 정규화된 학습용 특징벡터들의 확률분포를 최적의 클러스터의 수를 갖는 GMM분포로 모델링한 다음, 이 분포를 이용하여 시험용화자의 워핑계수를 추정한다. 이 연구의 목적은 기존의 ML을 이용한 방법의 단점을 개선하는 동시에 벡터 양자화기를 이용한 선행연구와'soft decision'이라 불리는 확률 분포를 이용한 방법의 성능을 비교하는데 있다. TIMIT 코퍼스를 대상으로 한 음소 인식 실험에서 클러스터의 수를 적절한 크기로 설정한 GMM분포를 이용함으로써 벡터 양자화기를 이용한 방법에 비해 약간 나은 인식률을 얻을 수 있었다.

다양한 소리 환경에서 UBM 기반의 비명 소리 검출 (Scream Sound Detection Based on Universal Background Model Under Various Sound Environments)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.485-492
    • /
    • 2017
  • GMM(: Gaussian Mixture Model)은 비명 소리를 검출하기 위해서 가장 많이 사용되는 기법의 하나이다. 기존의 GMM 방식에서는 전체 훈련데이터를 비명소리와 비-비명 소리로 나누고, 훈련과정을 통하여 각각의 GMM 모델을 생성하게 된다. 그러나 본 연구에서는 비명 소리 검출 과정이 화자인식과 매우 유사하다는 점에 착안하여 화자인식에서 매우 효과적으로 사용된 UBM(: Universal Background Model) 방식을 비명소리 검출에 적용할 것을 제안하였다. 제안된 UBM 방식을 통한 검출 실험 결과 기존의 GMM 방식에 비하여 더 나은 검출 성능을 보임을 인식 실험을 통하여 확인 할 수 있었다.

음성신호의 대역폭 확장을 위한 GMM 방법 및 HMM 방법의 성능평가 (Performance Comparison of GMM and HMM Approaches for Bandwidth Extension of Speech Signals)

  • 송근배;김석호
    • 한국음향학회지
    • /
    • 제27권3호
    • /
    • pp.119-128
    • /
    • 2008
  • 본 논문에서는 대역폭 확장 (Bandwidth Extension, BWE)을 위한 대표적인 통계적 방법인 가우스 혼합 모델 (Gaussian Mixture Model, GMM) 방법과 은닉마코프 모델 (Hidden Markov Model, HMM) 방법의 관계를 분석하고 성능을 비교한다. HMM 방법은 GMM 방법과 달리 기억능력을 가진 시스템으로서 인접한 음성 프레임간의 상관성을 모델링하고 이를 BWE 시스템에 활용한다는 장점을 가진다. 따라서 원래 신호의 프레임간 스펙트럼 변화특성을 보다 잘 추정할 수 있으리라 예상할 수 있다. 이 점을 확인하기 위해 정적 측도 외에 음성 스펙트럼의 일차 도 함수와 관련된 동적 측도를 적용하였다. 성능평가 결과, 정적 측도 관점에서는 두 방법은 대등한 성능을 보였지만 동적 측도 관점에서는 HMM 방법이 우수한 성능을 보였다. 또한 이러한 차이는 HMM 모델의 상태 수에 비례하여 증가함을 확인할 수 있었다. 이와 같은 실험결과는 HMM 방법이 적어도 'blind BWE' 문제에 있어서 적절한 해법임을 시사한다. 한편, 동적 측도의 관점에서는 비록 열세로 나타났지만 GMM 방법은 상대적으로 단순하다는 장점을 가지고 있으며 특히, 정적 측도에 있어서 HMM 방법과 대등하다는 사실은 응용분야에 따라서는 HMM 방법의 효과적인 대안이 될 수 있음을 시사한다.

미전사 음성 데이터베이스를 이용한 가우시안 혼합 모델 적응 기반의 음성 인식용 음향 모델 변환 기법 (Acoustic Model Transformation Method for Speech Recognition Employing Gaussian Mixture Model Adaptation Using Untranscribed Speech Database)

  • 김우일
    • 한국정보통신학회논문지
    • /
    • 제19권5호
    • /
    • pp.1047-1054
    • /
    • 2015
  • 본 논문에서는 음성 인식 성능 향상을 위해 미전사된 음성 데이터베이스를 이용한 효과적인 음향 모델 변환 기법을 기술한다. 본 논문에서 기술하는 모델 변환 기법에서는 기존의 적응 기법을 이용하여 환경에 적응된 GMM을 얻는다. HMM의 가우시안 요소와 유사한 요소를 선택하여 선택된 가우시안 요소의 변환 벡터를 구하고 이를 평균 파라미터 변환에 이용한다. GMM 적응 기반의 모델 변환 기법을 기존의 MAP, MLLR 적응 기법과 결합하여 적용한 결과, 자동차 잡음과 음성 Babble 잡음 환경에서 기존의 MAP, MLLR을 단독으로 사용할 경우보다 높은 음성 인식성능을 나타낸다. 온라인 음향 모델 적응 실험에서도 MLLR과 결합할 경우 기존의 MLLR을 단독으로 사용할 때보다 효과적인 모델 적응 성능을 나타낸다. 이와 같은 결과는 본 논문에서 소개한 GMM 적응 기반의 모델 변환 기법을 채용함으로써 미전사된 음성 데이터베이스를 음향 모델 적응 기법에 효과적으로 활용할 수 있음을 입증한다.

NLL과 GMM을 중심으로 한 확산모형 추정법 비교 (Comparison Study on the Performances of NLL and GMM for Estimating Diffusion Processes)

  • 김대균;이윤동
    • 응용통계연구
    • /
    • 제24권6호
    • /
    • pp.1007-1020
    • /
    • 2011
  • 현대금융공학에 있어서 확산모형은 중요한 역할을 담당하고 있다. 다양한 형태의 확산모형이 제안되어왔고 현실에 응용되어 왔다. 확산모형을 이용하여 금융자료를 분석하기 위하여는 확산모형의 모수를 추정하는 것이 필수불가결한 단계이다. 이들 모수에 대한 다양한 추정방법들이 제안되어 왔고, 많은 연구에서 이러한 추정방법들이 갖는 성질에 대하여 연구되어져왔다. 이 연구에서는 그 적용방법이 단순하여 가장 자주 사용되는 것으로 알려진, 오일러 근사법과 신국소근사법(NLL) 그리고 일반화 적률법(GMM)과 같은 세 가지 추정방법들에 대한 통계적 성질을 검토하게 될 것이다. 모의실험연구를 통하여 오일러근사법이나 NLL방법이 GMM 방법에 비하여 훨씬 좋은 성질을 가지고 있음을 보이게 된다. 특히 GMM은 적용방법이 단순할 뿐만 아니라 강건성(robustness)이라는 좋은 성질을 가지고 있는 것으로 알려져 있어서 많은 연구에서 매우 자주 사용되는 추정방법이다. 그러나 본 연구에서 확인해 본 바와 같이 GMM은 그 사용법이 오히려 더욱 단순한 NLL이나 오일러방법에 비하여 열등한 통계적 성질을 보여주고 있었다. 특히나 확산계수에 추정모수가 포함된 경우에 GMM은 매우 좋지 못한 성질을 보이게 된다.