• 제목/요약/키워드: Gaussian Mixture model (GMM)

검색결과 236건 처리시간 0.032초

Mahalanobis 거리측정 방법 기반의 GMM-Supervector SVM 커널을 이용한 화자인증 방법 (Speaker Verification Using SVM Kernel with GMM-Supervector Based on the Mahalanobis Distance)

  • 김형국;신동
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.216-221
    • /
    • 2010
  • 본 논문에서는 Gaussian Mixture Model (GMM)-supervector의 Mahalanobis 거리측정 방법 기반의 Support Vector Machine (SVM) 커널을 이용한 새로운 화자인증 방법을 제안한다. 제안된 GMM-supervector SVM 커널방식은 GMM 방식과 SVM 방식을 결합한 방식으로서, GMM 파라미터에 의해 형성된 화자 및 비 화자 GMM-supervectors의 화자인증 임계값을 Mahalanobis 거리측정 방법기반의 SVM 커널에 적용함으로써 화자인증 정확도를 높인다. 제안한 방식의 성능 측정을 위해 20명의 화자를 대상으로 문장독립형 화자인증 실험을 수행하여 기존에 사용되고 있는 GMM, SVM, Kullback-Leibler (KL) divergence 거리측정 방법 기반의 GMM-supervector SVM 커널, Bhattacharyya 거리측정 방법기반의 GMM-supervector SVM 커널 방식을 통한 화자인증 결과들과 비교하였다.

잡음 환경에 효과적인 음성 인식을 위한 Gaussian mixture model deep neural network 하이브리드 기반의 특징 보상 (A study on Gaussian mixture model deep neural network hybrid-based feature compensation for robust speech recognition in noisy environments)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.506-511
    • /
    • 2018
  • 본 논문에서는 잡음 환경에서 효과적인 음성인식을 위하여 GMM(Gaussian Mixture Model)-DNN(Deep Neural Network) 하이브리드 기반의 특징 보상 기법을 제안한다. 기존의 GMM 기반의 특징 보상에서 필요로 하는 사후 확률을 DNN을 통해 계산한다. Aurora 2.0 데이터를 이용한 음성 인식 성능 평가에서 본 논문에서 제안한 GMM-DNN 하이브리드 기법이 기존의 GMM 기반 기법에 비해 Known, Unknown 잡음 환경에서 모두 평균적으로 우수한 성능을 나타낸다. 특히 Unknown 잡음 환경에서 평균 오류율이 9.13 %의 상대 향상률을 나타내고, 낮은 SNR(Signal to Noise Ratio) 잡음 환경에서 상당히 우수한 성능을 보인다.

청각장애인을 위한 상황인지기반의 음향강화기술 (Sound Reinforcement Based on Context Awareness for Hearing Impaired)

  • 최재훈;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제48권5호
    • /
    • pp.109-114
    • /
    • 2011
  • 본 논문에서는 청각장애인을 위한 음향 데이터를 이용한 음향강화 알고리즘을 Gaussian Mixture Model (GMM)을 이용한 상황인지 시스템 기반으로 제안한다. 음향 신호 데이터에서 Mel-Frequency Cepstral Coefficients (MFCC) 특징벡터를 추출하여 GMM을 구성하고 이를 기반으로 상황인지 결과에 따라 위험음향일 경우 음향강화기술을 제안한다. 실험결과 제안된 상황인지 기반의 음향강화 알고리즘이 다양한 음향학적 환경에서 우수한 성능을 보인 것을 알 수 있었다.

Performance of GMM and ANN as a Classifier for Pathological Voice

  • Wang, Jianglin;Jo, Cheol-Woo
    • 음성과학
    • /
    • 제14권1호
    • /
    • pp.151-162
    • /
    • 2007
  • This study focuses on the classification of pathological voice using GMM (Gaussian Mixture Model) and compares the results to the previous work which was done by ANN (Artificial Neural Network). Speech data from normal people and patients were collected, then diagnosed and classified into two different categories. Six characteristic parameters (Jitter, Shimmer, NHR, SPI, APQ and RAP) were chosen. Then the classification method based on the artificial neural network and Gaussian mixture method was employed to discriminate the data into normal and pathological speech. The GMM method attained 98.4% average correct classification rate with training data and 95.2% average correct classification rate with test data. The different mixture number (3 to 15) of GMM was used in order to obtain an optimal condition for classification. We also compared the average classification rate based on GMM, ANN and HMM. The proper number of mixtures on Gaussian model needs to be investigated in our future work.

  • PDF

야간 영상 감시를 위한 GMM기반의 배경 차분 (Background Subtraction based on GMM for Night-time Video Surveillance)

  • 여정연;이귀상
    • 스마트미디어저널
    • /
    • 제4권3호
    • /
    • pp.50-55
    • /
    • 2015
  • 본 논문에서는 야간 영상 감시(night-time video surveillance)에 특화된 GMM(Gausssian mixture model)기반의 배경 모델링(background modeling)을 이용한 배경 차분(background subtraction)방법을 제안한다. 야간 영상에서는 낮 영상에 비해 배경과 객체의 구분이 뚜렷하지 않아 매우 흡사한 픽셀 값들을 이용하여 배경을 분리해야 한다. 이러한 문제점을 해결하기 위해 전처리 단계에서 조정된 범위의 히스토그램 스트레칭을 이용하여 입력 픽셀 값을 배경 모델링에 이로운 픽셀 값으로 변경해준다. 조정된 픽셀 값을 이용하여 가장 이상적인 배경을 찾기 위해 픽셀 단위로 GMM기반의 배경 모델링 방법을 적용한다. GMM을 기반으로 한 배경모델링 방법에서는 새로운 픽셀 값이 입력되었을 때 어떤 가우시안에도 속하지 않는다면 가장 낮은 가중치를 가진 가우시안 분포를 제거함으로써 이전의 축적된 배경의 정보를 무시하는 결과를 낳게 된다. 따라서 본 논문에서는 낮은 가중치의 가우시안을 제거하는 대신 기존 가우시안의 평균과 입력된 픽셀 값의 차를 이용하여 새로운 평균에 적용함으로써 기존의 쌓여진 정보를 고려한다. 실험결과 제안된 배경 모델링 방법이 기존 방법의 이점을 유지하면서 야간 영상 감지에 특화된 배경 차분 결과를 보였다.

화자독립 음성인식을 위한 GMM 기반 화자 정규화 (Speaker Normalization using Gaussian Mixture Model for Speaker Independent Speech Recognition)

  • 신옥근
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.437-442
    • /
    • 2005
  • 화자독립 음성인식기의 화자 정규화를 위해 GMM(Gaussian mixture model)분포를 이용하는 방법에 대해 실험한다. 이 방법은 벡터 양자화기를 이용한 선행 연구를 개선한 것으로, 정규화된 학습용 특징벡터들의 확률분포를 최적의 클러스터의 수를 갖는 GMM분포로 모델링한 다음, 이 분포를 이용하여 시험용화자의 워핑계수를 추정한다. 이 연구의 목적은 기존의 ML을 이용한 방법의 단점을 개선하는 동시에 벡터 양자화기를 이용한 선행연구와'soft decision'이라 불리는 확률 분포를 이용한 방법의 성능을 비교하는데 있다. TIMIT 코퍼스를 대상으로 한 음소 인식 실험에서 클러스터의 수를 적절한 크기로 설정한 GMM분포를 이용함으로써 벡터 양자화기를 이용한 방법에 비해 약간 나은 인식률을 얻을 수 있었다.

피치 정보를 이용한 GMM 기반의 화자 식별 (GMM based Speaker Identification using Pitch Information)

  • 박태선;한민수
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.121-129
    • /
    • 2003
  • This paper describes the use of pitch information for speaker identification. The recognition system is a GMM based one with 4 connected Korean digits speech database. The mean of the pitch period in voiced sections of speech are shown to be ,useful at discriminating between speakers. Utilizing this feature with Gaussian mixture model in the speaker identification system gave a marked improvement, maximum 6% improvement comparing to the baseline Gaussian mixture model.

  • PDF

3GPP2 SMV의 실시간 음성/음악 분류 성능 향상을 위한 Gaussian Mixture Model의 적용 (Analysis and Implementation of Speech/Music Classification for 3GPP2 SMV Based on GMM)

  • 송지현;이계환;장준혁
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.390-396
    • /
    • 2007
  • 본 논문에서는 음성 인식과 음악 인식에서 뛰어난 성능을 보이는 Expectation-Maximization(EM) 알고리즘 기반의 패턴인식기법인 가우시안 혼합모델(Gaussian Mixture Model, GMM)을 이용하여 기존의 3GPP2 Selectable Mode Vocoder(SMV)의 실시간 음성/음악 분류 성능을 향상 시키는 방법을 제안한다 SMV의 음성/음악 실시간 분류 알고리즘에서 사용된 특징벡터와 분류방법을 분석하고, 이를 기반으로 분류성능향상을 위해 패턴인식 알고리즘인 GMM을 도입한다. 구체적으로, SMV의 음성/음악 분류알고리즘에서 사용되어진 특징벡터만을 선택적으로 사용하여 효과적인 GMM을 구성한 실시간 분류기법이 제시되었다. SMV의 음성/음악 분류에 적용한 GMM의 성능 평가를 위해 SMV 원래의 분류알고리즘과 비교하였으며, 다양한 음악장르에 대해 시스템의 성능을 평가한 결과 GMM을 이용하였을 때 기존의 SMV의 방법보다 우수한 음성/음악 분류 성능을 보였다.

Gaussian Mixture Model을 이용한 다중 범주 분류를 위한 특징벡터 선택 알고리즘 (Feature Selection for Multi-Class Genre Classification using Gaussian Mixture Model)

  • 문선국;최택성;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제32권10C호
    • /
    • pp.965-974
    • /
    • 2007
  • 본 논문에서는 내용 기반 음악 범주 분류 시스템에서 다중 범주를 위한 특징벡터 선택 알고리즘을 제안한다. 제안된 특징벡터 선택 알고리즘은 분리 성능을 측정할 때 가우시안 혼합 모델(Gaussian Mixture Model: GMM)을 기반으로 GMM separation score을 측정함으로써 확률분포 및 분리 성능 추정의 정확도를 높였고, sequential forward selection 방법을 개선하여 이전까지 선택된 특징벡터들이 분리를 잘 하지 못하는 범주들을 기준으로 다음 특징벡터를 선택하는 알고리즘을 제안하여 다중 범주 분류의 성능을 높였다. 제안된 알고리즘의 성능 검증을 위해 음색, 리듬, 피치 등 오디오 신호의 특징을 나타내는 다양한 파라미터를 오디오 신호로부터 추출하여 제안된 특징벡터 선택 알고리즘과 기존의 알고리즘으로 특징벡터를 선택한 후 GMM classifier와 k-NN classifier를 이용하여 분류 성능을 평가하였다. 제안된 특징벡터 선택 알고리즘은 기존 알고리즘에 비하여 3%에서 8% 정도의 분류 성능이 향상된 것을 확인할 수 있었고 특히 낮은 차원의 특징벡터의 분류 실험에서는 분류 정확도 측면에서 5%에서 10% 향상된 좋은 성능을 보였다.

주파수 영역에서의 Gaussian Mixture Model 기반의 동시통화 검출 연구 (Frequency Domain Double-Talk Detector Based on Gaussian Mixture Model)

  • 이규호;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.401-407
    • /
    • 2009
  • 본 논문에서는 주파수 영역에서의 가우시안 혼합 모델 (Gaussian Mixture Model, GMM) 기반의 새로운 동시통화 검출 (Double-talk Detection, DTD) 알고리즘을 제안한다. 구체적으로 주파수 영역에서의 음향학적 반향억제 (Acoustic Echo Suppression, AES)를 위한 동시 통화 검출 알고리즘을 구성하기 위해 기존의 시간 영역에서의 동시통화 검출에 사용되는 상호 상관계수를 이산 푸리에 변환을 통해 16개 채널의 주파수 영역으로 변환하였다. 이러한 주파수 영역에서의 상호 상관계수를 GMM의 보다 효과적인 구성을 위해 통계적 분류 특성에 근거하여 우수한 7개를 선별하였다. 본 논문은 이러한 특징 벡터로 패턴인식에서 우수한 성능을 보이는 GMM을 구성하였으며 원단화자만 있는 구간, 동시통화 구간, 근단 화자만 있는 구간을 우도 (Likelihood) 비교에 따라 분류함으로써 별도의 원단 화자 신호에 대한 음성 검출기 (Voice Activity Detector, VAD)의 사용 없이 잡음환경과 반향 경로 변화에서 강인한 동시통화 검출 알고리즘을 제안한다. 다양한 실험 결과 제안된 방법은 기존의 상호 상관계수를 고정된 문턱 값과 가부 비교하여 동시 통화 구간을 검출하는 hard decision 방법에 비해 검출 오류 확률 (Detection Error Probability)을 비교한 결과 우수한 성능을 보였다.