• 제목/요약/키워드: GMM System

검색결과 194건 처리시간 0.021초

음소별 GMM을 이용한 화자식별 (Speaker Identification using Phonetic GMM)

  • 권석봉;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.185-188
    • /
    • 2003
  • In this paper, we construct phonetic GMM for text-independent speaker identification system. The basic idea is to combine of the advantages of baseline GMM and HMM. GMM is more proper for text-independent speaker identification system. In text-dependent system, HMM do work better. Phonetic GMM represents more sophistgate text-dependent speaker model based on text-independent speaker model. In speaker identification system, phonetic GMM using HMM-based speaker-independent phoneme recognition results in better performance than baseline GMM. In addition to the method, N-best recognition algorithm used to decrease the computation complexity and to be applicable to new speakers.

  • PDF

수정된 EM알고리즘을 이용한 GMM 화자식별 시스템의 성능향상 (Performance Enhancement of Speaker Identification System Based on GMM Using the Modified EM Algorithm)

  • 김성종;정익주
    • 음성과학
    • /
    • 제12권4호
    • /
    • pp.31-42
    • /
    • 2005
  • Recently, Gaussian Mixture Model (GMM), a special form of CHMM, has been applied to speaker identification and it has proved that performance of GMM is better than CHMM. Therefore, in this paper the speaker models based on GMM and a new GMM using the modified EM algorithm are introduced and evaluated for text-independent speaker identification. Various experiments were performed to evaluate identification performance of two algorithms. As a result of the experiments, the GMM speaker model attained 94.6% identification accuracy using 40 seconds of training data and 32 mixtures and 97.8% accuracy using 80 seconds of training data and 64 mixtures. On the other hand, the new GMM speaker model achieved 95.0% identification accuracy using 40 seconds of training data and 32 mixtures and 98.2% accuracy using 80 seconds of training data and 64 mixtures. It shows that the new GMM speaker identification performance is better than the GMM speaker identification performance.

  • PDF

피치 정보를 이용한 GMM 기반의 화자 식별 (GMM based Speaker Identification using Pitch Information)

  • 박태선;한민수
    • 대한음성학회지:말소리
    • /
    • 제47호
    • /
    • pp.121-129
    • /
    • 2003
  • This paper describes the use of pitch information for speaker identification. The recognition system is a GMM based one with 4 connected Korean digits speech database. The mean of the pitch period in voiced sections of speech are shown to be ,useful at discriminating between speakers. Utilizing this feature with Gaussian mixture model in the speaker identification system gave a marked improvement, maximum 6% improvement comparing to the baseline Gaussian mixture model.

  • PDF

GMM-Based Maghreb Dialect Identification System

  • Nour-Eddine, Lachachi;Abdelkader, Adla
    • Journal of Information Processing Systems
    • /
    • 제11권1호
    • /
    • pp.22-38
    • /
    • 2015
  • While Modern Standard Arabic is the formal spoken and written language of the Arab world; dialects are the major communication mode for everyday life. Therefore, identifying a speaker's dialect is critical in the Arabic-speaking world for speech processing tasks, such as automatic speech recognition or identification. In this paper, we examine two approaches that reduce the Universal Background Model (UBM) in the automatic dialect identification system across the five following Arabic Maghreb dialects: Moroccan, Tunisian, and 3 dialects of the western (Oranian), central (Algiersian), and eastern (Constantinian) regions of Algeria. We applied our approaches to the Maghreb dialect detection domain that contains a collection of 10-second utterances and we compared the performance precision gained against the dialect samples from a baseline GMM-UBM system and the ones from our own improved GMM-UBM system that uses a Reduced UBM algorithm. Our experiments show that our approaches significantly improve identification performance over purely acoustic features with an identification rate of 80.49%.

DNN-HMM 기반 시스템을 이용한 효과적인 구개인두부전증 환자 음성 인식 (Effective Recognition of Velopharyngeal Insufficiency (VPI) Patient's Speech Using DNN-HMM-based System)

  • 윤기무;김우일
    • 한국정보통신학회논문지
    • /
    • 제23권1호
    • /
    • pp.33-38
    • /
    • 2019
  • 본 논문에서는 효과적으로 VPI 환자 음성을 인식하기 위해 DNN-HMM 하이브리드 구조의 음성 인식 시스템을 구축하고 기존의 GMM-HMM 기반의 음성 인식 시스템과의 성능을 비교한다. 정상인의 깨끗한 음성 데이터베이스를 이용하여 초기 모델을 학습하고 정상인의 VPI 모의 음성을 이용하여 VPI 환자 음성에 대한 화자 인식을 위한 기본 모델을 생성한다. VPI 환자의 화자 적응 시에는 DNN의 각 층 별 가중치 행렬을 부분적으로 학습하여 성능을 관찰한 결과 GMM-HMM 인식기보다 높은 성능을 나타냈다. 성능 향상을 위해 DNN 모델 적응을 적용하고 LIN 기반의 DNN 모델 적용 결과 평균 2.35%의 인식률 향상을 나타냈다. 또한 소량의 데이터를 사용했을 때 GMM-HMM 기반 음성인식 기법에 비해 DNN-HMM 기반 음성 인식 기법이 향상된 VPI 음성 인식 성능을 보인다.

생체기반 GMM Supervector Kernel을 이용한 운전자검증 기술 (Driver Verification System Using Biometrical GMM Supervector Kernel)

  • 김형국
    • 한국ITS학회 논문지
    • /
    • 제9권3호
    • /
    • pp.67-72
    • /
    • 2010
  • 본 논문에서는 음성과 얼굴 정보를 분석하여 자동차환경에서 운전자를 검증하는 기술을 소개한다. 음성정보를 이용한 화자검증을 위해서는 잘 알려진 Mel-scale Frequency Cepstral Coefficients(MFCCs)를 음성 특징으로 사용하였으며, 동영상을 이용한 얼굴검증에 대해서는 AdaBoost를 이용하여 검출된 얼굴 영역에 대해 주성분 분석을 수행하여 데이터의 크기가 현저히 줄어든 특징벡터를 추출하였다. 기존의 화자검증 방식에 비해 본 논문에서는 추출된 음성 및 얼굴 특징들을 Gaussian Mixture Models(GMM)-Supervector기반의 Support Vector Machine(SVM)커넬 방식에 적용하여 운전자의 음성과 얼굴을 효과적으로 검증하는 방식을 제안하였다. 실험결과 제안한 방법은 단순한 GMM 방식이나 SVM 방식보다 운전자 검증성능을 향상시킴을 알 수 있었다.

동태적 패널모형을 통한 무역보험의 거시경제효과 연구 (A Study on the Macroeconomic Effects of Trade Insurance Using Dynamic Panel Models)

  • 남상욱
    • 무역상무연구
    • /
    • 제61권
    • /
    • pp.165-190
    • /
    • 2014
  • The purpose of this study is to measure the trade insurance's macroeconomic effects by analyzing the causality between major economic variables(GDP per capita, market interest rate, inflation, unemployment rate, exchange rate) and trade insurance variable. I conducted empirical analyses using First-difference GMM(Generalized Method of Moments), System GMM and Panel-VAR Model, with panel data from 11 countries(Korea, United States, Japan, BRICs, Indonesia, Singapore, Hong Kong, Vietnam) between 1992 and 2011. There are several important findings. Above all, Trade insurance is positively and significantly related to GDP. This results show that trade insurance serves to increase economic growth. In other words, trade insurance leads to economic growth by helping increase GDP per capita. Especially, trade insurance negatively related to unemployment rate, it is for sure that trade insurance contribute to decrease unemployment rate. And trade insurance helps control of inflation. It is also confirmed that trade insurance contributes to price stability, which in turn serves to stabilize the overall economy. And this research finds as uncertainty in the market increases, seen it as increase of exchange rate, increasing trade insurance supply is stabilize the exchange rate.

  • PDF

차량검출 GMM 2.0을 적용한 도로 위의 차량 검출 시스템 구축 (On-Road Car Detection System Using VD-GMM 2.0)

  • 이옥민;원인수;이상민;권장우
    • 한국통신학회논문지
    • /
    • 제40권11호
    • /
    • pp.2291-2297
    • /
    • 2015
  • 본 연구에서는 레이더 검지 시스템과 통합하여 적용하기 위해 도로 위를 이동하는 자동차의 영상을 입력 받아 자동차를 검출하는 방법을 제안한다. 입력 영상의 제약조건이 있다. 도로 위에서 아래 방향을 비스듬히 내려 보는 고정된 시야를 가져야한다는 점이다. 주어진 영상 중 도로 영역만을 이용하기 위해 도로 영역을 관심영역으로 검출해 적용한다. 서론에서는 도로 영역 내에서 차량 검출을 위해 사용한 모션 히스토리 이미지 추출 방법, SIFT(Scale-Invariant Feature Transform) 알고리즘, 히스토그램 분석 등을 적용한 실험결과와 이에 대한 한계점을 제시했다. 이를 해결하기 위해서 가우시안 혼합 모델(GMM, Gaussian Mixture Model)의 응용을 제안한다. 가우시안 혼합 모델 알고리즘을 응용한 차량 검출 GMM(VDGMM, Vehicle Detection GMM)과 이를 차량 검출에 더 최적화한 차량 검출 GMM 2.0을 설명하고, 차량 검출 GMM 2.0을 적용한 실험결과 및 결론을 제시한다. 도로 영역 검출 없이 GMM을 적용한 결과는 정확율, 재현율, F1이 각각 9%, 53%, 15%이었고, 도로 영역 검출 후 차량 검출 GMM 2.0을 적용한 결과는 각각 85%, 77%, 80%로 많은 차이를 보였다.

피보호자 모니터링 시스템을 위한 환경음 기반 상황 인식 (Context Recognition Using Environmental Sound for Client Monitoring System)

  • 지승은;조준영;이충근;오시원;김우일
    • 한국정보통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.343-350
    • /
    • 2015
  • 본 논문에서는 모바일 기반의 피보호자 모니터링 시스템 적용을 위한 환경음 기반의 상황 인식 기술을 소개한다. 상황 인식 실험을 위해 총 7가지의 음향 환경으로 나누어 환경음을 취득한다. 환경음 인식 성능 비교를 위해 MFCC와 LPCC 특징 추출 기법을 이용한다. 통계적 기반의 패턴인식 기법을 적용하기 위해 GMM 및 HMM 음향 모델을 기반으로 인식기를 설계한다. 인식 실험 결과에서는 LPCC 특징 추출 기법이 MFCC 기법 보다 우수하고, 음향 모델은 HMM이 GMM에 비해 높은 인식 성능을 나타낸다. LPCC 특징을 사용하고 HMM 모델을 채용함으로써 최고 96.03%의 인식률을 나타낸다. 이와 같은 결과는 음성에 비하여 다양한 주파수 성분이 존재하는 환경음을 표현하는데 MFCC 보다는 LPCC가 효과적임을 나타내며, 시간에 따라 변하는 특성을 갖는 환경음은 GMM 보다 HMM이 효과적임을 입증한다.

Deep neural network-hidden Markov model 하이브리드 구조의 모델을 사용한 사용자 정의 기동어 인식 시스템에 관한 연구 (A study on user defined spoken wake-up word recognition system using deep neural network-hidden Markov model hybrid model)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • 제39권2호
    • /
    • pp.131-136
    • /
    • 2020
  • 음성 인식기를 대기모드에서 동작 모드로 전환하기 위해 발화하는 짧은 단어를 기동어(Wake Up Word, WUW)라고 하며, 음성 인식기를 실제로 사용하는 사용자가 지정한 기동어를 사용자 정의 기동어라고 한다. 본 논문에서는 이러한 사용자 정의 기동어를 인식하기 위해 기존의 Gaussian Mixture Model-Hidden Markov Model(GMM-HMM) 기반의 시스템, Linear Discriminant Analysis(LDA)를 적용한 LDA-GMM-HMM 기반의 시스템과, LDA-GMM-HMM 모델에서 GMM을 Deep Neural Network(DNN)로 대체한 LDA-DNN-HMM 기반의 시스템을 제작하고 각 시스템의 사용자 정의 기동어 인식 성능 및 비기동어 거절 성능을 비교한다. 또한 기동어 인식기의 체감 성능을 향상시키고자 각 모델에 threshold를 적용하여 기동어 인식 실패율을 약 10 % 수준으로 감소 시킨 후에 비기동어(non-WUW)의 거절 실패율을 비교 평가한다. Threshold 적용시에 LDA-DNN-HMM 기반의 시스템의 경우 기동어 인식 실패율 9.84 % 수준에서 비기동어 거절 실패율이 0.0058 %의 인식 성능을 나타내어 LDA-GMM-HMM 시스템 보다 약 4.82배 향상된 비기동어 거절 성능을 나타낸다. 이러한 결과는 본 논문에서 제작한 LDA-DNN-HMM 모델이 사용자 정의 기동어 인식 시스템을 구축하는데 효과적임을 입증한다.