• 제목/요약/키워드: Gaussian Mixture Component

검색결과 48건 처리시간 0.032초

Statistical Extraction of Speech Features Using Independent Component Analysis and Its Application to Speaker Identification

  • Jang, Gil-Jin;Oh, Yung-Hwan
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권4E호
    • /
    • pp.156-163
    • /
    • 2002
  • We apply independent component analysis (ICA) for extracting an optimal basis to the problem of finding efficient features for representing speech signals of a given speaker The speech segments are assumed to be generated by a linear combination of the basis functions, thus the distribution of speech segments of a speaker is modeled by adapting the basis functions so that each source component is statistically independent. The learned basis functions are oriented and localized in both space and frequency, bearing a resemblance to Gabor wavelets. These features are speaker dependent characteristics and to assess their efficiency we performed speaker identification experiments and compared our results with the conventional Fourier-basis. Our results show that the proposed method is more efficient than the conventional Fourier-based features in that they can obtain a higher speaker identification rate.

Statistical Extraction of Speech Features Using Independent Component Analysis and Its Application to Speaker Identification

  • 장길진;오영환
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.156-156
    • /
    • 2002
  • We apply independent component analysis (ICA) for extracting an optimal basis to the problem of finding efficient features for representing speech signals of a given speaker The speech segments are assumed to be generated by a linear combination of the basis functions, thus the distribution of speech segments of a speaker is modeled by adapting the basis functions so that each source component is statistically independent. The learned basis functions are oriented and localized in both space and frequency, bearing a resemblance to Gabor wavelets. These features are speaker dependent characteristics and to assess their efficiency we performed speaker identification experiments and compared our results with the conventional Fourier-basis. Our results show that the proposed method is more efficient than the conventional Fourier-based features in that they can obtain a higher speaker identification rate.

배경분리를 위한 개선된 적응적 가우시안 혼합모델에서의 동적 학습률 제어 (Dynamic Control of Learning Rate in the Improved Adaptive Gaussian Mixture Model for Background Subtraction)

  • 김영주
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.366-369
    • /
    • 2005
  • 연속 영상을 이용하여 실시간으로 움직임 객체를 추출하고 추적하기 위해 배경분리(Background Subtraction) 기법을 주로 사용한다. 외부 환경에서는 조명의 변화, 나무의 흔들림과 같은 반복적인 움직임 그리고 급격히 움직이는 객체 등과 같이 고려해야할 많은 환경 변화 요인들이 존재한다. 이러한 외부 환경의 변화를 적응적으로 반영하여 배경을 분리할 수 있는 배경 모델로는 주로 가우시안 혼합 모델(GMM: Gaussian Mixture Model)이 적용되고 있으며, 실시간 성능 등을 개선시킨 적응적 가우시안 혼합 모델 등이 사용되고 있다. 본 논문은 개선된 적응적 가우시안 혼합 모델을 적용하고 고정된 학습률 ${\alpha}$(일반적으로 작은 값)을 사용함으로써 물체의 갑작스러운 움직임 등에 빠르게 적응하지 못하는 문제점을 해결하기 위해 가우시안 분포 수의 적응적 조절 기능과 픽셀 값을 분산을 이용하여 학습률 ${\alpha}$값을 동적으로 제어하는 방법을 제안하고 성능을 평가하였다.

  • PDF

ICA를 위한 Generalized 가우시안 Prior (GENERALIZED GAUSSIAN PRIOR FOR ICA)

  • 최승진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.467-469
    • /
    • 1999
  • Independent component analysis (ICA)는 주어진 데이터를 통계적으로 독립인 요소들의 선형 결합으로 표시하는 통계학적 방법이다. ICA의 주요한 적용분야중의 하나는 source들의 선형 mixture로부터 어떠한 서전 정보도 없는 상태에서 원래의 통계학적 독립변수인 source를 복원하는 blind separation이다. ICA와 source separation을 위한 다양한 신경 학습 알고리듬이 제시되어왔다. ICA의 학습 알고리듬에서는 비선형 함수가 중요한 역할을 한다. 이 논문에서는 generalized 가우시안 prior를 도입하여 다양한 확률분포를 갖는 source들의 mixture를 분리하는 효율적인 source separation 알고리즘을 제시한다. 모의실험을 통하여 제안된 방법의 우수성을 살펴본다.

  • PDF

3차원 깊이 정보 기반의 감시카메라 영상 분석 (Image Analysis for Surveillance Camera Based on 3D Depth Map)

  • 이수빈;서용덕
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.286-289
    • /
    • 2012
  • 본 논문은 3차원 깊이 정보를 이용하여 감시카메라에서 움직이는 사람을 검출하고 추적하는 방법을 제안한다. 제안하는 방법은 GMM(Gaussian mixture model)을 이용하여 배경과 움직이는 사람을 분리한 후, 분리된 영역을 CCL(connected-component labeling)을 통하여 각각 블랍(blob) 단위로 나누고 그 블랍을 추적한다. 그 중 블랍 단위로 나누는 데 있어 두 블랍이 합쳐진 경우, 3차원 깊이 정보를 이용하여 두 블랍을 분리하는 방법을 제안한다. 실험을 통하여 제안하는 방법의 결과를 보인다.

  • PDF

가우스성 잡음과 임펄스성 잡음이 혼재하는 다중전파 페이딩 전송로상에서의 제반디지탈 통신시 스템특성의 종합분석 및 비교에 관한 연구 (제 2 부) (Comprehensive Performance Analysis and Comparison of various Digital communication Systems in an Multipath Fading Channel with additive Mixture of Gaussian and Impulsive Noise [Part-2])

  • 김현철;고봉진;공병옥;조성준
    • 한국통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.280-292
    • /
    • 1989
  • 본 논문에서는 본 논문의 제1부에서 다룬 디지털 통신시스템인 ASK, QAM, CPSK, DPSK, FSK 및 MSK 시스템이 가우스성잡음 및 임펄스성잡음만이 아니라 페이딩으로부터 영향을 받았을 때의 오율에 관한 식을 유도하여 반송파 전력대 잡음전력의 비(CNR), 임펄스지수 및 임펄스성 잡음전력 대 가우스서 잡음전력 비 뿐만 아니라 페이딩 지수 등을 함수로 하여 각각의 시스템의 성능을 구하고 이를 비교하였다. 해석결과, 제1부의 결과와는 달리 신호가 강한 페이딩을 받았을 때는 임펄스성 잡음의 영향보다 가우스성잡음의 영향이 크다는 것을 알 수 있었고 시스템의 비교에서는 약한 페이딩에서나 강한 페이딩 모두에 있어서 위상변조시스템의 성능이 가장 양호하다는 것을 확인할 수 있었다.

  • PDF

미전사 음성 데이터베이스를 이용한 가우시안 혼합 모델 적응 기반의 음성 인식용 음향 모델 변환 기법 (Acoustic Model Transformation Method for Speech Recognition Employing Gaussian Mixture Model Adaptation Using Untranscribed Speech Database)

  • 김우일
    • 한국정보통신학회논문지
    • /
    • 제19권5호
    • /
    • pp.1047-1054
    • /
    • 2015
  • 본 논문에서는 음성 인식 성능 향상을 위해 미전사된 음성 데이터베이스를 이용한 효과적인 음향 모델 변환 기법을 기술한다. 본 논문에서 기술하는 모델 변환 기법에서는 기존의 적응 기법을 이용하여 환경에 적응된 GMM을 얻는다. HMM의 가우시안 요소와 유사한 요소를 선택하여 선택된 가우시안 요소의 변환 벡터를 구하고 이를 평균 파라미터 변환에 이용한다. GMM 적응 기반의 모델 변환 기법을 기존의 MAP, MLLR 적응 기법과 결합하여 적용한 결과, 자동차 잡음과 음성 Babble 잡음 환경에서 기존의 MAP, MLLR을 단독으로 사용할 경우보다 높은 음성 인식성능을 나타낸다. 온라인 음향 모델 적응 실험에서도 MLLR과 결합할 경우 기존의 MLLR을 단독으로 사용할 때보다 효과적인 모델 적응 성능을 나타낸다. 이와 같은 결과는 본 논문에서 소개한 GMM 적응 기반의 모델 변환 기법을 채용함으로써 미전사된 음성 데이터베이스를 음향 모델 적응 기법에 효과적으로 활용할 수 있음을 입증한다.

Dimension-Reduced Audio Spectrum Projection Features for Classifying Video Sound Clips

  • Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권3E호
    • /
    • pp.89-94
    • /
    • 2006
  • For audio indexing and targeted search of specific audio or corresponding visual contents, the MPEG-7 standard has adopted a sound classification framework, in which dimension-reduced Audio Spectrum Projection (ASP) features are used to train continuous hidden Markov models (HMMs) for classification of various sounds. The MPEG-7 employs Principal Component Analysis (PCA) or Independent Component Analysis (ICA) for the dimensional reduction. Other well-established techniques include Non-negative Matrix Factorization (NMF), Linear Discriminant Analysis (LDA) and Discrete Cosine Transformation (DCT). In this paper we compare the performance of different dimensional reduction methods with Gaussian mixture models (GMMs) and HMMs in the classifying video sound clips.

LPCA에 기반한 GMM을 이용한 화자 식별 (Speaker Identification Using GMM Based on LPCA)

  • 서창우;이윤정;이기용
    • 음성과학
    • /
    • 제12권2호
    • /
    • pp.171-182
    • /
    • 2005
  • An efficient GMM (Gaussian mixture modeling) method based on LPCA (local principal component analysis) with VQ (vector quantization) for speaker identification is proposed. To reduce the dimension and correlation of the feature vector, this paper proposes a speaker identification method based on principal component analysis. The proposed method firstly partitions the data space into several disjoint regions by VQ, and then performs PCA in each region. Finally, the GMM for the speaker is obtained from the transformed feature vectors in each region. Compared to the conventional GMM method with diagonal covariance matrix, the proposed method requires less storage and complexity while maintaining the same performance requires less storage and shows faster results.

  • PDF

A Classification Method Using Data Reduction

  • Uhm, Daiho;Jun, Sung-Hae;Lee, Seung-Joo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권1호
    • /
    • pp.1-5
    • /
    • 2012
  • Data reduction has been used widely in data mining for convenient analysis. Principal component analysis (PCA) and factor analysis (FA) methods are popular techniques. The PCA and FA reduce the number of variables to avoid the curse of dimensionality. The curse of dimensionality is to increase the computing time exponentially in proportion to the number of variables. So, many methods have been published for dimension reduction. Also, data augmentation is another approach to analyze data efficiently. Support vector machine (SVM) algorithm is a representative technique for dimension augmentation. The SVM maps original data to a feature space with high dimension to get the optimal decision plane. Both data reduction and augmentation have been used to solve diverse problems in data analysis. In this paper, we compare the strengths and weaknesses of dimension reduction and augmentation for classification and propose a classification method using data reduction for classification. We will carry out experiments for comparative studies to verify the performance of this research.