• 제목/요약/키워드: Speaker Adaptation

검색결과 122건 처리시간 0.023초

화자적응에서 PCA 또는 ICA를 이용한 MLLR알고리즘 연산량 감소 (The Reduction or computation in MLLR Framework using PCA or ICA for Speaker Adaptation)

  • 김지운;정재호
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.452-456
    • /
    • 2003
  • 본 논문은 화자 적응시 화자 독립 모델의 차수를 줄이고 MLLR (Maximum Likelihood Linear Regression) 알고리즘에서 요구되는 역행렬 횟수를 줄이는 방법을 제안한다. 주성분분석 (PCA: principal components analysis)과 독립성분분석 (ICA: independent components analysis)을 통해 모델 혼합성분 (mixture component)들간의 상관관계를 줄임으로서 모델의 차수를 감소하였다. 주성분분석 및 독립성분분석에 요구되는 추가 연산량은 화자 독립 모델을 훈련할 때 추가함으로써 화자 적응시에 추가되는 연산량은 극히 미소하다. 36차의 HMM 파라메타 차수를 PCA는 12차, ICA는 10차로 감소하였을 때 기존의 MLLR 적응방법과 유사한 단어 인식률을 나타내었다. 즉, 모델 파라미터의 차수를 n이라고 할 때 기존의 MLLR알고리즘에서 역행열 연산에서 요구되는 연산량은 O(n⁴)에 비례하므로 PCA는 1/81, ICA는 1/167만큼 연산량을 감소하였다.

벡터 양자화 화자적응기법을 사용한 한국어 단어 인식 (Korean Word Recognition Using Vector Quantization Speaker Adaptation)

  • 최갑석
    • 한국음향학회지
    • /
    • 제10권4호
    • /
    • pp.27-37
    • /
    • 1991
  • 본 논문에서는 퍼지벡터양자화보다 양자화 왜곡을 더욱 저감시키기 위하여 에너지부분공간을 도입한 퍼지벡터양자화(energy subspace fuzzy vector quatization : ESFVQ)를 제안하였으며, 그것을 화자적응에 적용한 에너지부분공간 퍼지벡터양자화 화자적응기법에 의하여 미지화자의 한국어 단어를 인식하였다. 화자적응을 위한 학습과정에서 에너지 부분공간에 따른 퍼지 히스토그램으로 사상코드북을 작성하였으며, 인식과정에서 미지화자의 음성을 ESFVQ에 의해 복화화하므로써 인식율의 향상을 도모하였다. 남성 2인과 여성 1인이 발성한 DDD 전화 지역명에 대하여 ESFVQ에 의한 양자화 왜곡 및 화자적응 단어 인식율을 측정하여 그 성능을 평가하였다. ESFVQ의 양자화 왜곡은 벡터 양자화보다 22% 감소되었으며, 퍼지 벡터 양자화보다 5% 감소되었다. 또한, ESFVQ에 의한 화자적응방법으로 인식한 결과, 화자적응을 고려하지 않은 방법보다 26%, 벡터 양자화에 의한 방법보다 11%의 향상된 인식율을 얻을 수 있었다.

  • PDF

은닉 마르코프 모델을 이용한 음성에서의 감정인식 (Emotion recognition in speech using hidden Markov model)

  • 김성일;정현열
    • 융합신호처리학회논문지
    • /
    • 제3권3호
    • /
    • pp.21-26
    • /
    • 2002
  • 본 논문은 분노, 행복, 평정, 슬픔, 놀람 등과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과로서, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.

  • PDF

CDHMM의 상태당 가지 수를 가변시키는 화자적응에 관한 연구 (A study on the speaker adaptation in CDHMM usling variable number of mixtures in each state)

  • 김광태;서정일;홍재근
    • 전자공학회논문지S
    • /
    • 제35S권3호
    • /
    • pp.166-175
    • /
    • 1998
  • When we make a speaker adapted model using MAPE (maximum a posteriori estimation), the adapted model has one mixture in each state. This is because we cannot estimate a number of a priori distribution from a speaker-independent model in each state. If the model is represented by one mixture in each state, it is not well adadpted to specific speaker because it is difficult to represent various speech informationof the speaker with one mixture. In this paper, we suggest the method using several mixtures to well represent various speech information of the speaker in each state. But, because speaker-specific training dat is not sufficient, this method can't be used in every state. So, we make the number of mixtures in each state variable in proportion to the number of frames and to the determinant ofthe variance matrix in the state. Using the proposed method, we reduced the error rate than methods using one branch in each state.

  • PDF

Eigenvoice 기반 화자가중치 거리측정 방식을 이용한 화자 분할 시스템 (Speaker Segmentation System Using Eigenvoice-based Speaker Weight Distance Method)

  • 최무열;김형순
    • 한국음향학회지
    • /
    • 제31권4호
    • /
    • pp.266-272
    • /
    • 2012
  • 화자 분할 기술은 오디오 데이터로부터 자동적으로 화자 경계 구간을 검출하는 것이다. 화자 분할 방식은 화자에 대한 선행 지식 사용 여부에 따라 거리기반 방식과 모델기반 방식으로 나누어진다. 본 논문에서는 eigenvoice 기반의 화자가중치 거리를 이용한 화자 분할 방식을 도입하고, 이 방식을 대표적인 거리 기반 방식들과 비교한다. 또한, 화자가중치의 거리 측정 함수로 유클리드 거리와 cosine 유사도를 사용하여 화자 분할 성능을 비교하고, eigenvoice 방식에 의해 화자 적응된 모델들 사이의 직접적인 거리를 이용한 화자 분할 방식과의 비교를 통해 화자가중치 거리를 이용한 방식이 계산량면에서 효율적인 점을 검증한다.

가중 훈련을 이용한 화자 적응 시스템의 향상 (Improvements in Speaker Adaptation Using Weighted Training)

  • 장규철;우수영;진민호;박용규;유창동
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.188-193
    • /
    • 2003
  • 이전의 여러 가지 화자 적응을 위한 모델 적응 방법은 훈련 환경과 테스트 환경의 불일치를 보상하기 위한 방법으로 적응데이터의 테스트 환경에서의 분포를 고려하지 않은 보상 방법이었다. 적은 적응 데이터에 대해서 보상을 극대화하기 위한 파라미터 변환 방법들은 고르지 못한 적응 데이터에 의해 시스템의 성능이 저하 될 가능성이 있다 즉, 데이터가 적을 경우에는 적응 데이터의 분포가 적응 결과에 중대한 영향을 미치게 된다. 적은 데이터에 대해서도 높은 인식률 향상을 가져오기 위한 supervised 훈련과정을 구조적 사후확률 최대화(SMAP: Structural Maximum a Posterior) 알고리듬에 적용하였다. 제안된 가중치 SMAP (Weighted SMAP) 알고리듬과 SMAP알고리듬을 TIDIGITS 코퍼스를 사용해서 비교해 보았다. 제안된 WSMAP은 적은 양의 데이터에 대해서 SMAP보다 좋은 성능을 나타내었다. 환경 적응에 적응 데이터의 분포를 고려하는 이와 같은 방법은 다른 적응 알고리듬에도 적용될 수 있다.

PCA를 이용한 자동차 주행 환경에서의 화자인식 (Speaker Recognition using PCA in Driving Car Environments)

  • 유하진
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.103-106
    • /
    • 2005
  • The goal of our research is to build a text independent speaker recognition system that can be used in any condition without any additional adaptation process. The performance of speaker recognition systems can be severally degraded in some unknown mismatched microphone and noise conditions. In this paper, we show that PCA(Principal component analysis) without dimension reduction can greatly increase the performance to a level close to matched condition. The error rate is reduced more by the proposed augmented PCA, which augment an axis to the feature vectors of the most confusable pairs of speakers before PCA

  • PDF

선형 변환망을 이용한 화자적응 음성인식 (Speaker Adaptation Using Linear Transformation Network in Speech Recognition)

  • 이기희
    • 한국컴퓨터정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.90-97
    • /
    • 2000
  • 본 논문에서는 불특정 화자의 음성에 대해서도 신뢰성 있는 인식이 이루어지도록 하는 음성인식 시스템을 구현하기 위한 화자적응 음성인식 기법을 제안한다. 제안한 화자적응 기법에 의한 음성인식 시스템은 표준화자의 음성특징을 1차선형 변환 망에 의해 새로운 화자의 음성특징에 선형적으로 적응하여 인식하며. 그 구성은 다층퍼셉트론을 퍼지 벡터양자화기로 사용하는 반연속 HMM을 기반으로 한다 구현한 인식시스템은 그 성능을 확인하기 위해 고립단어 인식실험을 수행하였다. 그 결과, 화자적응 인식인 경우가 화자적응 수행하지 않은 시스템에 비해 인식률이 개선됨을 보였다.

  • PDF

MCE 학습 알고리즘을 이용한 문장독립형 화자식별의 성능 개선 (Performance Improvement of a Text-Independent Speaker Identification System Using MCE Training)

  • 김태진;최재길;권철홍
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.165-174
    • /
    • 2006
  • In this paper we use a training algorithm, MCE (Minimum Classification Error), to improve the performance of a text-independent speaker identification system. The MCE training scheme takes account of possible competing speaker hypotheses and tries to reduce the probability of incorrect hypotheses. Experiments performed on a small set speaker identification task show that the discriminant training method using MCE can reduce identification errors by up to 54% over a baseline system trained using Bayesian adaptation to derive GMM (Gaussian Mixture Models) speaker models from a UBM (Universal Background Model).

  • PDF

확률적 매칭을 사용한 음성 다이얼링 시스템 (Voice Dialing system using Stochastic Matching)

  • 김원구
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 춘계학술대회 학술발표 논문집 제14권 제1호
    • /
    • pp.515-518
    • /
    • 2004
  • This paper presents a method that improves the performance of the personal voice dialling system in which speaker Independent phoneme HMM's are used. Since the speaker independent phoneme HMM based voice dialing system uses only the phone transcription of the input sentence, the storage space could be reduced greatly. However, the performance of the system is worse than that of the system which uses the speaker dependent models due to the phone recognition errors generated when the speaker Independent models are used. In order to solve this problem, a new method that jointly estimates transformation vectors for the speaker adaptation and transcriptions from training utterances is presented. The biases and transcriptions are estimated iteratively from the training data of each user with maximum likelihood approach to the stochastic matching using speaker-independent phone models. Experimental result shows that the proposed method is superior to the conventional method which used transcriptions only.

  • PDF