• Title/Summary/Keyword: 화자 적응

Search Result 141, Processing Time 0.037 seconds

Speaker Adaptation in VQ and HMM Based Speech Recognition (VQ와 HMM을 이용한 음성인식에서 화자적응에 관한 연구)

  • 이대룡
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1991.06a
    • /
    • pp.54-57
    • /
    • 1991
  • 본 논무에서는 HMM과 VQ를 이용한 고립단어에 대한 화자종속 및 화자독립 음성인식시스템을 만들고 여기에 화자적응을 하는 방법에 대한 연구를 했다. 화자적응방법에는 크게 VQ코드북을 적응시키는 방법과 HMM패러미터블 적응시키는 방법이 있다. 코드북적응을 하는 방법으로서 기존코드북에 대해 새로운화자의 적응음성을 양자화한 뒤 각 코드벡터에 해당하는 적응음성의 평균을 구해서 새로운 화자의 코드북을 구해주는 방법과 기준코드북에 대해 새로운화자의 적응음성을 양자화할 때 HMM의 각 상태에서 각각의 코드벡터를 발생할 확률을 거리오차의 계산에서 고려해 비록 거리오차는 크지만 그 코드벡터를 발생할 확률이 매우 높으면 적응음성이 그 코드벡터에 index되게해서 각 코드벡터에 해당하는 모든 적응음성데이타의 평균을 새로운 코드북으로 하는 두가지 알고리즘을 제안한다. 이렇게 함으로써 기존의 기준코드북을 초기 코드북으로해서 LBG알고리즘을 사용해서 적응음성데이타에 대한 새로운 코드북을 만드는 방법에 비해 5-10배의 계산시간을 감소하게 된다. 이 새로운 코드북으로 적응음성데이타를 다시 index해서 이 index된 음성렬로 HMM패러미터를 적응했다. 제안된 알고리즘이 코드북적응을 하는 경우에 기존의 적응방법에 비해 5-10배의 계산 시간을 단축하면서 인식률에서는 더 나은결과를 얻었다. 또 같은 적응방법에 대해서 화자종속모델 보다는 화자독립모델에 대해서 화자적응하는 것이 더 나은 인식결과를 보여주었다.

  • PDF

On Codebook Fesign to Improve Speaker Adaptation (화자 적응 성능 향상을 위한 코드북 설계)

  • 양태영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.228-231
    • /
    • 1995
  • 반연속 HMM 음성인식 시스템의 화자 적응 성능 향상을 위해 코드북 변환 알고리즘을 제안하였다. 기존의 화자 적응 알고리즘으로는 새로운 화자의 적응 데이터 특징의 분포와 HMM 모수의 사전밀도를 함께 고려하는 베이시안 화자적응 알고리즘이 있다. 그러나 새로운 화자의 특징분포와 코드북 사전 밀도의 차이가 큰 경우 적응 데이터와 코드북간의 잘못된 대응 관계를 얻을 수 있으며, 기준 코드북에 필요 이상으로 많은 코드워드가 존재하는 경우 적응된 코드북에도 불필요한 코드워드 들이 남아 인식 과정에 혼란을 줄 수 있다. 이 문제점을 해결하기 위하여 제안된 코드북 변환 알고리즘에서는 주파수 영역의 포만트 정보를 이용하였다. 화자 적응을 수행하기 앞서 코드북의 켑스트럼으로부터 포만트를 추출해 내고, 이들의 분포를 적응 화자의 포만트 분포와 일치되도록 변환시켜 주었다. 이 변환된 포만트들로부터 다시 켑스트럼을 구하여 변환된 코드북을 얻고 이를 화자 적응의 초기 코드북으로 사용하였다. 제안된 알고리즘을 이용하였을 경우 코드북과 적응 화자의 음성 간의 정확한 대응관계를 찾을 수 있었고, 불필요한 코드워드들이 인식 과정에서 사용되지 않도록 변환되어 인식률이 향상되는 것을 실험을 통해 확인하였다.

  • PDF

A Study on Speaker Adaptation of HMM in a Continous Speech Recognition System (HMM을 이용한 연속음성인식 시스템의 화자적응화에 관한 연구)

  • 김상범
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.100-104
    • /
    • 1995
  • 일반적으로 화자적응화는 이미 학습되어 있는 불특정 화자 모델을 표준모델로 하고 소량의 적응화용 발화로 추가적인 학습을 실시하여 특정화자 모델의 성능에 가깝게 하는 기술로서 연속음성 인식에 있어서 매우 중요하다. ML 추정법을 이용한 화자적응화는 카테고리마다 모델의 학습패턴들을 다수개 준비한 후 학습시에 일괄적으로 적용시켜 모델 파라메터를 추정 갱신하므로 추가되는 화자데이터에 대해 데이터를 모두 공급하여야 한다. 본 연구에서는 문발화 데이터의 음절단위를 자동추출한 후 추가되는 화자데이터가 주어질 때 마다 적응화할 수 있는 화자적응화 방법을 검토하였다. 이 방법은 문발화 데이터를 잘라내지 않고 음절 단위를 자동추출시켜 추가 데이터마다 최대 사후확률 추정법을 이용하여 적응화 시키는 것으로 수소의 데이터로서도 적응화를 가능하게 하는 것이다. 본 연구에서 사용되는 음성데이터는 신문사설에서 발췌한 연속음성 10문장을 사용하고, 이 음성 데이터중 6명분은 HMM 학습용으로 하고 나머지 3명분은 적응화용 및 평가용 데이터로 사용하였다. 6명의 화자를 DDCHMM으로 학습하고 나머지 3명분을 MAP법으로 적응화시켰다. 그 결과 적응전과 비교해 볼 때 약 32%의 인식율 향상을 얻을 수 있었다.

  • PDF

Speaker Adaptation Algorithm Based on a Maximization of the Observation Probability (관찰 확률 최대화에 의한 화자 적응 알고리즘)

  • 양태영;신원호;전원석;김지성;김지성;김원구;이충용;윤대희;차일환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.6
    • /
    • pp.37-42
    • /
    • 1998
  • 본 논문에서는 SCHMM에 적용된 관찰 확률 최대화에 의한 화자 적응 알고리즘을 제안한다. 제안된 알고리즘은 SCHMM의 관찰 확률 밀도들이 새로운 화자의 음성 특징을 잘 표현하지 못하는 경우 인식 성능이 저하되는 것을 막기 위하여, 적응 데이터의 각 특징 벡터들이 최대의 관찰 확률을 가질 수 있도록 관찰 확률 밀도를 결정하는 평균 벡터 μ와 분산 행렬 Σ를 기울기 탐색(gradient search) 알고리즘에 의해 반복적으로 적응시켜 주는 방법이다. SCHMM의 상태 천이 확률 A와 혼합 밀도 계수 C는 관찰 확률 밀도 적응 과정 을 거친 후, 적응 데이터로부터 구한 확률과 기존 확률의 가중 평균을 취하는 과정을 반복 하여 적응시켜 주었다. 제안된 화자 적응 알고리즘을 사용하여 단독음 인식 실험을 수행한 결과, 화자 적응을 수행하지 않았을 때와 비교하여 화자 독립 시스템에서는 평균 9.8%, 남 성 화자 종속 시스템에서는 평균 46.0%, 여성 화자 종속 시스템에서는 평균 52.7%의 인식 률 향상을 보였다.

  • PDF

Efficient Rapid Speaker Adaptation Using Merging Eigenvoices (Eigenvoice 병합을 이용한 효율적인 고속 화자 적응)

  • Choi Dong-jin;Oh Yung-Hwan
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.115-118
    • /
    • 2004
  • 음성 인식 분야에서는 화자 적응을 통해 화자 독립 시스템의 성능을 화자 종속 시스템에 근접시키려는 여러 가지 노력이 시도되고 있다. 특히 30 초미만의 매우 적은 양의 적응 자료를 이용하는 고속 화자 적응에 대한 관심이 증가하고 있다. 고속 화자 적응에 적합한 eigenvoice 를 이용한 적응 방법은 eigenvoice 를 구성하기 위해 너무 많은 계산량과 메모리를 요구한다. 본 논문에서는 각각 따로 계산된 eigenvoice 들을 한 번에 구성한 eigenvoice 들과 거의 같은 정확도를 갖도록 병합하여 고속 화자 적응에 이용하는 방법을 제안한다. 이 방법을 이용하면 훈련 자료의 추가시 처음부터 새롭게 eigenvoice 를 구하는 대신 추가된 자료에 대한 eigenvoice 를 구하고 병합함으로써 계산량과 메모리양을 현저히 줄일 수 있다. 실험 결과, 메모리와 계산량은 추가되는 화자 종속 모델의 수에 따라 감소하며 성능 저하는 거의 없었다.

  • PDF

A Speaker Adaptation of Korean Speech Using MLLR (MLLR을 이용한 한국어 음성의 화자 적응)

  • Kim, Tae-Hyeong;Lee, Keon-Ung;Lee, Sang-Ho;Hong, Jae-Keun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.251-254
    • /
    • 2000
  • 화자 독립 인식은 훈련 화자와 시험 화자의 차이로 인해 화자 종속의 경우보다 인식률이 떨어진다. 따라서, 인식률을 향상시키기 위해 화자 독립 모델을 화자에 적응시킬 필요가 있다. 본 논문에서는 효과적인 적응 방법인 MLLR(Maximum Likelihood Linear Regression) 적응 방법을 한국어 음성에 적용하여 적응 성능을 향상시켰고, 온라인 상에서 적용 가능하도록 증가 적응 방법을 이용하였다. PBW 445 음성 데이타베이스에 대한 실험 결과, 400개의 적응 데이터를 사용하였을 때, 제안한 방법이 기존의 화자 독립 시스템보다 7.02% 향상된 성능을 보였다.

  • PDF

Online Adaptation of Continuous Density Hidden Markov Models Based on Speaker Space Model Evolution (화자공간모델 진화에 근거한 연속밀도 은닉 마코프모델의 온라인 적응)

  • Kim Dong Kook;Kim Young Joon;Kim Hyun Woo;Kim Nam Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.69-72
    • /
    • 2002
  • 본 논문에서 화자공간모델 evolution에 기반한 continuous density hidden Markov model (CDHMM)의 online 적응에 대한 새로운 기법을 제안한다. 학습화자의 a priori knowledge을 나타내는 화자공간모델은 factor analysis (FA) 또는 probabilistic principal component analysis (PPCA)와 같은 은닉변수모델(latent variable model)에 의해 효과적으로 나타내어진다. 은닉 변수모델은 화자공간모델뿐아니라 CDHMM 파라메터의 ajoint prior분포를 표시함으로, maximum a posteriori(MAP)적응기법에 직접 적용되어진다. 화자공간모델의 hyperparameters와 CDHMM파라메터를 동시에 순차적으로 적응하기 위해 quasi-Bayes (QB)추정 기술에 기반한 online 적응기법을 제안한다. 연속숫자음 인식과 관련된 화자적응 실험을 통해 제안된 기법은 적은 적응데이터에서 좋은 성능을 나타내며, 데이터가 증가함에 따라 성능이 지속적으로 증가함을 보여준다.

  • PDF

Speaker Adaptation Using Neural Network in Continuous Speech Recognition (연속 음성에서의 신경회로망을 이용한 화자 적응)

  • 김선일
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.1
    • /
    • pp.11-15
    • /
    • 2000
  • Speaker adaptive continuous speech recognition for the RM speech corpus is described in this paper. Learning of hidden markov models for the reference speaker is performed for the training data of RM corpus. For the evaluation, evaluation data of RM corpus are used. Parts of another training data of RM corpus are used for the speaker adaptation. After dynamic time warping of another speaker's data for the reference data is accomplished, error back propagation neural network is used to transform the spectrum between speakers to be recognized and reference speaker. Experimental results to get the best adaptation by tuning the neural network are described. The recognition ratio after adaptation is substantially increased 2.1 times for the word recognition and 4.7 times for the word accuracy for the best.

  • PDF

Rapid Speaker Adaptation Based on MAPLR with Adaptive Hybrid Priors Estimated from Reference Speakers (참조화자로부터 추정된 적응적 혼성 사전분포를 이용한 MAPLR 고속 화자적응)

  • Song, Young-Rok;Kim, Hyung-Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.6
    • /
    • pp.315-323
    • /
    • 2011
  • This paper proposes two methods of estimating prior distribution to improve the performance of rapid speaker adaptation based on maximum a posteriori linear regression (MAPLR). In general, prior distribution of the transformation matrix used in MAPLR adaptation is estimated from all of the training speakers who are employed to construct the speaker-independent model, and it is applied identically to all new speakers. In this paper, we propose a method in which prior distribution is estimated from a group of reference speakers, selected using adaptation data, so that the acoustic characteristics of the selected reference speakers may be similar to that of the new speaker. Additionally, in MAPLR adaptation with block-diagonal transformation matrix, we propose a method in which the mean matrix and covariance matrix of prior distribution are estimated from two groups of transformation matrices obtained from the same training speakers, respectively. To evaluate the performance of the proposed methods, we examine word accuracy according to the number of adaptation words in the isolated word recognition task. Experimental results show that, for very limited adaptation data, statistically significant performance improvement is obtained in comparison with the conventional MAPLR adaptation.

A Noble Decoding Algorithm Using MLLR Adaptation for Speaker Verification (MLLR 화자적응 기법을 이용한 새로운 화자확인 디코딩 알고리듬)

  • 김강열;김지운;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.2
    • /
    • pp.190-198
    • /
    • 2002
  • In general, we have used the Viterbi algorithm of Speech recognition for decoding. But a decoder in speaker verification has to recognize same word of every speaker differently. In this paper, we propose a noble decoding algorithm that could replace the typical Viterbi algorithm for the speaker verification system. We utilize for the proposed algorithm the speaker adaptation algorithms that transform feature vectors into the region of the client' characteristics in the speech recognition. There are many adaptation algorithms, but we take MLLR (Maximum Likelihood Linear Regression) and MAP (Maximum A-Posterior) adaptation algorithms for proposed algorithm. We could achieve improvement of performance about 30% of EER (Equal Error Rate) using proposed algorithm instead of the typical Viterbi algorithm.