• 제목/요약/키워드: FVQ

검색결과 14건 처리시간 0.029초

퍼지양자화 은닉 마르코프 모델에서 코드워드 종속거리 정규화와 Instar 형태의 퍼지 기여도에 기반한 출력확률의 평활화 (Codeword-Dependent Distance Normalization and Smoothing of Output Probalities Based on the Instar-formed Fuzzy Contribution in the FVQ-DHMM)

  • 최환진;김연준;오영환
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.71-79
    • /
    • 1997
  • 본 논문에서는 FVQ-DHMM(fuzzy vector quantization-discrete hidden Markov model)에서 강인한 출력확률의 추정을 위해서 코드워드 종속 거리 정규화와 출력확률에 대한 instar 형태의 퍼지 평활화 방법을 제안한다. FVQ-DHMM은 DHMM의 변형된 모델로, 상태별 출력확률이 입력패턴에 대한 각 코드워드와의 가중치와 출력확률의 곱에 대한 합의 형태로 추정된다. FVQ-DHMM의 성능이 가중치 요소와 상태별 출력분포에 영향을 받으므로, 가중치 요소와 상태별 출력분포를 강인하게 추정하는 방법이 필요하게 된다. 실험결과, 제안된 코드워드 종속 거리 정규화(CDDN : codeword dependent distance normalization)를 적용한 방법이 기존의 FVQ-DHMM에 비해 24%의 오인식률 감소가 있었으며, 상태별 출력분포에 대해서 평활화를 적용한 경우 79%의 오식율을 감소 시킴을 알 수 있었다. 이러한 결과는 제안된 CDDN과 퍼지 평활화의 사용이 향상된 인식율을 얻는데 주요하며, 결과적으로 제안된 방법이 FVQ-HMM을 위한 강인한 출력확률의 추정을 위한 대안으로 유용함을 보여준다고 할 수 있다.

  • PDF

The Optimum Fuzzy Vector Quantizer for Speech Synthesis

  • Lee, Jin-Rhee-;Kim, Hyung-Seuk-;Ko, Nam-kon;Lee, Kwang-Hyung-
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.1321-1325
    • /
    • 1993
  • This paper investigates the use of Fuzzy vector quantizer(FVQ) in speech synthesis. To compress speech data, we employ K-means algorithm to design codebook and then FVQ technique is used to analysize input speech vectors based on the codebook in an analysis part. In FVQ synthesis part, analysis data vectors generated in FVQ analysis is used to synthesize the speech. We have fined that synthesized speech quality depends on Fuzziness values in FVQ, and the optimum fuzziness values maximized synthesized speech SQNR are related with variance values of input speech vectors. This approach is tested on a sentence, and we compare synthesized speech by a convensional VQ with synthesized speech by a FVQ with optimum Fuzziness values.

  • PDF

고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구 (A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis)

  • 이진이
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.60-69
    • /
    • 1998
  • 본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

  • PDF

The Effect of the Number of Training Data on Speech Recognition

  • Lee, Chang-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • 제28권2E호
    • /
    • pp.66-71
    • /
    • 2009
  • In practical applications of speech recognition, one of the fundamental questions might be on the number of training data that should be provided for a specific task. Though plenty of training data would undoubtedly enhance the system performance, we are then faced with the problem of heavy cost. Therefore, it is of crucial importance to determine the least number of training data that will afford a certain level of accuracy. For this purpose, we investigate the effect of the number of training data on the speaker-independent speech recognition of isolated words by using FVQ/HMM. The result showed that the error rate is roughly inversely proportional to the number of training data and grows linearly with the vocabulary size.

코드워드 의존 거리 정규화와 거리에 기반한 코드워드 가중을 이용한 은닉마르코프모델의 파라미터 추정 (Estimation of HMM parameters Using a Codeword Dependent Distance Normalization and a Distance Based codeword Weighting by Fuzzy Contribution)

  • 최환진;오영환
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.36-42
    • /
    • 1996
  • 본 연구에서는 견고한 이산형 은닉마르코프모델의 파라미터를 얻기위한 방법으로 CDDN(codeword dependent distance Normalization)과 거리에 기반한 코드워드 가중방법을 제안한다. 제안된 방법에서 FVQ(fuzzy vector quantization)에 기반한 방법에서 코드워드에 대한 출력확률 계산 시, 코드워드의 분포특성과 상태 의존적인 코드워드의 특성을 반영하여 거리를 계산하고, 이 거리값에 퍼지목적함수를 적용하여 코드워드별 기여도를 계산한다. 실험결과, 제안된 방법이 기존의 FVQ기반한 방법에 비해서 4.5%정도의 인식율 향상이 있음을 할 수 있었다. 특히, 거리가중치를 사용하여 출력확률 평활화를 적용한 경우가 단순히 코드워드별 가중을 적용한 경우에 비해서 2.5% 성능향상을 보였다.

  • PDF

음성인식에서 중복성의 저감에 대한 연구 (A Study on the Redundancy Reduction in Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.475-483
    • /
    • 2012
  • 음성 신호의 특성은 인접한 프레임에서 크게 변화하지 않는다. 따라서 비슷한 특징벡터들에 내재된 중복성을 줄이는 것이 바람직하다. 본 논문의 목적은 음성인식에 있어서 음성 특징벡터가 최소의 중복성과 최대의 유효한 정보를 갖는 조건을 찾는 것이다. 이를 이하여 우리는 하나의 감시 파라미터를 통하여 중복성 저감을 실현하고, 그 결과가 FVQ/HMM을 사용한 화자독립 음성인식에 미치는 영향을 조사하였다. 실험 결과, 인식률을 저하시키지 않고 특징벡터의 수를 30% 줄일 수 있음을 확인하였다.

The Effect of Membership Concentration in FVQ/HMM for Speaker-Independent Speech Recognition

  • Lee, Chang-Young;Nam, Ho-Soo;Jung, Hyun-Seok;Lee, Chai-Bong
    • 음성과학
    • /
    • 제12권4호
    • /
    • pp.7-16
    • /
    • 2005
  • We investigate the effect of membership concentration on the performance of the speaker-independent recognition system by FVQ/HMM. For the membership function, we adopt the result obtained from the objective function approach by Bezdek. Membership concentration is done by varying the exponent in the membership function. The number of selected clusters is constrained to two for the sake of cheap computational cost. Experimental results showed that the recognition rate has its maximum value when the membership function was taken to be inversely proportional to the distance of the input vector from the cluster centroid. When the membership concentration was two weak or too strong, the performance was found to be relatively poor as expected. Except these extreme cases, the membership concentration was not shown to affect the recognition rate significantly. This is in accordance with the general observation that the fuzzy system is not much sensitive. to the detailed shape of the membership function as long as it is overlapped over multiple classes.

  • PDF

음성인식에서 특이 특징벡터의 제거에 대한 연구 (A Study on the Removal of Unusual Feature Vectors in Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.561-567
    • /
    • 2013
  • 음성 인식을 위해 추출되는 특징벡터 중 일부는 드물게 나타나는 특이 패턴이다. 이들은 음성인식 시스템의 훈련에서 파라미터의 과도맞춤을 일으키며, 그 결과 새로운 입력 패턴의 인식을 저해하는 구조적 위험을 초래한다. 본 논문에서는 이러한 특이 패턴을 제거하는 하나의 방법으로서, 어느 크기 이상의 벡터를 제외시켜 음성인식 시스템의 훈련을 수행하는 방법에 대해 연구한다. 본 연구의 목적은 인식률을 저해시키지 않는 한도에서 가장 많은 특이 특징벡터를 제외시키는 것이다. 이를 위하여 우리는 하나의 절단 파라미터를 도입하고, 그 값의 변화가 FVQ(Fuzzy Vector Quantization)/HMM(Hidden Markov Model)을 사용한 화자독립 음성 인식에 미치는 영향을 조사하였다. 실험 결과, 인식률을 저하시키지 않는 특이 특징벡터의 수가 3%~6% 정도임을 확인하였다.

The Effect of the Number of Clusters on Speech Recognition with Clustering by ART2/LBG

  • Lee, Chang-Young
    • 말소리와 음성과학
    • /
    • 제1권2호
    • /
    • pp.3-8
    • /
    • 2009
  • In an effort to improve speech recognition, we investigated the effect of the number of clusters. In usual LBG clustering, the number of codebook clusters is doubled on each bifurcation and hence cannot be chosen arbitrarily in a natural way. To have the number of clusters at our control, we combined adaptive resonance theory (ART2) with LBG and perform the clustering in two stages. The codebook thus formed was used in subsequent processing of fuzzy vector quantization (FVQ) and HMM for speech recognition tests. Compared to conventional LBG, our method was shown to reduce the best recognition error rate by 0${\sim$}0.9% depending on the vocabulary size. The result also showed that between 400 and 800 would be the optimal number of clusters in the limit of small and large vocabulary speech recognitions of isolated words, respectively.

  • PDF

FVQ(Fuzzy Vector Quantization) 사상화에 의한 화자적응 음성합성 (Speaker-Adaptive Speech Synthesis by Fuzzy Vector Quantization Mapping)

  • 이진이;이광형
    • 한국지능시스템학회논문지
    • /
    • 제3권4호
    • /
    • pp.3-20
    • /
    • 1993
  • 본 연구에서는 퍼지사상화(fuzzy mapping)에 의한 사상된(mapped) 코드북을 사용하는 화자적은 음성합성 알고리즘을 제안한다. 입력화자와 기준화자의 코드북은 신경망 클러스터링 알고리즘인 자율경쟁 학습을 사용하여 작성된다. 사상된 코드북은 입력 음성벡터에 대한 두 화자의 대응 코드벡터의 소속갑(membership value)으로 퍼지 히스토그랩을 작성하여 이들을 1차 결합함으로써 얻어지는 퍼지사상화에 의하여 작성된다. 음성합성시에는 사상된 코드북을 사용하여 입력화자의 음것을 퍼지 벡터양자화한 다음, CFM 연산으로 합성함으로써 입력화자에 적응된 합성음을 얻는다. 실험에서 여러 입력화자로 30대의 남성, 20대의 여성음을 사용하였고 기준음석으로 입력음성과는 다른 20대의 여성음성을 사용하였다.실험에 사용된 음성데이타는 문장/안녕하십니까/와/굿모닝/이다. 실험결과는 각각의 입력화자에 기준화자 음성이 적응된 합성음을 얻었다.

  • PDF