초록
본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.
This paper proposes a speech synthesis method using Fuzzy VQ, and then study how to make
choice of fuzziness value which optimizes (controls) the performance of FVQ in order to obtain the
synthesized speech which is closer to the original speech. When FVQ is used to synthesize a speech,
analysis stage generates membership function values which represents the degree to which an input
speech pattern matches each speech patterns in codebook, and synthesis stage reproduces a
synthesized speech, using membership function values which is obtained in analysis stage, fuzziness
value, and fuzzy-c-means operation. By comparsion of the performance of the FVQ and VQ
synthesizer with simmulation, we show that, although the FVQ codebook size is half of a VQ
codebook size, the performance of FVQ is almost equal to that of VQ. This results imply that, when
Fuzzy VQ is used to obtain the same performance with that of VQ in speech synthesis, we can reduce
by half of memory size at a codebook storage. And then we have found that, for the optimized FVQ
with maximum SQNR in synthesized speech, the fuzziness value should be small when the variance
of analysis frame is relatively large, while fuzziness value should be large, when it is small. As a
results of comparsion of the speeches synthesized by VQ and FVQ in their spectrogram of frequency
domain, we have found that spectrum bands(formant frequency and pitch frequency) of FVQ
synthesized speech are closer to the original speech than those using VQ.