고음질의 음성합성을 위한 퍼지벡터양자화의 퍼지니스 파라메타선정에 관한 연구

A Study on Fuzziness Parameter Selection in Fuzzy Vector Quantization for High Quality Speech Synthesis

  • 이진이 (충남산업대학교 전자공학과)
  • 발행 : 1998.04.01

초록

본 눈문에서는 퍼지 벡터양자호를 이용하여 음성을 합성하는 방법을 제시하고,원음에 가까운 합성음을 얻기 위하여 퍼지벡터양자화의 성능을 최적화 하는 Fuzziness갑의 선정방법을 연구한다. 퍼지벡터 양자화를 이용하여 음성을 합성할때, 분석단에서는 입력 음성패턴과 코드북의 음성패턴의 유사도를 나타내는 퍼지 소속함수값을 출력하고, 합성단에서는 분석단에서 얻은 퍼지소속 함수값, fuzziness값, 그리고 FCM(Fuzzy-C-Means) 연산식을 이용하여 음성을 합성한다. 시뮬레이션을 통하여 벡터양자화에 의해 합성된 음성과 퍼지 벡터양자화에 의해 합성된 음성을 코드북의 크기에 따라 비교한 결과, 퍼지벡터양자화를 이용한 음성합성의 성능이 코드북 크기가 절반으로 줄어도 벡터양자화에 의한 성능과 거의 같음을 알수 있다. 이것은 VQ(Vecotr Quantiz-ation)에 의한 음성합성 결과와 같은 성능을 얻기 위해서 퍼지 VQ를 사용하면, 코드북 저장을 위한 메모리의 크기를 절반으로 줄일 수 있음을 의미한다. 그리고 SQNR을 최대로 하는 퍼지 벡터양자화를 얻기 위한 최적 Fuzziness값은 음성분석 프레임의 분산값이 크면 작게 선정해야 하고, 작으면 크게 선정 해야함을 밝혔다. 또한 합성음들을 주파수 영역의 스펙트로그램에서 비교한 결과 포만트 주파수와 피치주파수에서 퍼지 VQ에 의한 합성음이 VQ에 의한 것보다 원 음성에 더 가까움을 알 수 있었다.

This paper proposes a speech synthesis method using Fuzzy VQ, and then study how to make choice of fuzziness value which optimizes (controls) the performance of FVQ in order to obtain the synthesized speech which is closer to the original speech. When FVQ is used to synthesize a speech, analysis stage generates membership function values which represents the degree to which an input speech pattern matches each speech patterns in codebook, and synthesis stage reproduces a synthesized speech, using membership function values which is obtained in analysis stage, fuzziness value, and fuzzy-c-means operation. By comparsion of the performance of the FVQ and VQ synthesizer with simmulation, we show that, although the FVQ codebook size is half of a VQ codebook size, the performance of FVQ is almost equal to that of VQ. This results imply that, when Fuzzy VQ is used to obtain the same performance with that of VQ in speech synthesis, we can reduce by half of memory size at a codebook storage. And then we have found that, for the optimized FVQ with maximum SQNR in synthesized speech, the fuzziness value should be small when the variance of analysis frame is relatively large, while fuzziness value should be large, when it is small. As a results of comparsion of the speeches synthesized by VQ and FVQ in their spectrogram of frequency domain, we have found that spectrum bands(formant frequency and pitch frequency) of FVQ synthesized speech are closer to the original speech than those using VQ.

키워드

참고문헌

  1. Digital speech processing, synthesis, and recognition S.Furui
  2. ICASSP Real-time vector APC speech coding at 4800 bps with adpaptive postfiltering Juin-Hwey Chen;Allen Gersho
  3. ICASSP Adaptive postfiltering of 16kbits/s ADPCM speech N.S.Jayant;V.Ramamorthy
  4. Proc. Int'l Conference on Acostics, Speech, and Signal Processing Code-excited linear prediction (CELP): High quality speech at very low bit rates M.R.Schroeder;B.S.Atal
  5. IEEE ASSP Mag. v.1 Vector quantization R.M.Gray
  6. 제 3회 인공지능, 신경망 및 퍼지시스템 종합 학술대회 논문집 v.1 Fuzzy - C - means 알고리즘에 의한 벡터양자화 코드북의 성능비교 이진이;김형석;이광형
  7. 인공지능, 신경망 및 퍼지관련 학술발표회 논문집 v.1 신경망 학습 벡터양자화기에 의한 음성합성의 성능비교 이진이;김형석;이광형
  8. Proc. ICASSP Fuzzy vector quantization applied to hidden Markov modeling H.P.Tseng;M.J.Sabin;E.A.Lee
  9. 명지대학교 박사학위 논문 사상 멤버쉽 함수에 의한 화자적응 단어 인식 이기영
  10. IEEE, Tran. commun. v.com-28 An algorithm for vector quantizer design Y.Linde;A.Buzo;R.Gray
  11. Pattern Recognition with Fuzzy Objective Function Algorithms Bezdek,J.C.
  12. Neural Networks v.3 Competitive Learning Algorithms for Vector Quantization Stanley C. Ahalt;Ashok K. Krishnamurthy;Prakoon Chen;Douglas E.Melton
  13. IEEE Inter'l Conference on Neural Networks Adding a conscience to competitive learning De Sieno,D.
  14. Fuzzy set theory and its applications(second edition) H.J.Zimmermann
  15. Fifth IFSA Congress The Optimum Fuzzy Vector Quantizer for Speech Synthesis Lee Jin-Yi;Lee Kwang-Hyung
  16. User's Manual for PC-56D DSP Coprocessor Board(second edition) Ariel Corporation
  17. DSP 56 KCC C cross compiler user's manual Motorora
  18. Speech Station USER'S Guide Sensimetrics Coporation
  19. 숭실대학교 박사학위 논문 퍼지 벡터양자화와 신경망을 이용한 음성합성에 관한 연구 이진이