다중 응답 분류회귀트리를 이용한 음성 개성 변환

Voice Personality Transformation Using a Multiple Response Classification and Regression Tree

  • 이기승 (건국대학교 정보 통신 대학 전자 공학부)
  • 발행 : 2004.04.01

초록

본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.

In this paper, a new voice personality transformation method is proposed. which modifies speaker-dependent feature variables in the speech signals. The proposed method takes the cepstrum vectors and pitch as the transformation paremeters, which represent vocal tract transfer function and excitation signals, respectively. To transform these parameters, a multiple response classification and regression tree (MR-CART) is employed. MR-CART is the vector extended version of a conventional CART, whose response is given by the vector form. We evaluated the performance of the proposed method by comparing with a previously proposed codebook mapping method. We also quantitatively analyzed the performance of voice transformation and the complexities according to various observations. From the experimental results for 4 speakers, the proposed method objectively outperforms a conventional codebook mapping method. and we also observed that the transformed speech sounds closer to target speech.

키워드

참고문헌

  1. Speech Communication v.9 no.5-6 Pitch Synchronous Waveform Processing Techniques for Text-to speech Synthesis using Diphones E.Moulines;F.Charpentier
  2. IEEE Trans. on Acoustic Speech and Signal Processing v.ASSP-30 no.6 Helium speech enhancement using the short-time fourier transform M.A.Richards
  3. IEEE Trans. on Speech and Audio Signal Processing v.15 no.2 Application of speech convertttsion to alaryngeal speech enhancement B.Ning;Q.Yingyong
  4. Speech Communication v.16 no.2 Transformation of formants of voice conversion using artificial neural networks M.Narendranath;H.A.Murthy;S.Rajendran;B.Yegnanarayana
  5. proc. of ICASSP v.1 Voice conversion through vector quantization M.Abe;S.Nakamura;K.Shikano;H.Kuwabara
  6. IEICE Trans. on Information and Systems v.E85-D no.8 Voice conversion using low dimensional vector mapping K.S.Lee;W.D.;D.H.Youn
  7. proc. of ICSLP A new voice personality transformation bassed on both liner and nonlinear prediction analysis K.S.Lee;D.H.Youn;I.W.Cha
  8. Ph. D Thesis, Electrical Engineering Rensselaer Polytechnic Institute Voice personality transformation II Hyun Nam
  9. Speech Communication v.11 Voice transformation using PSOLA technique H.Valbret;E.Moulines;J.P.Tubach
  10. proc. of EUROSPEECH '95 Statistical methods for voice quality transformation Y.Stylianou;O.Cappe;E.Moulines
  11. Classification and Regression Trees Brieman;Friedman;Olsen;Stone
  12. Journal of the American Statistical Association v.93 no.441 Classification trees for multiple binary responses H.Zhang
  13. IEEE Trans. on Pattern Anal. and Machine Intell v.13 Optimal partitioning for classification and regression trees P.A.Chou
  14. proc. of ICASSP v.1 High quality time-scale modification for speech S.Roucos;A.M.Wilgus
  15. Digital Processing of Speech Signals L.R.Rabiner;R.W.Schafer
  16. proc. of ICASSP v.1 Speaker transformation using sentence HMM based alignments and detailed prosody modification L.M.Arslan;D.Talkin