Voice Personality Transformation Using a Probabilistic Method

확률적 방법을 이용한 음성 개성 변환

  • 이기승 (건국대학교 정보 통신 대학 전자 공학부)
  • Published : 2005.04.01

Abstract

This paper addresses a voice personality transformation algorithm which makes one person's voices sound as if another person's voices. In the proposed method, one person's voices are represented by LPC cepstrum, pitch period and speaking rate, the appropriate transformation rules for each Parameter are constructed. The Gaussian Mixture Model (GMM) is used to model one speaker's LPC cepstrums and conditional probability is used to model the relationship between two speaker's LPC cepstrums. To obtain the parameters representing each probabilistic model. a Maximum Likelihood (ML) estimation method is employed. The transformed LPC cepstrums are obtained by using a Minimum Mean Square Error (MMSE) criterion. Pitch period and speaking rate are used as the parameters for prosody transformation, which is implemented by using the ratio of the average values. The proposed method reveals the superior performance to the previous VQ-based method in subjective measures including average cepstrum distance reduction ratio and likelihood increasing ratio. In subjective test. we obtained almost the same correct identification ratio as the previous method and we also confirmed that high qualify transformed speech is obtained, which is due to the smoothly evolving spectral contours over time.

본 논문에서는 임의의 음성을 특정 화자가 발성한 것처럼 들리도록 변환하는 음성 개성 변환 알고리즘에 대해 연구하였다. 제안된 기법은 화자의 음성을 LPC 켑스트럼, 피치, 발성 속도를 사용하여 표현하였으며 각각에 대한 변환 규칙을 생성하여 변환을 수행하였다. LPC 켑스트럼은 혼합 가우시안 모델을 이용한 확률적으로 모델링하고, 두 화자간의 대응관계를 조건 확률로 나타내었다. 확률적인 모델링에 필요한 각종 파라메터들을 얻기 위해 최대 가능도 기법이 사용되었으며, 변환 LPC 켑스트럼은 최소 자승 오차 방법에 근거하여 얻어지도록 하였다. 운율 변환을 위한 변수로 본 논문에서는 피치와 발성 속도를 사용하였으며, 두 음성간의 평균값 비율을 사용하여 운율 변환을 수행하였다. 제안된 기법은 기존 벡터 양자화 기반의 기법과 비교에서, 객관적인 척도로 사용한 평균 켑스트럼 거리 감소율, 가능도 증가율 면에서 우수한 성능을 나타내었다. 주관적인 테스트에서도 기존의 방법과 유사한 인식율을 얻었으며 특히 완만하게 변화하는 스펙트럼 궤적에 따른 고음질이 얻어짐을 확인할 수 있었다.

Keywords

References

  1. L. R. Rabiner and R. W. Schafer, Digital Processing of speech signals, (Prentice-Hall, 1987)
  2. M. Abe, S. Nakamura, K. Shikano and H. Kuwabara, 'Voice conversion through vector quantization,' proc. of ICASSP, 1, 565-568, 1988
  3. H. Valbret, E. Moulines, and J. P. Tubach, 'Voice transformation using PSOLA technique,' Speech Communication, 11, 175-187, 1992 https://doi.org/10.1016/0167-6393(92)90012-V
  4. Y. Stylianou O. Cappe and E. Moulines, 'Statistical methods for voice quality transformation,' proc. of EUROSPEECH '95, Madrid, 447-450, 1995
  5. A. Kain and M. W. Macon, 'Spectral voice conversion for text-to-speech synthesis,' proc. of ICASSP, 1, 285-288, 1998
  6. L. M. Arslan, 'Speaker transformation algorithm using segmental codebooks (STASC),' Speech Communication, 28, 211-226, 1999 https://doi.org/10.1016/S0167-6393(99)00015-1
  7. 이기승, '다중 응답 분류회귀트리를 이용한 음성 개성 변환,' 한국음향학회지, 23 (3), 253-261, 2004년 4월
  8. 이기승, '최적 분류 변환을 이용한 음성 개성 변환' 한국음향학회지, 23 (5), 400-409, 2004년 7월
  9. S. Roucos and A. M. Wilgus, 'High quality time-scale modification for speech,' proc. of ICASSP, 1, 493-469, 1985
  10. E. Moulines and F. Charpentier, 'Pitch Synchronous Waveform Processing Techniques for Text-to-speech Synthesis using Diphones,' Speech Communication, 9 (5/6), 453-467, 1990 https://doi.org/10.1016/0167-6393(90)90021-Z
  11. G. M. White and R. B. Neely, 'Speech recognition experiments with linear prediction, bandpass filtering, and dynamic programming,' IEEE Trans. on Acoustic Speech and Signal Processing, ASSP-24 (2), 183-188, Apr, 1976
  12. A. Dempster, N. Laird and D. Rubin, 'Maximum likelihood from incomplete data via the EM algorithm,' J. Royal Stat. Soc., 39, 1-38, 1977
  13. Y. Linde, A. Buzo, and R. M. Gray, 'An algorithm for vector quantizer design,' IEEE Trans. on Communications, 28, 84-95, Jan., 1980 https://doi.org/10.1109/TCOM.1980.1094577
  14. H. L. Van Trees, Detection, Estimation and Modulation Theory, (Part I), (Wiley, New York, 1968)
  15. R. W. Dubnowski, R. W. Schafer and L. R. Rabiner, 'Real-time digital hardware pitch detector,' IEEE Trans. on Acoustic, Speech and Signal Processing, ASSP-24 (1), 2-8, Feb. 1976