A Study on Real Time Pitch Alteration of Speech Signal

음성신호의 실시간 피치변경에 관한 연구

  • 김종국 (숭실대학교 정보통신공학과) ;
  • 박형빈 (숭실대학교 정보통신공학과) ;
  • 배명진 (숭실대학교 정보통신공학과)
  • Published : 2004.01.01

Abstract

This paper describes how to reduce the effect of an occupation threshold by that the transform of mixture components of HMM parameters is controlled in hierarchical tree structure to prevent from over-adaptation. To reduce correlations between data elements and to remove elements with less variance, we employ PCA (principal component analysis) and ICA (independent component analysis) that would give as good a representation as possible, and decline the effect of over-adaptation. When we set lower occupation threshold and increase the number of transformation function, ordinary WLLR adaptation algorithm represents lower recognition rate than SI models, whereas the proposed MLLR adaptation algorithm represents the improvement of over 2% for the word recognition rate as compared to performance of SI models.

고음질 합성을 하면서도 다양한 음색을 갖도록 하기 위해서는 파형부호화를 이용한 합성법에 적용할 수 있는 피치 변경법이 필요하다. 따라서 본 논문에서는 스펙트럼 왜곡률을 최소화하는 영교차 단위의 시간축 조절에 의한 피치 변경법과 피치 동기분석이 용이하고 다른 영역으로의 변환과정이 불필요한 피치시점 검출법을 제안함으로써 고음질을 유지하면서 시간영역에서만 처리됨으로써 계산량을 줄이고 스펙트럼 왜곡률을 최소화하고 위상을 그대로 보존할 수 있는 시간영역에서의 피치 변경법을 제안하였다. 결과적으로 전체 피치 변경율에 대해서는 기존의 방법에 비해서 제안한 방법의 스펙트럼 왜곡률이 0.73%개선되었고 피치 압축시에는 제안한 방법의 스펙트럼 왜곡율이 2.18%개선되었다.

Keywords

References

  1. Electronic Speech Synthesis G.Bristow
  2. Digital Processing of Speech Signal L.R.Rabiner;R.W.Schafer
  3. Voice and Speech Processing T.W.Parsons
  4. Speech Synthesis and Recognition Systems E.J.Yannakoudakis;P.J.Hutton
  5. Digital Speech Processing - Speech Coding, Synthesis and Recognition A.N.Ince
  6. 제15회 신호처리합동학술대회 v.15 no.1 피치조절에 의한 G.723.1 음성부호화기의 전송률 감소에 대한 연구 김종국;조왕래;배명진
  7. 제6회 신호처리합동학술대회 v.6 no.1 G-Peak 검출에 의한 음성신호의 피치시점검출 이해군;배명진;임운천
  8. 제15회 음성 통신 및 신호처리 워크샵 논문집 v.15 no.1 피치변경율에 따른 최적의 피치 변경법에 관한 연구 박형빈;조왕래;김종득;박원;심도식;배명진
  9. 한국통신학회, 하계학술발표대회 v.23 no.2 스펙트럼상에서 하모닉스 파형의 피크피팅을 이용한 정확한 피치 검출에 관한 연구 김종국;박원;배명진
  10. J. Acoust. Soc. Amer. v.73 no.1 Changing pitch and duration in LPC synthesised speech using multipulse excitation B.E.Caspers;B.S.Atal
  11. IEEE signal processing v.ASSP-35 no.4 A techniques for using multipluse linear predictive speech synthesis in test-to-speech type system A.Varga;F.Fallside
  12. J. Acoust., Soc., Korea v.10 no.5 On altering the pitch of speech signals in waveform coding-alteration method by the LPC and pitch halving M.BAE;H.YOON;S.ANN
  13. IEEE Trans. Signal Processing v.40 no.3 Shape invariant timescale and pitch modification of speech T.F.Quatieri;R.J.McAulay
  14. J., Acoust., Society, Korea v.15 no.6 On a pitch alteration method using scaling the harmonics compensated with the phase for speech synthesis M.Bae
  15. Proc. EUROSPEECH'93 A speech prosody conversion system with a high quality speech analysis-synthesis method T.Takagi;E.Miyasaka