A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구

  • 김유진 (인하대학교 전자공학과 디지털 신호처리 연구실) ;
  • 정재호 (인하대학교 전자공학과 디지털 신호처리 연구실)
  • Published : 2004.01.01

Abstract

In this paper, a contort- and speaker-dependent cepstrum extraction method and a channel normalization method for minimizing the loss of speaker characteristics in the cepstrum were proposed for a robust speaker recognition system over the channel. The proposed extraction method creates a cepstrum based on the pitch synchronous analysis using the inherent pitch of the speaker. Therefore, the cepstrum called the 〃pitch synchronous cepstrum〃 (PSC) represents the impulse response of the vocal tract more accurately in voiced speech. And the PSC can compensate for channel distortion because the pitch is more robust in a channel environment than the spectrum of speech. And the proposed channel normalization method, the 〃formant-broadened pitch synchronous CMS〃 (FBPSCMS), applies the Formant-Broadened CMS to the PSC and improves the accuracy of the intraframe processing. We compared the text-independent closed-set speaker identification on 56 females and 112 males using TIMIT and NTIMIT database, respectively. The results show that pitch synchronous km improves the error reduction rate by up to 7.7% in comparison with conventional short-time cepstrum and the error rates of the FBPSCMS are more stable and lower than those of pole-filtered CMS.

본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.

Keywords

References

  1. IEE Proceedings v.36 no.2 Excitation synchronous formant analysis L.C.Wood;D.J.B.Pearce
  2. IEEE Trans. Acoustics, Speech, and Signal Processing v.37 no.9 Pitch synchronous spectral analysis scheme for voiced speech Y.Medan;E.Yair
  3. J. Acoustical Society of America v.46 no.4 Automatic speaker verification using cepstral measurements J.E.Luck
  4. J. Acoustical Society of America v.47 no.2 System for automatic formant analysis of voiced speech R.W.Schafer;L.R.Rabiner
  5. J. Acoustical Society of America v.52 no.6 Automatic speaker recognition based on pitch contours B.S.Atal
  6. J. Acoustical Society of America v.51 no.1 Test of an automatic speaker verification method with intensive trained mimics R.C.Lummis;A.E.Rosenberg
  7. IEEE Trans. Acoustics, Speech, and Signal Processing v.23 no.2 New techniques for automatic speaker verification A.E.Rosenberg;M.R.Sambur
  8. Processing. of the IEEE v.64 no.4 Automatic speaker verification: a review A.E.Rosenberg
  9. Proc. of the IEEE v.64 no.4 Automatic recognition of speakers from their voices B.S.Atal
  10. IEEE Trans. Speech and Audio Processing v.2 no.4 Experimental evaluation of Features for robust speaker identification D.A.Reynolds
  11. IEEE. Trans. Speech and Audio Processing v.3 no.1 Robust text-independent speaker identification using gaussian mixture speaker models D.A.Reynolds;R.C.Rose
  12. Processing. ICASSP The effects of telephone transmission degradations on speaker recognition performance D.A.Reynolds;M.A.Zissman;T.F.Quatieri;G.C.O'Leary;B.A.Carlson
  13. Processing. ICASSP Measuring fine structure in speech: application to speaker identification C.R.Jankowsky,Jr.;T.F.Quatieri;D.A.Reynolds
  14. Processing. ICSLP v.2 Comparison of MFCC and pitch synchronous AM, FM parameters for speaker identification H.Ezzaidi;J.Rouat
  15. Speech Communication v.37 no.3-4 Analysis, enhancement and evaluation of five pitch determination techniques P.Veprek;M.S.Scordilis
  16. IEEE Trans. Signal Processing v.39 no.1 Super resolution pitch determination speech signals Y.Medan;E.Yair;D.Chazan
  17. Processing. ICASSP v.1 Evaluation of MEL-LPC cepstrum in a large vocabulary continuous speech recognition H.Matsumoto;M.Moroto
  18. Processing. ICASSP Pole-filtered cepstral mean subtraction D.Naik
  19. Proc. ISCAS v.5 Fast pole-filtering for speaker recognition R.P.Ramachandran;K.R.Farrell
  20. 한국음향학회지 v.21 no.4 켑스트럼으로부터 변환된 로그 스펙트럼을 이용한 포먼트 평활화 켑스트럴 평균 차감법 정혜경;김유진;정재호