DOI QR코드

DOI QR Code

문맥 독립 화자인식을 위한 공간 분할 벡터 양자기 설계

A Classified Space VQ Design for Text-Independent Speaker Recognition

  • 임동철 (아주대학교 대학원 전자공학부) ;
  • 이행세 (아주대학교 전자공학부)
  • 발행 : 2003.10.01

초록

이 논문은 문맥 독립 화자인식에 사용될 벡터 양자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 특징 벡터 공간을 분할하여, 양자기 설계 시 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 제안된 공간 분할 벡터 양자기 설계법은 저자가 제안한 문맥 종속 화자인식을 위한 준비반복 벡터 양자기 설계법의 벡터 공간에 대한 일반화이다. 공간 분할 벡터 양자기 설계법은 종래의 설계법이 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 또한 공간 분할 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 특징 벡터 공간을 분할한 공간 분할 군집을 이용함으로써 반복 학습을 하지 않는다. 둘째, 설계된 각 양자 영역은 공간 분할 군집의 양자 영역을 원용하며, 양자점은 각각의 통계 분포에 대해 최적점으로 설정된다. 셋째, 공간 분할 군집은 특징 벡터 집합에 대해 표본 벡터 생성법(CSVQ1, 2), 특징 벡터 공간에 대해 균일 초격자 구조 생성법(CSYQ3)으로 형성하였다. 수치 실험은 화자 10명이 발성한 50개의 문장에 대해 문맥 독립 화자인식 실험으로 수행되었다. 특징계수는 12차 멜켑스트럼 벡터를 사용하였고 각각의 공간 분할 코드북 생성법에 대해 코드북 크기를 32부터 128까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 표본 벡터 생성법을 사용한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 공간 분할 벡터 양자기 설계법은 설계에 필요한 계산량이 획기적으로 줄면서 인식률은 보존되어 문맥 독립 화자 인식에 새로운 대안이 되며 또한 특징 벡터 공간을 설정할 수 있는 다양한 응용에 적용이 가능할 것으로 사료된다.

In this paper, we study the enhancement of VQ (Vector Quantization) design for text independent speaker recognition. In a concrete way, we present a non-iterative method which makes a vector quantization codebook and this method performs non-iterative learning so that the computational complexity is epochally reduced The proposed Classified Space VQ (CSVQ) design method for text Independent speaker recognition is generalized from Semi-noniterative VQ design method for text dependent speaker recognition. CSVQ contrasts with the existing desiEn method which uses the iterative learninE algorithm for every traininE speaker. The characteristics of a CSVQ design is as follows. First, the proposed method performs the non-iterative learning by using a Classified Space Codebook. Second, a quantization region of each speaker is equivalent for the quantization region of a Classified Space Codebook. And the quantization point of each speaker is the optimal point for the statistical distribution of each speaker in a quantization region of a Classified Space Codebook. Third, Classified Space Codebook (CSC) is constructed through Sample Vector Formation Method (CSVQ1, 2) and Hyper-Lattice Formation Method (CSVQ 3). In the numerical experiment, we use the 12th met-cepstrum feature vectors of 10 speakers and compare it with the existing method, changing the codebook size from 16 to 128 for each Classified Space Codebook. The recognition rate of the proposed method is 100% for CSVQ1, 2. It is equal to the recognition rate of the existing method. Therefore the proposed CSVQ design method is, reducing computational complexity and maintaining the recognition rate, new alternative proposal and CSVQ with CSC can be applied to a general purpose recognition.

키워드

참고문헌

  1. 임동철, 이행세, '문맥종속 화자인식을 위한 준비반복 벡터양 자기 설계 알고리즘,' 정보처리학회논문지B, 제10-B권 제1호, pp.67-72, 2003 https://doi.org/10.3745/KIPSTB.2003.10B.1.067
  2. T. Kinnunen, T. Kilpelinen and P. Frnti, 'Comparison of clustering algorithms in speaker identification,' Proc. IA STED Int. Conf. Signal Processing and Communications (SPC 2000), Marbella, Spain, pp.222-227, 2000
  3. Y. Linde, A. Buzo and R.M. Gray, 'An algorithm for vector quantizer design,' IEEE Trans. On Communications, 28(1), pp.84-95, January, 1980 https://doi.org/10.1109/TCOM.1980.1094577
  4. S. Theodoridis and K. Koutroumbas, 'Pattern Recognition,' 1st Ed., Academic Press, 1999
  5. H. Gish and M. Schmidt, 'Text-independent speaker identification,' IEEE Signal Processing Mag., Vol.11, pp.18-32, 1994 https://doi.org/10.1109/79.317924
  6. 정광우, '화자인식을 위한 음성신호처리,' 전자공학회지, 제26권 제11호, pp.53-63, 1999
  7. http://www.sitec.or.kr
  8. D.A. Reynolds, 'An overview of automatics speaker recognition technology,' Acoustics, Speech, and Signal Processing, 2002 IEEE International Conference on, Vol.4, pp.4072-4075, 2002 https://doi.org/10.1109/ICASSP.2002.1004813
  9. S. Furui, 'Cepstral analysis technique for automatic speaker verification,' IEEE Trans. on Acoustics, Speech and Signal Processing, 29(2), pp.254-272, 1981 https://doi.org/10.1109/TASSP.1981.1163530
  10. J. Deller, J. Proakis and J.H. Hansen, 'Discrete-Time Processing of Speech Signal,' 1st Ed., Macmillan Publishing Company, 1993
  11. R. Neapolitan and K. Naimipour, 'Foundations of Algorithms,' 1st, Johns & Bartlett Pub, 1997