DOI QR코드

DOI QR Code

Classification of Consonants by SOM and LVQ

SOM과 LVQ에 의한 자음의 분류

  • 이채봉 (동서대학교 전자공학과) ;
  • 이창영 (동서대학교 시스템경영공과)
  • Received : 2010.11.21
  • Accepted : 2011.02.09
  • Published : 2011.02.28

Abstract

In an effort to the practical realization of phonetic typewriter, we concentrate on the classification of consonants in this paper. Since many of consonants do not show periodic behavior in time domain and thus the validity for Fourier analysis of them are not convincing, vector quantization (VQ) via LBG clustering is first performed to check if the feature vectors of MFCC and LPCC are ever meaningful for consonants. Experimental results of VQ showed that it's not easy to draw a clear-cut conclusion as to the validity of Fourier analysis for consonants. For classification purpose, two kinds of neural networks are employed in our study: self organizing map (SOM) and learning vector quantization (LVQ). Results from SOM revealed that some pairs of phonemes are not resolved. Though LVQ is free from this difficulty inherently, the classification accuracy was found to be low. This suggests that, as long as consonant classification by LVQ is concerned, other types of feature vectors than MFCC should be deployed in parallel. However, the combination of MFCC/LVQ was not found to be inferior to the classification of phonemes by language-moded based approach. In all of our work, LPCC worked worse than MFCC.

음성타자기의 구현에 접근하려는 노력의 일환으로서, 우리는 본 논문에서 자음의 분류에 대해 연구한다. 많은 자음들은 시간에 따른 주기적 거동을 보이지 않고 따라서 그들에 대한 푸리에 해석의 타당성에 확신을 갖기 어렵다. 그러므로, 우선 음성 신호로부터 추출되는 MFCC와 LPCC 특징벡터들이 자음에 대해 어느 정도의 의미가 있는지를 파악하기 위하여 LBG 클러스터링을 통한 벡터양자화를 수행한다. VQ의 실험적 결과는 자음에 대한 푸리에 해석의 타당성에 관해 분명한 결론을 내리는 것이 쉽지 않음을 보여주었다. 자음의 분류를 위해 SOM과 LVQ의 두 가지 신경망이 사용되었다. SOM의 결과는 몇 쌍의 자음들이 나뉘어 분류되지 않음을 보여주었다. LVQ에서는 본질적으로 이 문제가 사라지지만 자음의 분류 정확도는 낮은 수준이었다. 이로부터, LVQ에 의한 자음 분류에 있어서는 MFCC 및 다른 특징 벡터들이 함께 사용되어야 함이 사료된다. 하지만 본 연구에서 도입한 MFCC/LVQ의 결합은 기존의 언어모델을 기반으로 하는 음소 분류에 비해 그 결과가 나쁘지 않은 것으로 나타났다. 모든 경우에 LPCC 특징벡터는 MFCC에 비해 그 결과가 좋지 않았다.

Keywords

References

  1. Kaplan, G. "Words Into Action I," IEEE Spectrum, Vol. 17, pp. 22-26, 1980.
  2. Davis, K. H., Biddulph, R., and Balashek, S., "Automatic Recognition of Spoken Digits," J. Acoust. Soc. Am., Vol. 24, No. 6, pp. 637-642, 1952. https://doi.org/10.1121/1.1906946
  3. Kohonen, T. Self-organization and Associative Memory, 3rd ed., Springer-Verlag, Berlin, 1989..
  4. Olson, H. F. and Belar, H., "Phonetic Typewriter," ITE Trans. on Audio, Vol. 5, No. 4, pp. 90-95, 1957. https://doi.org/10.1109/TAU.1957.1166018
  5. Kohonen, T. "The Neural Phonetic Typewriter," Computer, Vol. 21, No. 3, pp. 11-22, 1988.
  6. Kohonen, T. et al, "Phonetic Typewriter for Finnish and Japanese," ICASSP-88, Vol. 1, pp. 607-610, 1988.
  7. Yamada, T., Hanazawa, T., and Kawabata, T. . "Phonetic Typewriter Based on Phoneme Source Modeling," ICASSP-91, Vol. 1, pp. 169-172, 1991.
  8. Kohonen, T.,"Workstation-Based Phonetic Typewriter," Neural Networks for Signal Processing, pp. 279-288, 1991.
  9. Waibel, A. et al,. "Phoneme Recognition Using Time-Delay Neural Networks," IEEE Trans. on Acoustics, Speech, and Signal Processing, Vol. 37, No. 3, pp. 328-339, 1989. https://doi.org/10.1109/29.21701
  10. Picone, J. W., "Signal Modeling Techniques in Speech Recognition." Proc. IEEE, Vol. 81, No. 9, pp. 1215-1247, 1993. https://doi.org/10.1109/5.237532
  11. Haykin, S. (1999). Neural Networks (2nd Ed.), Prentice Hall, pp. 443-479, 1999.
  12. Kohonen, T., "Improved Versions of Learning Vector Quantization," International Joint Conference on Neural Networks, Vol. 1, pp. 545-550, 1990.
  13. Fausett, L., Fundamentals of Neural Networks, Prentice Hall, pp. 187-194, 1994.
  14. Rabiner, L. & Juang, B., undamentals of Speech Recognition, Prentice Hall, pp. 20-37, 1993.
  15. Deller, J. R., Proakis, J. G., & Hansen, J. H. L. Discrete-Time Processing of Speech Signals, Macmillan, pp. 117-137, 1993.
  16. Durbin, J., "The Fitting of Time Series Models," Review of the Institute for International Statistics, Vol. 28, pp. 233-243, 1960. https://doi.org/10.2307/1401322
  17. Lin, H. & Ou, Z. "Switching Auxiliary Chains for Speech Recognition," IEEE Signal Processing Letters, Vol. 14, No. 8, pp. 568-571, 2007. https://doi.org/10.1109/LSP.2006.891314