DOI QR코드

DOI QR Code

Robust Audio Identification Using Spectro-Temporal Subband Centroids

부밴드 스펙트럼의 무게중심을 이용한 강인한 오디오 인식기

  • 서진수 (강릉대학교 전자공학과) ;
  • 이승재 (한국전자통신연구원 SW 콘텐츠 연구부문)
  • Published : 2008.07.31

Abstract

This paper proposes a new audio identification method based on a combination of the instantaneous and dynamic spectral features of the audio spectrum. Especially we propose the spectro-temporal subband centroids that are easy to compute and effective to summarize the instantaneous and dynamic spectral variations. Experimental results demonstrate that the identification performance can be greatly improved by combining both the spectral and the temporal subband centroids.

본 논문에서는 스펙트럼의 주파수 및 시간 방향의 특성을 결합한 오디오 인식 방법을 제안하였다. 특히 스펙트럼의 형태를 모사하기 위해 부밴드로 나누고 주파수와 시간 방향의 무게중심을 구하고 정규화하여 인식기에 사용하였다. 무게중심 값은 스펙트럼의 형태적 특징을 잘 나타내면서도 간결하여 인식기에 사용되는 특징 DB의 크기를 줄여줄 수 있는 장점이 있다. 수 천곡 규모의 오디오에 대해서, 부밴드 스펙트럼의 주파수와 시간 방향 무게중심의 인식 성능을 비교하였다. 실험 결과 주파수와 시간 방향 특징을 결합하면 상보적으로 인식 성능을 높일 수 있음을 발견하고, 선형 변환을 이용하여 주파수와 시간 방향 특징을 하나로 결합하는 방법을 제안하였다.

Keywords

References

  1. P. Cano, E. Batlle, T. Kalker, and J. Haitsma, "A review of algorithms for audio fingerprinting", in Proc. IEEE Workshop on Multimedia Signal Processing, 169-173, Dec. 2002
  2. J. Haitsma and T. Kalker, "A highly robust audio fingerprinting system," in Proc. International Conf. on Music Information Retrieval, 2002
  3. Jin S. Seo, M. Jin, S. Lee, D. Jang, S. Lee, and C.D. Yoo, "Audio fingerprinting based on normalized spectral subband moments," IEEE Signal Processing Letters, 13(4), 209-212, 2006 https://doi.org/10.1109/LSP.2005.863678
  4. S. Furui, "Speaker-independent isolated word recognition using dynamic features of speech spectrum," IEEE Transactions on Acoustics, Speech, and Signal Processing, 34(1), 52-59, 1986 https://doi.org/10.1109/TASSP.1986.1164788
  5. 김기석, 임은진, 황희융, "음성 인식 신경망을 위한 음성 파라미터들의 성능 비교," 한국음향학회지,11(3), 61-66, 1992
  6. K. Paliwal, "Spectral subband centroid features for speech recognition," in Proc. IEEE ICASSP, 1998, 617-620
  7. E. Zwicker and H. Fastl, Psychoacoustics: Facts and Models, (Springer-Verlag, 1999)
  8. C. Bohm, S. Berchtold, and D. Keim, "Searching in high -dimensional spaces: Index structures for improving the performance of multimedia databases," ACM Computing Surveys, 33(3), 322-373, 2001 https://doi.org/10.1145/502807.502809
  9. A.K. Jain, Fundamentals of Digital Image Processing, (Prentice-Hall, Upper Saddle River, NJ, 1989)
  10. J. Lin, E. Keogh, L. Wei, and S. Lonardi, "Experiencing SAX: A Novel Symbolic Representation of Time Series", Data Mining and Knowledge Discovery, 15(2), 107-144, 2007 https://doi.org/10.1007/s10618-007-0064-z
  11. A.K. Jain, Robert P.W. Duin, and J. Mao, "Statistical pattern recognition: A review", IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1), 4-37, 2000 https://doi.org/10.1109/34.824819