DOI QR코드

DOI QR Code

Audio Fingerprint Binarization by Minimizing Hinge-Loss Function

경첩 손실 함수 최소화를 통한 오디오 핑거프린트 이진화

  • 서진수 (강릉원주대학교 전자공학과)
  • Received : 2013.05.21
  • Accepted : 2013.08.18
  • Published : 2013.09.30

Abstract

This paper proposes a robust binary audio fingerprinting method by minimizing hinge-loss function. In the proposed method, the type of fingerprints is binary, which is conducive in reducing the size of fingerprint DB. In general, the binarization of features for fingerprinting deteriorates the performance of fingerprinting system, such as robustness and discriminability. Thus it is necessary to minimize such performance loss. Since the similarity between two audio clips is represented by a hinge-like function, we propose a method to derive a binary fingerprinting by minimizing a hinge-loss function. The derived hinge-loss function is minimized by using the minimal loss hashing. Experiments over thousands of songs demonstrate that the identification performance of binary fingerprinting can be improved by minimizing the proposed hinge loss function.

본 논문에서는 경첩 손실 함수를 최소화를 통해서 강인한 이진 오디오 핑거프린팅 방법을 제안하였다. 특히 제안된 방법에서 오디오 핑거프린트는 이진값을 가지므로 핑거프린트 DB 크기를 줄여줄 수 있는 장점이 있다. 일반적으로 특징을 이진화하는 과정에서 핑거프린트의 강인성, 식별성 등 성능의 손실이 불가피하므로 손실을 최소화하는 것이 필요하다. 본 논문에서는 핑거프린팅에서 두 오디오 클립 간의 유사도가 경첩 함수 형태로 주어지는 것에 착안하여 경첩 손실을 최소화하는 방법으로 특징을 이진화하여 핑거프린트를 구하는 방법을 제안한다. 유도된 경첩 손실 함수는 최소 손실 해싱 기법을 통해서 최소화 하였다. 수 천곡 규모의 오디오에 대해서 다양한 변환들에 대한 인식 성능을 실험하였으며, 제안된 경첩 손실 함수 최소화를 통해서 핑거프린트의 식별성과 강인성이 개선됨을 확인하였다.

Keywords

References

  1. W. J. Yee, K. K Lee and K. S. Park, "A study on the Efficient feature vector extraction for music information retrieval system" (in Korean), J. Acoust. Soc. Kr. 23, 532-539 (2004).
  2. M. Casey, R. Veltkamp, M. Goto, M. Leman, C. Rhodes, M. Slaney, "Content-based music information retrieval: Current directions and future challenges," Proceedings of the IEEE 96, 668-696 (2008). https://doi.org/10.1109/JPROC.2008.916370
  3. J. Haitsma and T. Kalker, "A highly robust audio fingerprinting system," in Proc. International Conf. on Music Information Retrieval, (2002).
  4. P. Cano, E. Battle, T. Kalker, and J. Haitsma, "A review of audio fingerprinting," Journal of VLSI Signal Processing 41, 271-84 (2005). https://doi.org/10.1007/s11265-005-4151-3
  5. D. Jang, C.D. Yoo, S. Lee, S. Kim, and T. Kalker, "Pairwise Boosted Audio Fingerprint," IEEE Tr. Information Forensics and Security 4, 995-1004 (2009). https://doi.org/10.1109/TIFS.2009.2034452
  6. M. Mohri, P. Moreno, and E. Weinstein, "Efficient and robust music identification with weighted finite-state transducers," IEEE Tr. Audio, Speech, and Language Processing 18, 197-207 (2010). https://doi.org/10.1109/TASL.2009.2023170
  7. J. S. Seo and S. J. Lee, "Robust audio fingerprinting using compressed-domain features" (in Korean), J. Acoust. Soc. Kr. 28, 375-382 (2009).
  8. M. Norouzi and D.J. Fleet, "Minimal loss hashing for compact binary codes," in Proc.International Conference on Machine Learning, (2011).
  9. P. Indyk and R. Motwani. "Approximate nearest neighbors: towards removing the curse of dimensionality." in Proc. ACM symposium on Theory of computing. (1998).
  10. E. Zwicker and H. Fastl, Psychoacoustics: Facts and Models (Springer-Verlag, 1999).
  11. Jin S. Seo, M. Jin, S. Lee, D. Jang, S. Lee, and C. Yoo, "Audio fingerprinting based on normalized spectral subband moments," IEEE Signal Processing Letters 13, 209-212 (2006). https://doi.org/10.1109/LSP.2005.863678
  12. J. Herre, E. Allamanche, and O. Hellumth, "Robust matching of audio signals using spectral latness features," in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 127-30 (2001).