DOI QR코드

DOI QR Code

다중 레벨 양자화 기법을 적용한 오디오 핑거프린트 추출 방법

Audio Fingerprint Extraction Method Using Multi-Level Quantization Scheme

  • 발행 : 2006.05.01

초록

본 논문은 필립스의 음악 검색 기법을 기반으로 필터 뱅크 에너지 변화량과 음악의 통계적인 특성을 이용한 오디오 핑거프린트 추출 방법을 제안하였다. 기존의 필립스 방식은 제한된 주파수 영역을 너무 많은 필터 뱅크로 분할하여 분석함으로써 밴드들 사이에 연계성 및 왜곡에 대한 민감도가 증가하는 특징을 보일 수 있다. 제안된 방법은 필터 뱅크의 밴드 수를 줄여 왜곡에 대한 강인성을 증진시키고, 필터 뱅크 에너지의 변화량의 부호와 크기 정보를 통계적 특성을 고려한 양자화 기법을 이용해 2비트로 할당함으로써 오디오 핑거프린트의 고유성을 확보하였다. 추출된 2비트는 4개의 레벨로 정보를 표현함으로 각 레벨 사이에 연계성이 존재하게 된다. 이 같은 레벨 사이의 연계성은 유사도 측정 시 이용될 뿐만 아니라 오디오 핑거프린트를 기준으로 검색 영역을 확장하는 제안된 방식에서는 효율적인 검색 영역을 선택할 수 있는 정보로 활용 되었다. 제안된 방식은 다양한 주변 잡음환경 (거리, 백화점, 자동차, 사무실, 식당)에서의 실험을 통하여 주변 잡음에 강인한 특성을 보일 뿐만 아니라 검색 속도 또한 향상되는 특징을 보였다.

In this paper, we proposed a new audio fingerprint extraction method, based on Philips' music retrieval algorithm, which uses the energy difference of neighboring filter-bank and probabilistic characteristics of music. Since Philips method uses too many filter-banks in limited frequency band, it may cause audio fingerprints to be highly sensitive to additive noises and to have too high correlation between neighboring bands. The proposed method improves robustness to noises by reducing the number of filter-banks while it maintains the discriminative power by representing the energy difference of bands with 2 bits where the quantization levels are determined by probabilistic characteristics. The correlation which exists among 4 different levels in 2 bits is not only utilized in similarity measurement. but also in efficient reduction of searching area. Experiments show that the proposed method is not only more robust to various environmental noises (street, department, car, office, and restaurant), but also takes less time for database search than Philips in the case where music is highly degraded.

키워드

참고문헌

  1. Mansoo Park et al., 'Content-based Music information Retrieval using Pitch Histogram of Band Pass Filter Signal,' Proc. of AIRS2004, 245-248, 2004
  2. J. Herre, E. Allamanche, and O. Helimuth, 'Robust matching of audio signals using spectral flatness features, ' Proc. of Workshop on Applications of Signal Processing to Audio and Acoustics2001, IEEE, 127-130, 2001
  3. E. Allamanche, J. Herre, and O. Helimuth, 'Content-based Identification of Audio Material Using MPEG-7 Low Level Description, 'Proc. of ISMIR2001, 197-204, 2001
  4. Jonathan T. Foote, 'Content-Based Retrieval of Music and Audio,' Proc. of SPIE, Multimedia Storage and Archiving Systems II, 3229, 138-147, 1997
  5. AudibleMagic, http://audiblemagic.com
  6. ShazamEntertainment, http://www.shazam.com
  7. Gracenote, http://www.gracenote.com
  8. Haitsma J., Kalker T. and Oostveen J., 'Robust Audio Hashing for Content Identification,' Proc. the Content Based Multimedia Indexing2001, 2001
  9. J.A. Haitsma and T. Kalker, 'A Highly Robust Audio Fingerprinting System,' Proc. ISMIR2002, 144-148, 2002
  10. P.J.O. Doets and R.L. Lagendijk, 'Theoretical Modeling Of A Robust Audio Fingerprinting System,' Fourth IEEE Benelux Signal Processing Symposium, 2004