DOI QR코드

DOI QR Code

Search speed improved minimum audio fingerprinting using the difference of Gaussian

가우시안의 차를 이용하여 검색속도를 향상한 최소 오디오 핑거프린팅

  • 권진만 (숭실대학교 미디어학과) ;
  • 고일주 (숭실대학교 미디어학과) ;
  • 장대식 (군산대학교 컴퓨터정보공학과)
  • Published : 2009.12.31

Abstract

This paper, which is about the method of creating the audio fingerprint and comparing with the audio data, presents how to distinguish music using the characteristics of audio data. It is a process of applying the Difference of Gaussian (DoG: generally used for recognizing images) to the audio data, and to extract the music that changes radically, and to define the location of fingerprint. This fingerprint is made insensitive to the changes of sound, and is possible to extract the same location of original fingerprint with just a portion of music data. By reducing the data and calculation of fingerprint, this system indicates more efficiency than the pre-system which uses pre-frequency domain. Adopting this, it is possible to indicate the copyrighted music distributed in internet, or meta information of music to users.

본 논문은 오디오 핑거프린트 데이터 생성 방법과 이를 이용한 오디오 데이터 비교 방법에 관한 것으로서, 오디오 데이터의 특징을 이용하여 음악을 식별하는 방법을 제시한다. 일반적으로 영상인식을 위해 많이 사용되는 가우시안의 차(Difference of Gaussian, DoG)를 오디오 데이터에 적용하여 음악이 급진적으로 변하는 부분을 추출하고, 해당 위치를 핑거프린트로 정의하는 방식이다. 이렇게 만들어진 핑거프린트는 음질의 변화에 민감하지 않으며, 음악 데이터의 일정 부분만으로도 원본과 동일 위치의 핑거프린트 추출이 가능하다. 이 시스템은 기존의 주파수 영역을 이용한 시스템 보다 오디오 핑거프린트의 데이터량과 계산량을 줄여줌으로써 검색을 할 때 보다 효율적인 성능을 나타낸다. 이를 응용하여 인터넷에 유통되는 복사된 음악의 저작권 보호, 또는 음악의 메타정보 등을 사용자에게 나타낼 수 있다.

Keywords

References

  1. D. G. Lowe, "Distinctive image features from scale-invariant keypoints," Intl. J. Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004. https://doi.org/10.1023/B:VISI.0000029664.99615.94
  2. K. Mikolajczyk and C. Schmid, "An affine invariant interest point detector," European Conference on Computer Visioin, 2002.
  3. T. Lindeberg, "Scale-space theory: a basic tool for analyzing structures at different scales," Journal of Applied Statistics, 1994. https://doi.org/10.1080/757582976
  4. E. J. Keogh, MJ. Pazzani. "Derivative Dynamic Time Warping," First SIAM international Conference on Data Mining, 2001.
  5. J. C. Brown, A. Hodgins-Davis, PJO. Miller "Classification of vocalizations of killer whales using dynamic time warping," Journal of the Acoustical Sociery of America 119, EL34, 2006. https://doi.org/10.1121/1.2166949
  6. A. M. Youssef, T.K. Abdel-Galil, E.F. EI-Saadany, M.M.A. salama "Disturbance classification utilizing dynamic time warping classifier," IEEE Transactions on Power Delivery, Vol. 19, No. 1, pp. 272-278, 2004. https://doi.org/10.1109/TPWRD.2003.820178
  7. A. Pikrakis, S. Theodoridis, d. Kamarotos. "Recognition of isolated musical patterns using context dependent dynamic time warping," IEEE. Speech and Audio Processing, Vol. 11, pp. 175-183, 2003. https://doi.org/10.1109/TSA.2003.811533
  8. J. W. Picone, "Signal modeling techniques in speech recognition," Proc. IEEE, Vol. 8, No. 9, pp. 1215-1247, Sept. 1993.
  9. A. Casey, "Content-Based Music Information Retrieval: Current Directions and Futrue Challenges," IEEE, Vol. 96, No. 4, 2008.
  10. E. Wold, T. Blum, D. Keislar, and J. Wheaton, "Content-based classification, search, and retrieval of audio," IEEE Multimedia, Vol. 3, No. 2, 1996.
  11. Avery Li-Chun Wang and Julius O. Smith, III., WlPO publication WO 02/11123A2, 7 Feb. 2002.
  12. Shumeet Baluja, Michele Covell, "Waveprint: Efficient Wavelet-Based Audio Fingerprinting," Elsevier Pattern Recognition, 41, 3467-3480, 2008. https://doi.org/10.1016/j.patcog.2008.05.006
  13. C. Jacobs, A. Finkelstein, D. Salesin, "Fast multi resolution image querying," SIGGRAPH 95, 1995.
  14. (주)엔써즈, "오디어 핑거프린트 데이터 생성 방법 및 장치 및 이를 이용한 오디오 데이터 비교 방법 장치," 대한민국특허, 공개번호 10-2008-0098878.
  15. Lago, N.P., Kon, F. "The Quest for Low Latency," the International Computer Music Conference (ICMC 2004), pp. 33-36. 2004.
  16. "http://www.independentrecording.net/irn/resources/freq chart/main_display.htm", TRN, 2006.