DOI QR코드

DOI QR Code

파워 가중치를 이용한 오디오 핑거프린트 정합

Audio fingerprint matching based on a power weight

  • 서진수 (강릉원주대학교 전자공학과) ;
  • 김정현 (한국전자통신연구원 차세대콘텐츠연구본부) ;
  • 김혜미 (한국전자통신연구원 차세대콘텐츠연구본부)
  • 투고 : 2019.07.30
  • 심사 : 2019.09.06
  • 발행 : 2019.11.30

초록

음악 검색을 서비스하기 위해서는 핑거프린트 정합 정확도가 중요하다. 본 논문에서는 파워 가중치를 이용하여 오디오 핑거프린트 정합 성능을 제고하고자 한다. 파워 가중치는 핑거프린트 비트 추출 과정에서 유실되는 정보를 이용하여 구한 핑거프린트 비트의 예측 강인도이다. 기존 파워 마스크 방법은 저장 공간을 줄이기 위해서 이진화를 통해서 강인한 비트와 연약한 비트로 나눈다. 본 논문에서는 정합 성능을 향상시키기 위해서 실수 값 형태의 파워 가중치를 사용하는 방법을 제안한다. 또한 시간축 방향으로 연관성이 강한 파워 가중치의 특성을 이용하여 압축하여 저장공간을 줄일 수 있도록 한다. 공개된 음악 데이터셋에서 실험을 수행하여, 제안된 파워 웨이트가 오디오 핑거프린트 정합성능을 제고함을 확인하였다.

Fingerprint matching accuracy is essential in deploying a music search service. This paper deals with a method to improve fingerprint matching accuracy by utilizing an auxiliary information which is called power weight. Power weight is an expected robustness of each hash bit. While the previous power mask binarizes the expected robustness into strong and weak bits, the proposed method utilizes a real-valued function of the expected robustness as weights for fingerprint matching. As a countermeasure to the increased storage cost, we propose a compression method for the power weight which has strong temporal correlation. Experiments on the publicly-available music datasets confirmed that the proposed power weight is effective in improving fingerprint matching performance.

키워드

참고문헌

  1. J. Haitsma and T. Kalker, "A highly robust audio fingerprinting system," Proc. International Conf. on Music Information Retrieval, 107-115 (2002).
  2. J. Lee and H. Kim, "Audio fingerprinting using a robust hash function based on the MCLT peak-pair" (in Korean), J. Acoust. Soc. Kr. 34, 157-162 (2015). https://doi.org/10.7776/ASK.2015.34.2.157
  3. J. Seo, "Audio fingerprint binarization by minimizing hinge-loss function" (in Korean), J. Acoust. Soc. Kr. 32, 415-422 (2013). https://doi.org/10.7776/ASK.2013.32.5.415
  4. B. Coover and J. Han, "A power mask based audio fingerprint," Proc. IEEE ICASSP. 1394-1398 (2014).
  5. J. Seo, "A resilience mask for robust audio hashing," IEICE Trans. Inf. & Syst. 100, 57-60 (2017). https://doi.org/10.1587/transinf.2016mul0003
  6. Marsyas GTZAN data sets, http://marsyas.info/downloads/datasets.html/, (Last viewed July 24, 2019).