DOI QR코드

DOI QR Code

An investigation of subband decomposition and feature-dimension reduction for musical genre classification

음악 장르 분류를 위한 부밴드 분해와 특징 차수 축소에 관한 연구

  • 서진수 (강릉원주대학교 전자공학과) ;
  • 김정현 (한국전자통신연구원 콘텐츠 연구본부) ;
  • 박지현 (한국전자통신연구원 콘텐츠 연구본부)
  • Received : 2016.12.13
  • Accepted : 2017.03.29
  • Published : 2017.03.31

Abstract

Musical genre is indispensible in constructing music information retrieval system, such as music search and classification. In general, the spectral characteristics of a music signal are obtained based on a subband decomposition to represent the relative distribution of the harmonic and the non-harmonic components. In this paper, we investigate the subband decomposition parameters in extracting features, which improves musical genre classification accuracy. In addition, the linear projection methods are studied to reduce the resulting feature dimension. Experiments on the widely used music datasets confirmed that the subband decomposition finer than the widely-adopted octave scale is conducive in improving genre-classification accuracy and showed that the feature-dimension reduction is effective reducing a classifier's computational complexity.

음악 장르는 음악 검색 및 분류 등의 정보 처리 시스템 구현에 있어서 필수적인 요소이다. 일반적으로 장르 분류를 위한 스펙트럼 특징은 음악의 화음 및 강약 구조를 표현하기 위해 부밴드로 분해하여 구해진다. 본 논문은 음악 장르 분류 성능 개선을 위한 특징 추출을 위한 부밴드 분해 방법에 관해 연구하였다. 또한 부밴드 음악 특징의 차수를 줄일 수 있는 방법에 대해서도 연구하였다. 널리 사용되고 있는 장르 데이터셋들에서 실험을 수행하여 널리 사용되고 있는 옥타브 스케일보다 세분화된 부밴드 분해가 장르 분류 성능을 향상시킬 수 있으며, 특징 차수 축소를 결합하여 분류기의 계산량도 줄일 수 있음을 보였다.

Keywords

References

  1. Z. Fu, G. Lu, K. M. Ting, and D. Zhang, "A survey of audio-based music classification and annotation," IEEE Trans. Multimedia 13, 303-319 (2011). https://doi.org/10.1109/TMM.2010.2098858
  2. B. L. Sturm, "A survey of evaluation in music genre recognition," in Proc. AMR-2012, 29-66 (2012).
  3. J. Seo, "Study on the performance of spectral contrast MFCC for musical genre classification" (in Korean), J. Acoust. Soc. Kr. 29, 265-269 (2010).
  4. S.-C. Lim, S.-J. Jang, S.-P. Lee, and M. Y. Kim, "Music genre classification system using decorrelated filter bank" (in Korean), J. Acoust. Soc. Kr. 30, 100-106 (2011). https://doi.org/10.7776/ASK.2011.30.2.100
  5. D. Jiang, L. Lu, H. Zhang, J. Tao, and L. Cai, "Music type classification by spectral contrast feature," in Proc. ICME-2002, 113-116 (2002).
  6. D. O'Shaughnessy, Speech Communication: Human and Machine (Addison-Wesley, Boston, 1987), pp. 150.
  7. M. Sugiyama, "Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis," J. Mach. Learn. Res. 8, 1027-1061 (2007).
  8. S. Pedagadi, J. Orwell, S. Velastin, and B. Boghossian, "Local fisher discriminant analysis for pedestrian reidentification," in Proc. CVPR, 3318-3325 (2013).
  9. P. Loizou and O. Poroy, "Minimum spectral contrast needed for vowel identification by normal-hearing and cochlear implant listeners," J. Acoust. Soc. Am. 110, 1619-1627 (2001). https://doi.org/10.1121/1.1388004
  10. S. Umesh, L. Cohen, and D. Nelson, "Fitting the mel scale," in Proc. ICASSP, 217-220 (1999).
  11. G. Tzanetakis and P. Cook, "Musical genre classification of audio signals," IEEE Trans. Speech and Audio Process. 10, 293-302 (2002). https://doi.org/10.1109/TSA.2002.800560
  12. B. L. Sturm, "An analysis of the GTZAN music genre dataset," in Proc. ACM workshop on Music information retrieval with user-centered and multimodal strategies, 7-12 (2012).
  13. A.K. Jain, Fundamentals of Digital Image Processing (Prentice-Hall, Trenton, 1989), pp. 150-161.