Content-based Music Information Retrieval using Pitch Histogram

Pitch 히스토그램을 이용한 내용기반 음악 정보 검색

  • 박만수 (한국정보통신대학교 공학부) ;
  • 박철의 (한국정보통신대학교 공학) ;
  • 김회린 (한국정보통신대학교 공학) ;
  • 강경옥 (한국전자통신연구원 방송미디어연구부)
  • Published : 2004.03.01

Abstract

In this paper, we proposed the content-based music information retrieval technique using some MPEG-7 low-level descriptors. Especially, pitch information and timbral features can be applied in music genre classification, music retrieval, or QBH(Query By Humming) because these can be modeling the stochasticpattern or timbral information of music signal. In this work, we restricted the music domain as O.S.T of movie or soap opera to apply broadcasting system. That is, the user can retrievalthe information of the unknown music using only an audio clip with a few seconds extracted from video content when background music sound greeted user's ear. We proposed the audio feature set organized by MPEG-7 descriptors and distance function by vector distance or ratio computation. Thus, we observed that the feature set organized by pitch information is superior to timbral spectral feature set and IFCR(Intra-Feature Component Ratio) is better than ED(Euclidean Distance) as a vector distance function. To evaluate music recognition, k-NN is used as a classifier

본 논문에서는 내용 기반 음악 정보 검색에 MPEG-7에 정의된 오디오 서술자를 적용하는 방법을 제안한다. 특히 Pitch 정보와 timbral 특징들은 음색 구분을 용이하게 할 수 있어 음악 검색뿐만 아니라 음악 장르 분류 또는 QBH(Query By Humming)에 이용 될 수 있다. 이러한 방법을 통하여 오디오 신호의 대표적인 특성을 표현 할 수 있는 특징벡터를 구성 할 수 있다면 추후에 멀티모달 시스템을 이용한 검색 알고리즘에도 오디오 특징으로 이용 될 수 있을 것이다. 본 논문에서는 방송 시스템에 적용하기 위해 영화나 드라마의 배경음악에 해당하는 O.S.T 앨범으로 검색 범위를 제한하였다. 즉, 사용자가 임의로 검색을 요청한 시점에서 비디오 컨텐츠로부터 추출한 임의의 오디오 클립만을 이용하여 그 컨텐츠 전체의 O.S.T 앨범 내에서 음악을 검색할 수 있도록 하였다. 오디오 특징 백터를 구성하기 위해 필요한 MPEG-7 오디오 서술자의 조합 방법을 제안하고 distance 또는 ratio 계산 방식을 통해 성능 향상을 추구하였다. 또한 reference 음악의 템플릿 구성 방식의 변화를 통해 성능 향상을 추구하였다. Classifier로 k-NN 방식을 사용하여 성능평가를 수행한 결과 timbral spectral feature 보다는 pitch 정보를 이용한 특징이 우수한 성능을 보였고 vector distance 방식으로는 특징들의 비율을 이용한 IFCR(Intra-Feature Component Ratio) 방식이 ED(Euclidean Distance) 방식보다 우수한 성능을 보였다.

Keywords

References

  1. Yibin Zhang, Jie Zhou, 'A Study On Content-Based Music Classification,' IEEE Proc. 7th International Symposium on Signal Processing and Its Applications, Vol. 2 , pp. 113-116, July, 2003
  2. Tong Zhang, C.-C. Jay Kuo, 'Audio Content Analysis for Online Audiovisual Data Segmentation and Classification,' IEEE Trans. On Speech and Audio Processing, vol. 9, no. 4, pp. 441-457, May 2001
  3. Lie Lu, Hong You, H. J. Zhang, 'A New Approach to Query by Humming in Music Retrieval,' ICME 2001, Aug. 2001
  4. K. Kashino, H. Murase, 'A sound source identification system for ensemble music based on template adaptation and music stream extraction,' Speech Communication, vol. 27, pp. 337-349, 1999
  5. Information Technology Multimedia Content Description Interface Part 4: Audio, ISO/IEC FDIS 15938-4.
  6. Overview of the MPEG-7 Standard (version 6.0), ISO/IEC TC1/SC29/WG11/N4509