피치 히스토그램과 MFCC-VQ 동적 패턴을 사용한 음악 검색

Music Identification Using Pitch Histogram and MFCC-VQ Dynamic Pattern

  • 박철의 (한국정보통신대학교, 공학부) ;
  • 박만수 (한국정보통신대학교, 공학부) ;
  • 김성탁 (한국정보통신대학교, 공학부) ;
  • 김회린 (한국정보통신대학교, 공학부)
  • 발행 : 2005.04.01

초록

본 논문에서는 내용기반 음악 정보 검색 방법으로써 멜로디의 시간 변화 특성과 통계적 특성을 모두 이용할 수 있는 hybrid 방법에 대해 제안하였다. 실제 방송 환경에의 적용을 위해 드라마 OST의 좁은 검색 범위뿐만 아니라 가요 1,005곡의 넓은 검색 범위에서도 제안한 방법을 이용하여 실험하였다. 제안된 방법은 특징 벡터로써 pitch와 MFCC(Mel Frequency Cepstral Coefficient)를 사용하여 음의 특성을 나타내었으며 멜로디를 표현하기 위해 피치 히스토그램과 VQ (Vector Quantization) 코드화한 MFCC의 템포럴 시퀀스를 이용함으로써 음악 검색 방법에 멜로디의 시간 변화 특성과 통계적 특성을 함께 적용할 수 있었다. 또한 pitch 히스토그램과 MFCC-VQ 템포럴 방법을 모두 사용한 hybrid 방식에 적절한 패턴 매칭 방법을 제안함으로써 기존의 각 단일 방식을 이용한 성능 결과 (MFCC-VQ 템포럴)와 비교하여 볼 때 드라마 OST 검색 범위에서는 평균 $9.9\%$, 가요 1,005곡의 검색 범위에서는 $10.2\%$의 오류 감소율을 나타내었다.

This paper presents a new music identification method using probabilistic and dynamic characteristics of melody. The propo3ed method uses pitch and MFCC parameters as feature vectors for the characteristics of music notes and represents melody pattern by pitch histogram and temporal sequence of codeword indices. We also propose a new pattern matching method for the hybrid method. We have tested the proposed algorithm in small (drama OST) and broad (1.005 popular songs) search spaces. The experimental results on search areas of OST and 1,005 popular songs showed better performance of the proposed method over conventional methods. We achieved the performance improvement of average $9.9\%$ and $10.2\%$ in error reduction rate on each search area.

키워드

참고문헌

  1. Z.Liu, J.Huang, Y. Wang, and T. Chuan, 'Audio feature extraction and analysis for scene classification,' in Proc. IEEE 1st Multimedia Workshop, 1997
  2. L. Lu, H. Zhang, and S. Li, 'Content-based audio classification and segmentation by using support vector machines,' Multimedia Systems Journal, 8 (6), 482-492, March, 2003 https://doi.org/10.1007/s00530-002-0065-0
  3. S. Esmaili, S. Krishnan and K. Raahemifar, 'Content based audio classification and retrieval using joint time-frequency analysis,' in Proc. ICASSP, May 2004
  4. Overview of the MPEG-7 Standard(version 6.0), ISO/IEC, TC1/SC29/WG11/N4509
  5. BOZENA KOSTEK, 'Musical Instrument Classification and Duet Analysis Employing Music Information Retrieval Techniques,' Proceedings of the IEEE, 92, 712-729, April, 2004
  6. 박만수, 박철의, 김회린, 강경옥, 'Pitch 히스토그램을 이용한 내용기반 음악 정보 검색,' 방송공학회논문지, 9 (1), 2-8, 3월, 2004
  7. 박철의, 박만수, 김성탁, 김회린, 강경옥, 'Temporal 특성을 이용한 내용기반 음악 정보 검색,' 음향학회 가을학술대회, 2004
  8. Aggelos Pikrakis, Sergios Theodoridis, Dimitris Kamarotos, 'Recognition of Isolated Musical Patterns Using Context Dependent Dynamic Time Warping,' IEEE trans. Speech & Audio Proc., 11 (3), 175-183, May, 2003 https://doi.org/10.1109/TSA.2003.811533