Blind Rhythmic Source Separation

블라인드 방식의 리듬 음원 분리

  • 김민제 (한국전자통신연구원 방통융합미디어연구부) ;
  • 유지호 (포항공과대학교 컴퓨터공학과) ;
  • 강경옥 (한국전자통신연구원 방통융합미디어연구부) ;
  • 최승진 (포항공과대학교 컴퓨터공학과)
  • Published : 2009.11.30

Abstract

An unsupervised (blind) method is proposed aiming at extracting rhythmic sources from commercial polyphonic music whose number of channels is limited to one. Commercial music signals are not usually provided with more than two channels while they often contain multiple instruments including singing voice. Therefore, instead of using conventional modeling of mixing environments or statistical characteristics, we should introduce other source-specific characteristics for separating or extracting sources in the under determined environments. In this paper, we concentrate on extracting rhythmic sources from the mixture with the other harmonic sources. An extension of nonnegative matrix factorization (NMF), which is called nonnegative matrix partial co-factorization (NMPCF), is used to analyze multiple relationships between spectral and temporal properties in the given input matrices. Moreover, temporal repeatability of the rhythmic sound sources is implicated as a common rhythmic property among segments of an input mixture signal. The proposed method shows acceptable, but not superior separation quality to referred prior knowledge-based drum source separation systems, but it has better applicability due to its blind manner in separation, for example, when there is no prior information or the target rhythmic source is irregular.

본 논문에서는 단일 채널 다성 음악에서 리듬 악기 신호를 블라인드 (blind) 방식으로 추출하는 방법을 제안한다. 상업적으로 판매되는 음악 신호는 대부분 2개 이하만의 혼합된 채널 형태로 사용자에게 제공되는 반면, 그 혼합 채널 신호에는 각각 가창 음원 (vocal)을 비롯한 많은 종류의 악기가 포함되어 있는 형태이다. 따라서, 혼합 신호의 개수가 음원 개수와 같거나 더 많은 상황을 가정하는 기존의 음원 분리 방법처럼, 혼합 환경이나 신호의 통계적 특성을 모델링하는 것 보다는, 특정 음원의 고유 특성을 활용하는 것이 이처럼 적은 개수의 혼합 신호만을 가지고 있는 환경 (underdetermined)에 더욱 적합하다. 본 논문에서는 다른 화성 악기와 혼합되어 있는 상창에서 리듬 악기 음원만을 추출하는 것을 목표로 한다. 비음수 행렬 인수분해 (NMF: Nonnegative Matrix Factorization)의 변형된 알고리즘인 비음수 행렬의 부분적 공동 분해 (NMPCF: Nonnegative Matrix Partial Co-Factorization)가 입력 행렬의 시간적인 속성과 주파수적인 속성에서 다양한 관계성을 분석하기 위해 활용된다. 또한 특정 시간 단위로 입력 신호를 파편화 (segmentation)하고, 파편들에서 반복적으로 발생하는 성분을 리듬 악기가 공통적으로 포함하고 있는 특성이라고 가정한다. 본 논문에서 제안하는 방법은 일반적으로 받아들여질 수 있을 정도의 성능을 보여주지만, 기본적으로는 사전 정보를 활용하는 타악기 음원 분리 방식보다 우수하지는 않다. 그러나 블라인드 방식의 특성상, 사전 정보를 획득한기에 용이하지 않은 경우, 또는 사전 정보와 현격히 다른 리듬 악기가 연주되는 경우 등에 보다 유연하게 대응할 수 있다.

Keywords

References

  1. Y. C. Cho and S. Choi, “Nonnegative features of spectro-temporal sounds for classification,” Pattern Recognition Letters, vol. 26, no. 9, pp. 1327 - 1336, 2005 https://doi.org/10.1016/j.patrec.2004.11.026
  2. D. FitzGerald, M. Cranitch, and E. Coyle, "Shifted nonnegative matrix factorisation for sound source separation," in Proc. IEEE Workshop on Statistical Signal Processing, pp.1132-1136, July, 2005 https://doi.org/10.1109/SSP.2005.1628765
  3. D. FitzGerald, M. Cranitch, and E. Coyle, “Sound source separation using shifted non-negative tensor factorisation,” in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. V653-656, May, 2006 https://doi.org/10.1109/ICASSP.2006.1661360
  4. M. Helen and T. Virtanen, “Separation of drums from polyphonic music using non-negative matrix factorization and support vector machine,” in Proc. European Signal Processing Conference, Sept., 2005
  5. M. Kim and S. Choi, “On spectral basis selection for single channel polyphonic music separation,” in Proc. International Conference on Artificial Neural Networks (ICANN), vol. 2, pp. 157 - 162, Sept., 2005
  6. D. D. Lee and H. S. Seung, "Learning the parts of objects by non-negative matrix factorization," Nature, vol. 401, no. 6755, pp. 788 - 791, 1999 https://doi.org/10.1038/44565
  7. D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” in Advances in Neural Information Processing Systems (NIPS), vol. 13. MIT Press, pp. 556-562, 2001
  8. H. Lee and S. Choi, “Group nonnegative matrix factorization for EEG classification,” in Proc. International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 320-327, April, 2009
  9. P. Smaragdis and J. C. Brown, "Non-negative matrix factorization for polyphonic music transcription," in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 177 -180, Oct., 2003
  10. T. O. Virtanen, "Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria," IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 3, pp. 1066 - 1074, 2007 https://doi.org/10.1109/TASL.2006.885253
  11. J. Yoo and S. Choi, "Weighted nonnegative matrix co-tri factorization for collaborative prediction," in Proc. of 1st Asian Conference on Machine Learning, pp. 396-411, Nov., 2009 https://doi.org/10.1007/978-3-642-05224-8_30
  12. J. Yoo, M. Kim, K. Kang, and S. Choi, “Nonnegative matrix partial co-factorization for drum source separation,” in Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2010 (submitted for publication)
  13. M. Kim, J. Yoo, K. Kang, and S. Choi, "Blind Rhythmic Source Separation: Nonnegativity and Repeatibility," in Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2010 (submitted for publication)