Abstract
An unsupervised (blind) method is proposed aiming at extracting rhythmic sources from commercial polyphonic music whose number of channels is limited to one. Commercial music signals are not usually provided with more than two channels while they often contain multiple instruments including singing voice. Therefore, instead of using conventional modeling of mixing environments or statistical characteristics, we should introduce other source-specific characteristics for separating or extracting sources in the under determined environments. In this paper, we concentrate on extracting rhythmic sources from the mixture with the other harmonic sources. An extension of nonnegative matrix factorization (NMF), which is called nonnegative matrix partial co-factorization (NMPCF), is used to analyze multiple relationships between spectral and temporal properties in the given input matrices. Moreover, temporal repeatability of the rhythmic sound sources is implicated as a common rhythmic property among segments of an input mixture signal. The proposed method shows acceptable, but not superior separation quality to referred prior knowledge-based drum source separation systems, but it has better applicability due to its blind manner in separation, for example, when there is no prior information or the target rhythmic source is irregular.
본 논문에서는 단일 채널 다성 음악에서 리듬 악기 신호를 블라인드 (blind) 방식으로 추출하는 방법을 제안한다. 상업적으로 판매되는 음악 신호는 대부분 2개 이하만의 혼합된 채널 형태로 사용자에게 제공되는 반면, 그 혼합 채널 신호에는 각각 가창 음원 (vocal)을 비롯한 많은 종류의 악기가 포함되어 있는 형태이다. 따라서, 혼합 신호의 개수가 음원 개수와 같거나 더 많은 상황을 가정하는 기존의 음원 분리 방법처럼, 혼합 환경이나 신호의 통계적 특성을 모델링하는 것 보다는, 특정 음원의 고유 특성을 활용하는 것이 이처럼 적은 개수의 혼합 신호만을 가지고 있는 환경 (underdetermined)에 더욱 적합하다. 본 논문에서는 다른 화성 악기와 혼합되어 있는 상창에서 리듬 악기 음원만을 추출하는 것을 목표로 한다. 비음수 행렬 인수분해 (NMF: Nonnegative Matrix Factorization)의 변형된 알고리즘인 비음수 행렬의 부분적 공동 분해 (NMPCF: Nonnegative Matrix Partial Co-Factorization)가 입력 행렬의 시간적인 속성과 주파수적인 속성에서 다양한 관계성을 분석하기 위해 활용된다. 또한 특정 시간 단위로 입력 신호를 파편화 (segmentation)하고, 파편들에서 반복적으로 발생하는 성분을 리듬 악기가 공통적으로 포함하고 있는 특성이라고 가정한다. 본 논문에서 제안하는 방법은 일반적으로 받아들여질 수 있을 정도의 성능을 보여주지만, 기본적으로는 사전 정보를 활용하는 타악기 음원 분리 방식보다 우수하지는 않다. 그러나 블라인드 방식의 특성상, 사전 정보를 획득한기에 용이하지 않은 경우, 또는 사전 정보와 현격히 다른 리듬 악기가 연주되는 경우 등에 보다 유연하게 대응할 수 있다.