Abstract
This paper proposes a new nonnegative matrix factorization (NMF) based direction-of-arrival (DOA) estimation method for multiple sound sources using a dual microphone array. First of all, sound signals coming from the dual microphone array are segmented into consecutive analysis frames, and a steered-response power phase transform (SRP-PHAT) beamformer is applied to each frame so that stereo signals of each frame are represented in a time-direction domain. The time-direction outputs of SRP-PHAT are stored for a pre-defined number of frames, which is referred to as a time-direction block. Next, In order to estimate DOAs robust to noise, each time-direction block is normalized along the time by using a block subtraction technique. After that, an unsupervised NMF method is applied to the normalized time-direction block in order to cluster the directions of each sound source in a multiple sound source environments. In particular, the activation and basis matrices are used to estimate the number of sound sources and their DOAs, respectively. The DOA estimation performance of the proposed method is evaluated by measuring a mean absolute error (MAE) and the standard deviation of errors between the oracle and estimated DOAs under a three source condition, where the sources are located in [$-35{\circ}$, 5m], [$12{\circ}$, 4m], and [$38{\circ}$, 4.m] from the dual microphone array. It is shown from the experiment that the proposed method could relatively reduce MAE by 56.83%, compared to a conventional SRP-PHAT based DOA estimation method.
본 논문에서는 이중 마이크로폰 배열을 이용하여 비음수 행렬분해(nonnegative matrix factorization, NMF) 기반으로 다중음원의 도래각을 추정하는 새로운 방법을 제안한다. 우선 이중 마이크로폰 배열에 들어온 음향 신호들을 연속된 분석프레임으로 분할한 후, 각 프레임에 대해 조향응답파워 위상변환(steered-response power phase transform, SRP-PHAT) 빔형성기를 적용하여 스테레오 신호들을 시간-방향 영역으로 표현한다. 이러한 SRP-PHAT의 시간-방향 출력값들은 사전에 정의된 프레임 수만큼 누적하여 시간-방향 블록으로 정의한다. 다음으로, 잡음에 강건한 도래각 추정을 위하여, 각 시간-방향 블록을 블록차감 기법을 사용하여 매 프레임에 대해 정규화한다. 이후, 다중음원 환경에서 각 음원의 방향을 클러스터링하기 위해 정규화된 시간-방향 블록에 비지도(unsupervised) NMF를 적용한다. 구체적으로, 음원의 개수와 이들의 도래각을 추정하는데 각각 활성 및 기저 행렬들을 사용한다. 제안된 방법의 도래각 추정 성능을 평가하기 위해 이중 마이크로폰 배열로부터 입력된 [$-35{\circ}$, 5m], [$12{\circ}$, 4m], 그리고 [$38{\circ}$, 4.m]에 각각 위치한 세 가지 음원들에 대한 추정 오차의 절대 평균(mean absolute error, MAE) 및 오차의 표준편차를 측정하였다. 실험 결과. 제안된 방법은 기존의 SRP-PHAT 기반 도래각 추정방법에 비해 상대적으로 MAE를 56.83% 줄일 수 있었다.