DOI QR코드

DOI QR Code

Polyphonic sound event detection using multi-channel audio features and gated recurrent neural networks

다채널 오디오 특징값 및 게이트형 순환 신경망을 사용한 다성 사운드 이벤트 검출

  • 고상선 (광운대학교 전파공학과) ;
  • 조혜승 (광운대학교 전파공학과) ;
  • 김형국 (광운대학교 전파공학과)
  • Received : 2017.03.17
  • Accepted : 2017.07.31
  • Published : 2017.07.31

Abstract

In this paper, we propose an effective method of applying multichannel-audio feature values to GRNNs (Gated Recurrent Neural Networks) in polyphonic sound event detection. Real life sounds are often overlapped with each other, so that it is difficult to distinguish them by using a mono-channel audio features. In the proposed method, we tried to improve the performance of polyphonic sound event detection by using multi-channel audio features. In addition, we also tried to improve the performance of polyphonic sound event detection by applying a gated recurrent neural network which is simpler than LSTM (Long Short Term Memory), which shows the highest performance among the current recurrent neural networks. The experimental results show that the proposed method achieves better sound event detection performance than other existing methods.

본 논문에서는 다채널 오디오 특징값을 게이트형 순환 신경망(Gated Recurrent Neural Networks, GRNN)에 적용한 효과적인 다성 사운드 이벤트 검출 방식을 제안한다. 실생활의 사운드는 여러 사운드 이벤트가 겹쳐있는 다성사운드로, 기존의 단일 채널 오디오 특징값으로는 다성 사운드에서 개별적인 이벤트의 검출이 어렵다는 한계가 있다. 이에 본 논문에서는 다채널 오디오 신호를 기반으로 추출된 특징값을 사용하여 다성 사운드 이벤트 검출에 적용하였다. 또한 본 논문에서는 현재 순환 신경망에서 가장 높은 성능을 보이는 장단기 기억 신경망(Long Short Term Memory, LSTM) 보다 간단한 GRNN을 분류에 적용하여 다성 사운드 이벤트 검출의 성능을 더욱 향상시키고자 하였다. 실험결과는 본 논문에서 제안한 방식이 기존의 방식보다 성능이 더 뛰어나다는 것을 보인다.

Keywords

References

  1. A. Mesaros, M. F. McKinney, and J. Skowronek, "Automatic surveillance of the acoustic activity in our living environment," Proc. IEEE ICME 634-637 (2005).
  2. E. Cakir, T. Heittola, H. Huttunen, and T. Virtanen, "Polyphonic sound event detection using multi-label deep neural networks," Proc. IEEE IJCNN, 1-7 (2015).
  3. X. xiao, S. Watanabe, H. Erdogan, L. Lu, J.Hershey, M. L. Seltzer, G. Chen, Y. Zhang, M. Mandel, and D. Yu, "Deep beamforming networks for multi-channel speech recognition," Proc. IEEE ICASSP, 5745-5749 (2016).
  4. G. Parascandolo, H. Huttunen, and T. Virtanen, "Recurrent neural networks for polyphonic sound event detection in real life recordings," Proc. IEEE ICASSP, 6440-6444 (2016).
  5. T. N. Sainath, O. Vinyals, A. Senior, and H. Sak, "Convolutional, long short-term memory, fully connected deep neural networks," Proc. IEEE ICASSP, 4580-4584 (2015).
  6. C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech Signal Process. 24, 320-327 (1976). https://doi.org/10.1109/TASSP.1976.1162830
  7. B. Uzkent, B. D. Barkana, and H. Cevikalp, "Non-speech environmental sound classification using svms with a new set of features," in IJICIC, 3511 (2012).
  8. A. Mesaros, T. Heittola, A. Eronen, and T. Virtanen, "Acoustic event detection in real life recordings," 18th European signal processing Conference, 1267-1271 (2010).