DOI QR코드

DOI QR Code

Deep learning-based approach to improve the accuracy of time difference of arrival - based sound source localization

도달시간차 기반의 음원 위치 추정법의 정확도 향상을 위한 딥러닝 적용 연구

  • Iljoo Jeong ;
  • Hyunsuk Huh ;
  • In-Jee Jung (Division of Physical Metrology, Korea Research Institute of Standards and Science) ;
  • Seungchul Lee (Department of Mechanical Engineering, Korea Advanced Institute of Science and Technology)
  • 정일주 (포항공과대학교 기계공학과) ;
  • 허현석 (포항공과대학교 기계공학과) ;
  • 정인지 (한국표준과학연구원 물리표준본부) ;
  • 이승철 (한국과학기술원 기계공학과)
  • Received : 2023.12.04
  • Accepted : 2024.01.11
  • Published : 2024.03.31

Abstract

This study introduces an enhanced sound source localization technique, bolstered by a data-driven deep learning approach, to improve the precision and accuracy of direction of arrival estimation. Focused on refining Time Difference Of Arrival (TDOA) based sound source localization, the research hinges on accurately estimating TDOA from cross-correlation functions. Accurately estimating the TDOA still remains a limitation in this research field because the measured value from actual microphones are mixed with a lot of noise. Additionally, the digitization process of acoustic signals introduces quantization errors, associated with the sampling frequency of the measurement system, that limit the precision of TDOA estimation. A deep learning-based approach is designed to overcome these limitations in TDOA accuracy and precision. To validate the method, we conduct comprehensive evaluations using both two and three-microphone array configurations. Moreover, the feasibility and real-world applicability of the suggested method are further substantiated through experiments conducted in an anechoic chamber.

본 연구는 데이터 기반의 딥러닝 접근 방식을 통해 도달 방향 추정의 정확성과 정밀성의 개선을 통해 보다 강건하고 정확한 음원 위치 추적 기술을 제안한다. 본 연구에서는 도달시간 차 기반의 음원 위치 추적법을 개선함을 목적으로 하며, 이를 위해 상호상관함수로부터 정확하고 정밀한 시간 지연을 추정한다. 실제 마이크로폰으로부터 계측된 값은 많은 잡음이 혼입된 형태이므로, 따라서 실제 도달시간 차이를 정확히 추정하는 것이 여전히 이 분야의 한계로 남아있다. 또한, 마이크로폰으로 부터 실제 신호를 계측하는 과정에서 신호는 디지털화가 되며, 계측 시스템의 샘플링 주파수에 의해 측정 정밀도가 한정되는 양자화 오류를 수반한다. 본 연구에서는 딥러닝 기반 접근법을 통해, 기존의 방법이 가지는 한계를 극복한다. 또한 본 연구에서는 획득된 상호상관함수로부터 시간 지연을 추정하는 원리를 분석하기 위해, 두 개 및 세 개의 마이크로폰으로 구성된 배열에 대한 검증을 수행한다. 마지막으로, 실험을 통해 본 방법의 실제 활용성을 검증한다.

Keywords

Acknowledgement

본 연구는 한국표준과학연구원의 연구 과제(KRISS-2023-GP2023-0002, KRISS-2023-GP2023-0004-05) 및 시장선도를위한 한국주도형 K-Sensor 기술개발 「센서소자 신뢰성 평가지원」(RS-2002-00154837)의 지원을 받아 수행되었습니다.

References

  1. Y. Bao, Q. Wang, K. Shen, and Y. Wang, "Microphone array-based sound source localization and tracking system," Proc. IEEE ITNEC, 515-519 (2023). 
  2. S. Gombots, J. J. Nowak, and M. Kaltenbacher, "Sound source localization-state of the art and new inverse scheme," E&I Elektrotech. Inf. Tech. 138, 229-243 (2021). 
  3. M. R. Bai, S.-S. Lan, and J.-Y. Huang, "Time difference of arrival (TDOA)-based acoustic source localization and signal extraction for intelligent audio classification," Proc. IEEE SAM, 632-636 (2018). 
  4. C. Evers, H. W. Lollmann, H. Mellmann, A. Schmidt, H. Barfuss, P. A. Naylor, and W. Kellermann, "The LOCATA challenge: Acoustic source localization and tracking," IEEE/ACM TASLP, 28, 1620-1643 (2020). 
  5. R. Lee, M. S. Kang, B. H. Kim, K. H. Park, S. Q. Lee, and H. M. Park, "Sound source localization based on GCC-PHAT with diffuseness mask in noisy and reverberant environments," IEEE Access, 8, 7373-7382 (2020). 
  6. D. Salvati, C. Drioli, and G. L. Foresti, "Acoustic source localization using a geometrically sampled grid SRP-PHAT algorithm with max-pooling operation," IEEE Signal Process. Lett. 29, 1828-1832 (2022). 
  7. I.-J. Jung and J.-G. Ih, "Comparison of the sound source localization methods appropriate for a compact microphone array" (in Korean), J. Acoust. Soc. Kr. 31, 47-56 (2020). 
  8. P.-A. Grumiaux, S. Kitic, L. Girin, and A. Guerin, "A survey of sound source localization with deep learning methods," J. Acoust. Soc. Am. 152, 107-151 (2022). 
  9. X. Xiao, S. Zhao, X. Zhong, D. L. Jones, E. S. Chng, and H. Li, "A learning-based approach to direction of arrival estimation in noisy and reverberant environments," Proc. IEEE ICASSP, 2814-2818 (2015). 
  10. F. Vesperini, P. Vecchiotti, E. Principi, S. Squartini, and F. Piazza, "A neural network-based algorithm for speaker localization in a multi-room environment," Proc. IEEE MLSP, 1-6 (2016). 
  11. H. C. Maruri, P. L. Meyer, J. Huang, J. Ontiveros, and H. Lu, "GCC-PHAT cross-correlation audio features for simultaneous sound event localization and detection (SELD) in multiple rooms," DCASE 2019 Tech. Rep. 2019. 
  12. D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv:1412.6980 (2014).