칼만 필터를 이용한 시청각 음원 정위 및 추적

Audio-Visual Localization and Tracking of Sound Sources Using Kalman Filter

  • 송민규 (전남대학교 전자컴퓨터공학부) ;
  • 김진영 (전남대학교 전자컴퓨터공학부) ;
  • 나승유 (전남대학교 전자컴퓨터공학부)
  • 발행 : 2007.08.25


최근 로봇 기술 및 응용에 대한 관심이 고조됨에 따라, 로봇의 청각기술에 대한 연구가 활발하다. 본 기술에서는 로봇 탑재용으로 인간 청각기능중 하나인 음원정위 및 추적기술에 대하여 논한다. 음원 정위 및 추적을 위하여 시청각 정보를 이용하였는데, 시각정보로는 얼굴색 기반 얼굴 탐지 정보를 이용하였으며, 양이(binaural) 기반의 음원 추정 정보가 청각 정보로서 활용되었다. 시각과 청각 정보는 Kalman 필터를 이용하여 통합하였다. 실험결과 시청각 음원 추적 기술은 일부 정보의 유실이 있을 때, 효과적으로 활용될 수 있음을 보였다.

With the high interest on robot technology and application, the research on artificial auditory systems for robot is very active. In this paper we discuss sound source localization and tracing based on audio-visual information. For video signals we use face detection based on skin color model. Also, binaural-based DOA is used as audio information. We integrate both informations using Kalman filter. The experimental results show that audio-visual person tracking Is useful, specially in the case that some informations are not observed.



  1. J. Segen and S. Pingali, 'A camera-based system for tracking people in real time,' in International Conference on Pattern Recognition, Vol. 3 pp. 63-67, 1996
  2. D. J. Beymer and K. Konolige, 'Real-time tracking of multiple people using stereo,' In Frame-rate99, 1999
  3. J. Vermaak and A. Blake, 'Sequential monte carlo fusion of sound and vision for speaker tracking,' In International Conference on computer Vision, 2001
  4. P. S. Chang, 'Performance of 3D Speaker Localization Using a Small Array of Microphones,' In Proc.. of IEEE International Conference on Thirty-First Asilomar, Vol. 1, pp. 2-5, 1997
  5. S. Kawato and J. Ohva, 'Automatic Skin-color Distribution Extraction for Face Detection and Tracking,' In ICDSP2000 : The 5th Int. Conf. on Signal Processing, Vol. II, pp 1415-1418, 2000
  6. F. Tomaz, T. Candeias and H. Shahbazkia, 'Improved Automatic Skin Detection in color Inages,' In Proc. VIIth Digital Image Compution : Techniques and Applications, Sun C. Talbot H. Ourselin S. and Adriaansen T., pp 10-12, 2003
  7. A. Harma. (2000, March 7). THTear Matlab Toolbox(version2.0) Available
  8. H. A. Rowley, S. Baluja, T. Kanade, 'Human face detection in visual scenes,' CMU-CS-95-158, Carnegie Mellon University, November, 1995
  9. M. Isard and A. Blake, 'Condensation-Conditional density propagation for visual tracking,' In Int. J. Computer Vision, Vol. 29, no1, pp5-28, 1998
  10. J. Vermaak and A. Blake, 'Nonlinear filtering for speaker tracking in noisy and reverberant environment,' In Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing (ICASSP-01), Salt Lake City, UT, USA, May 2001