A Speaker Detection System based on Stereo Vision and Audio

스테레오 시청각 기반의 화자 검출 시스템

  • 안준호 (성균관대학교 휴대폰학과) ;
  • 홍광석 (성균관대학교 정보통신공학부)
  • Received : 2010.09.16
  • Accepted : 2010.10.28
  • Published : 2010.12.31

Abstract

In this paper, we propose the system which detects the speaker, who is speaking currently, among a number of users. A proposed speaker detection system based on stereo vision and audio is mainly composed of the followings: a position estimation of speaker candidates using stereo camara and microphone, a current speaker detection, and a speaker information acquisition based on a mobile device. We use the haar-like features and the adaboost algorithm to detect the faces of speaker candidates with stereo camera, and the position of speaker candidates is estimated by a triangulation method. Next, the Time Delay Of Arrival (TDOA) is estimated by the Cross Power Spectrum Phase (CPSP) analysis to find the direction of source with two microphone. Finally we acquire the information of the speaker including his position, voice, and face by comparing the information of the stereo camera with that of two microphone. Furthermore, the proposed system includes a TCP client/server connection method for mobile service.

본 논문에서 다수의 사용자 중에서 현재 발성하고 있는 화자를 검출하는 스테레오 시청각 기반의 화자 검출 시스템을 제안한다. 제안한 시스템은 두 개의 마이크를 이용한 음원 위치추정, 스테레오 카메라를 이용한 영상정합 및 발화자 후보 위치 추정, 그리고 모바일 기반의 화자 검출 정보 획득으로 구성되어 있다. 스테레오 카메라로부터 획득한 화자의 영상정보를 바탕으로 Adaboost 알고리즘과 Haar-like 특징을 이용하여 발화자 후보들의 얼굴을 검출하고 이를 기반으로 삼각측량법을 이용하여 발화자 후보들의 위치를 추정한다. 그리고 2개의 마이크로부터 획득한 화자의 음성정보를 바탕으로 CPSP(Cross Power Spectrum Phase)기반의 TDOA(Time Differnce of Arrival)추정을 통해 음원의 방향을 추정한다. 최종적으로 스테레오 카메라를 통해 측정된 정보와 마이크를 통해 얻은 정보를 비교 분석하여 현재 발화자를 검출한다. 검출된 화자 정보에 대한 보다 차별화 된 서비스 제공을 위해 TCP 서버/클라이언트 구조 기반의 모바일 화자 검출 정보 획득 시스템을 구현하고 평가하였다.

Keywords

References

  1. A. Kushal, M. Rahurkar, Li Fei-Fei, J. Ponce, T. Huang, "Audio-Visual Speaker Localization Using Graphical Models" 18th International Conference on Pattern Recognition. Vol 1, 2006 pp.291-294
  2. T. Takiguchi, J. Adachi, Y. Ariki, "Audio-Based Video Editing with Two-Channel Microphone" International Conference on Multimedia and Ubiquitous Engineering. 2008. pp.282-287
  3. H.Atmoko, D.C.Tan, G.Y.Tian, Bruno Fazenda, "Accurate Sound Source Localization in a Reverberant Environment using Multiple Acoustic Sensors", Measurement Science and Technology Journal, Vol.19 No.2, 2008
  4. K. Nakadai, H. G. Okuno, H. Kitano, "Real-time Sound Source Localization and Separation For Robot Audition" IEEE International Conference on Spoken Language Process. 2002. pp.193-196
  5. M. Omologo, P. Svaizer, "The generalized correlation method for estimation of time delay", IEEE Transactions. Acoustics. Speech and signal Processing, Vol 25, No 4, 1976
  6. B.C. Park, K.D. Ban, K.C. Kwak, H.S. Yoon, "Sound Source Localization Based on Audio-visual Information for Intelligent service Robot", The 8th International Symposium on Advanced Intelligent Systems. 2007. pp.515-519
  7. 진상현, 김동주, 홍광석, "스테레오 비전 기반의 사용자 위치정보 추정 방법에 관한 연구" 한국 신호처리 시스템학회 추계 학술대회 논문집. 제9권 제2호 pp.353-356
  8. 박정옥, 나승유, 김진영, "휴모노이드 로봇을 위한 시청각 정보 기반 음원 정위 시스템 구현" 한국음성학회, 음성과학 제11권 4호, 2004. pp.29-42
  9. Paul Viola, Michael Jones. "Rapid Object Detection using a Boosted Cascade of Simple Features", IEEE Conference on Computer Vision and Pattern Recognition, Vol.1, 2001. pp.511-518
  10. 채영남, 정지년, 양현승. "얼굴 색상과 에이다부스트를 이용한 효율적인 얼굴 검출", 정보과학회논문지 소프트웨어 및 응용 제36권 제7호, 2009. pp 548-559