DOI QR코드

DOI QR Code

On the speaker's position estimation using TDOA algorithm in vehicle environments

자동차 환경에서 TDOA를 이용한 화자위치추정 방법

  • Received : 2015.10.16
  • Accepted : 2016.04.25
  • Published : 2016.04.30

Abstract

This study is intended to compare the performances of sound source localization methods used for stable automobile control by improving voice recognition rate in automobile environment and suggest how to improve their performances. Generally, sound source location estimation methods employ the TDOA algorithm, and there are two ways for it; one is to use a cross correlation function in the time domain, and the other is GCC-PHAT calculated in the frequency domain. Among these ways, GCC-PHAT is known to have stronger characteristics against echo and noise than the cross correlation function. This study compared the performances of the two methods above in automobile environment full of echo and vibration noise and suggested the use of a median filter additionally. We found that median filter helps both estimation methods have good performances and variance values to be decreased. According to the experimental results, there is almost no difference in the two methods' performances in the experiment using voice; however, using the signal of a song, GCC-PHAT is 10% more excellent than the cross correlation function in terms of the recognition rate. Also, when the median filter was added, the cross correlation function's recognition rate could be improved up to 11%. And in regarding to variance values, both methods showed stable performances.

본 논문에서는 차량 내부 환경에서 음성인식 성능을 향상시켜 안정적인 차량 제어를 위한 방법으로 사용하는 음원 위치추정방법의 성능 비교와 개선 방법을 제안하였다. 일반적으로 음원 위치추정에는 TDOA알고리즘을 사용하는데 여기에는 시간영역에서 상호상관함수를 이용하는 방법과, 주파수 영역에서 계산하는 GCC-PHAT 방법이 있다. 이중 GCC-PHAT 방법은 상호상관함수보다 반향과 잡음에 강한 특성을 보인다고 알려져 있다. 본 연구에서는 반향과 잡음이 많은 차량 환경에서 위 두 방법의 성능을 비교하고 추가로 미디언 필터 사용을 제안하여 음원위치 추정 성능과 시스템의 안정성을 나타내는 지표로 사용하는 분산값이 모두 향상됨을 확인하였다. 실험결과에서 음성을 사용한 실험에서는 두 방법의 성능 차이가 거의 없지만, 노래신호를 사용한 음원위치 추정에서는 GCC-PHAT 방법이 상호상관함수에 비해 인식률이 10% 우수함을 확인하였다. 또한 미디언 필터를 추가한 경우에는 상호상관함수 방법의 인식률을 최고 11%까지 향상시킬 수 있었고 분산값에서도 두 방법 모두 안정적인 성능을 보여주었다.

Keywords

References

  1. S. H. Kim, J. Y. Ahn, "Speech Recognition System in Car Noise Environment", DMC, vol 10, No 1, 121-127, 2009.
  2. J. W. Choi, H. S. Park, K. H. Kim, "The Human Vehicle Interface System for Integrating and Managing the In-Vehicle Interactions with IT Devices," JESK. vol 30, No.5, 651-657, 2011.
  3. S. M. Hwang, Y. J. Park, "Sound Source Localization Using HRTF Database," KAIST, 2005.
  4. Y. J. Park, M. W. Lee, S. H. Min, Y. H. Han, "Sound Localization based on LP Residual and Hilbert Transform for Intelligent Robot," KIISS vol. 18, No 2 ,2008.
  5. W. Rhee, J. S. Choi, "Experimental Studies for Noise Source Positioning Using TDOA Algorithm," KSNVE, 2006.
  6. B. Jang, D. Y. Sim, C. D. Kim, C. B. Lee, K. H. Cga, "A Study for Estimating Absolute Position od Sound Source Using Reference Microphone and Beamforming Method," KSPC ,1997.
  7. .C. H. Knapp, G. C. Carter, "The generalized correlation method for estimation of time delay," IEEE vol. ASSP-24, 320-327, 1976.
  8. . B. C. Park, K. D. Ban, K. C. Kwak, H. S. Yoon, "Performance analysis of GCC-PHAT-based sound source localization for intelligent robots," KROS, 2007.