DOI QR코드

DOI QR Code

Home monitoring system based on sound event detection for the hard-of-hearing

청각장애인을 위한 사운드 이벤트 검출 기반 홈 모니터링 시스템

  • 김지연 (광운대학교 전자융합공학과) ;
  • 신승수 (광운대학교 전자융합공학과) ;
  • 김형국 (광운대학교 전자융합공학과)
  • Received : 2019.02.21
  • Accepted : 2019.04.30
  • Published : 2019.07.31

Abstract

In this paper, we propose a home monitoring system using sound event detection based on a bidirectional gated recurrent neural network for the hard-of-hearing. First, in the proposed system, packet loss concealment is used to recover a lost signal captured through wireless sensor networks, and reliable channels are selected using multi-channel cross correlation coefficient for effective sound event detection. The detected sound event is converted into the text and haptic signal through a harmonic/percussive sound source separation method to be provided to hearing impaired people. Experimental results show that the performance of the proposed sound event detection method is superior to the conventional methods and the sound can be expressed into detailed haptic signal using the source separation.

본 논문에서는 청각장애인을 위해 양방향 게이트 순환 신경망을 이용한 사운드 이벤트 검출 기반의 홈 모니터링 시스템을 제안한다. 제안된 시스템에서는 우선적으로 효과적인 사운드 이벤트 검출을 위해 패킷손실 은닉을 이용하여 무선 센서 네트워크로 인해 손실된 신호를 복원하고, 멀티채널 상호 상관관계 계수를 이용하여 신뢰할 수 있는 채널을 선택한다. 선택된 채널의 사운드는 이벤트 검출을 위해 두 개의 오디오 채널을 사용하는 양방향 게이트 순환신경망에 적용된다. 검출된 사운드 이벤트는 텍스트로 변환되며, 이와 함께 하모닉/퍼커시브 음원 분리 방식을 통해 햅틱 신호로 변환되어 청각장애인에게 제공된다. 실험결과는 제안한 사운드 검출기반의 성능이 기존 방식보다 더 우수하다는 것과 음원 분리 방식을 통해 사운드를 세밀한 햅틱 신호로 표현할 수 있음을 보인다.

Keywords

GOHHBH_2019_v38n4_427_f0001.png 이미지

Fig. 1. Architecture of the proposed system.

GOHHBH_2019_v38n4_427_f0002.png 이미지

Fig. 2. Framework of the training and testing procedure for the proposed SED system.

GOHHBH_2019_v38n4_427_f0003.png 이미지

Fig. 3. Diagram of a process for generating haptic vibration.

GOHHBH_2019_v38n4_427_f0004.png 이미지

Fig. 4. Results of sound-to-haptic conversion using harmonic-percussive source separation.

Table 1. Comparison of the segment-based error rate and F-score for different combinations of classifiers and features.

GOHHBH_2019_v38n4_427_t0001.png 이미지

References

  1. M. Zöhrer and F. Pernkopf, "Gated recurrent networks applied to acoustic scene classification and acoustic event detection," Proc. Detection and Classification of Acoustic Scenes and Events 2016, 1-5 (2016).
  2. B. H. Kim, H.-G. Kim, J. Jeong, and J. Y. Kim, "VoIP receiver-based adaptive playout scheduling and packet loss concealment technique," IEEE Trans. Consum. Electron., 59, 250-258 (2013). https://doi.org/10.1109/TCE.2013.6490267
  3. K. Kumatani, J. McDonough, J. F. Lehman, and B. Raj, "Channel selection based on multichannel crosscorrelation coefficients for distant speech recognition," Proc. Joint Workshop Hands-free Speech Commun. Microphone Arrays, 1-6 (2011).
  4. D. Pavlidi, A. Griffin, M. Puigt, and A. Mouchtaris, "Real-time multiple sound source localization and counting using a circular microphone array," IEEE Trans. Audio, Speech, Lang. Process., 21, 2193-2206 (2013). https://doi.org/10.1109/TASL.2013.2272524
  5. R. Lu and Z. Duan, "Bidirectional GRU for sound event detection," Proc. Detection and Classification of Acoustic Scenes and Events 2017, 1-4 (2017).
  6. A. Mesaros, T. Heittola, and T. Virtanen, "TUT database for acoustic scene classification and sound event detection," Proc. 24th Eur. Signal Process. Conf., 1128-1132 (2016).
  7. A. Liutkus, D. Fitzgerald, Z. Rafii, B. Pardo, and L. Daudet, "Kernel additive models for source separation," IEEE Trans. Signal Process., 62, 4298-4310 (2014). https://doi.org/10.1109/TSP.2014.2332434