DOI QR코드

DOI QR Code

A Study on Sound Recognition System Based on 2-D Transformation and CNN Deep Learning

2차원 변환과 CNN 딥러닝 기반 음향 인식 시스템에 관한 연구

  • 하태민 (홍익대학교 대학원 전자전기공학과) ;
  • 조성원 (홍익대학교 전자전기공학과) ;
  • ;
  • ;
  • 이기성 (홍익대학교 전자전기공학과)
  • Received : 2021.12.09
  • Accepted : 2022.02.21
  • Published : 2022.02.28

Abstract

This paper proposes a study on applying signal processing and deep learning for sound recognition that detects sounds commonly heard in daily life (Screaming, Clapping, Crowd_clapping, Car_passing_by and Back_ground, etc.). In the proposed sound recognition, several techniques related to the spectrum of sound waves, augmentation of sound data, ensemble learning for various predictions, convolutional neural networks (CNN) deep learning, and two-dimensional (2-D) data are used for improving the recognition accuracy. The proposed sound recognition technology shows that it can accurately recognize various sounds through experiments.

본 논문은 일상생활에서 흔히 들을 수 있는 소리(비명소리, 박수 소리, 여러 명의 박수 소리, 자동차 지나가는 소리, 배경음 등)를 감지하는 음향 인식을 위하여, 신호처리 및 딥러닝을 적용하는 연구에 관한 것이다. 제안된 음향 인식에서는, 인식 정확도의 향상을 위해서 음향 파형의 스펙트럼, 음향 데이터의 증강, 2차원(2-D) 이미지 변환에 관한 기술들이 사용되었고, 예측의 정확도를 향상을 위한 앙상블 학습, Convolution Neural Network(CNN) 딥러닝 기술들이 적용된다. 제안된 음향 인식 기술은 실험을 통해 다양한 음향을 정확하게 인식할 수 있음을 보여준다.

Keywords

References

  1. 강상훈, Phan Thai Trung, 이호경, 조성원, 이기성 ,"변형된 MFCC를 이용한 위험 음향 감지시스템," 한국지능시스템학회 논문지, 제30권, 제1호, 47-53쪽, 2020년 2월
  2. 김남호, 최지영, "로그인 과정에서의 화자인증 메커니즘을 이용한 사용자인증 방안 연구, "스마트미디어저널, 제8권, 제3호, 23-30쪽, 2019년 9월 https://doi.org/10.30693/SMJ.2019.8.3.23
  3. 이지은, 오영석, "멀티빔 음향 측심기에서 하드웨어 오류 보정을 위한 소프트웨어 개발에 관한 연구," 스마트미디어저널, 제5권, 제1호, 9-14쪽, 2016년 3월
  4. 김형우, 이현동, "오픈소스 하드웨어와 이벤트 기반 논 블로킹 I/O 알고리즘을 활용한 음성송출 시스템 설계 및 구현," 스마트미디어저널, 제9권, 제3호, 116-121쪽, 2020년 9월 https://doi.org/10.30693/SMJ.2020.9.3.116
  5. N. Dave, "Feature Extraction Methods LPC PLP and MFCC in Speech Recognition, " International Journal for Advance Research in Engineering and Technology, vol. 1, no. 6, pp. 1-5, July. 2013.
  6. Sahidullah, Saha Goutam, "Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition," Speech Communication, vol. 54, no. 4, pp. 543-565, May. 2012 https://doi.org/10.1016/j.specom.2011.11.004
  7. I. Goodfellows, Y. Bengio, A. Courvile, "Deep Learning," MIT Press, pp. 27-716, 2016.
  8. Aurelien Geron, "Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow", O'Reilly Media Inc, pp. 277-482, April 2019.
  9. 문해민, 박진원, 반성범, "역전파가 제거된 CNN과 LDA를 이용한 얼굴 영상 해상도별 얼굴 인식률 분석", 스마트미디어저널, 제5권, 제1호, 1-6쪽, 2016년 3월