The Design and Implementation of Autoencoder-Based FTAE for Real-Time Audio Monitoring

Jin-Hwan Yang;Hyuk-Soon Choi;Jeong-hyeon park;Sung-Sik Kim;Nammee Moon;

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2024.05a
/
Pages.741-744
/
2024
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

The Design and Implementation of Autoencoder-Based FTAE for Real-Time Audio Monitoring

실시간 음성 모니터링을 위한 오토인코더 기반 FTAE 설계 및 구현

Jin-Hwan Yang (Dept. of Computer Engineering, Hoseo University) ;
Hyuk-Soon Choi (Dept. of Computer Engineering, Hoseo University) ;
Jeong-hyeon park (Dept. of Computer Engineering, Hoseo University) ;
Sung-Sik Kim (Dept. of Computer Engineering, Hoseo University) ;
Nammee Moon (Dept. of Computer Engineering, Hoseo University)

양진환 (호서대학교 컴퓨터공학부) ;
최혁순 (호서대학교 컴퓨터공학부) ;
박정현 (호서대학교 컴퓨터공학부) ;
김성식 (호서대학교 컴퓨터공학부) ;
문남미 (호서대학교 컴퓨터공학부)

Published : 2024.05.23

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 연구에서는 음성 전처리 기법인 푸리에 변환의 높은 시간 복잡도로 인해 많은 계산 자원을 요구한다는 단점을 보완하기 위한 FTAE(Fourier Transform Auto Encoder)를 설계하고 구현한다. FTAE는 음성 데이터를 입력으로 받아 Early Fusion 특징맵을 출력하도록 설계된 오토인코더 기반 신경망이다. 학습 결과 FTAE의 최종 Training Loss는 0.1479를 나타냈다. 기존 푸리에 변환 기반 Early Fusion 방법과의 성능 비교 실험 결과 FTAE 방법은 Accuracy 0.905, F1-Score 0.905, 탐지 소요 시간 17초의 성능을 보였다. FTAE 방법은 Early Fusion 방법에 비해 Accuracy와 F1-Score는 0.065 하락했지만, 탐지 소요 시간은 약 72배 빠른 결과를 보여주었다.

Keywords

Acknowledgement

본 연구는 과학기술정부통신부와 정보통신기획평가원의 SW중심대학사업의 연구결과로 수행되었음(No. 2019-0-01834).

References

SALAH, Euschi, et al. A Fourier transform based audio watermarking algorithm. Applied Acoustics, 2021, 172: 107652.
HASSAN, KM NAIMUL; HAQUE, Mohammad Ariful. ASFNet: Audio Spectrogram Fourier Network for Efficient Medical Sound Event Detection. Authorea Preprints, 2023.
BARTUSIAK, Emily R.; DELP, Edward J. Frequency domain-based detection of generated audio. arXiv preprint arXiv:2205.01806, 2022.
박정현, 고준혁, 김시웅, & 문남미. (2023). 음성 데이터 증강을 통한 3D 특징 벡터 기반 신생아 울음소리 분류. 한국컴퓨터정보학회논문지, 28(9), 47-54.
양진환, 김성식, 최혁순, 문남미, Early Fusion을 적용한 위급상황 음향 분류, 한국정보처리학회 ACK 2023, 부경대학교 대연캠퍼스, 2023, 1213-1214
PAWAR, Sameer; RAMCHANDRAN, Kannan. Computing a k-sparse n-length discrete Fourier transform using at most 4k samples and O (k log k) complexity. In: 2013 IEEE International Symposium on Information Theory. IEEE, 2013. p. 464-468.
DRISCOLL, James R.; HEALY, Dennis M. Computing Fourier transforms and convolutions on the 2-sphere. Advances in applied mathematics, 1994, 15.2: 202-250.
SMITH, Julius O. Mathematics of the discrete Fourier transform (DFT): with audio applications. Julius Smith, 2008.
BANK, Dor; KOENIGSTEIN, Noam; GIRYES, Raja. Autoencoders. Machine learning for data science handbook: data mining and knowledge discovery handbook, 2023, 353-374.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

The Design and Implementation of Autoencoder-Based FTAE for Real-Time Audio Monitoring

실시간 음성 모니터링을 위한 오토인코더 기반 FTAE 설계 및 구현

Abstract

Keywords

Acknowledgement

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)