Audio genre classification using deep learning

Shin, Seong-Hyeon;Jang, Woo-Jin;Yun, Ho-won;Park, Ho-Chong;

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

한국방송∙미디어공학회 (The Korean Institute of Broadcast and Media Engineers)

딥 러닝을 이용한 오디오 장르 분류

Audio genre classification using deep learning

신성현 (광운대학교) ;
장우진 (광운대학교) ;
윤호원 (광운대학교) ;
박호종 (광운대학교)

Shin, Seong-Hyeon (Kwangwoon University) ;
Jang, Woo-Jin (Kwangwoon University) ;
Yun, Ho-won (Kwangwoon University) ;
Park, Ho-Chong (Kwangwoon University)

발행 : 2016.06.27

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 딥 러닝을 이용한 오디오 장르 분류 기술을 제안한다. 장르는 music, speech, effect 3가지로 정의하여 분류한다. 기존의 GMM을 이용한 장르 분류 기술은 speech의 인식률에 비해 music과 effect에 대한 인식률이 낮아 각 장르에 대한 인식률의 차이를 보인다. 이러한 문제를 해결하기 위해 본 논문에서는 딥 러닝을 이용해 높은 수준의 추상화 과정을 거쳐 더 세분된 학습을 진행한다. 제안한 방법을 사용하면 미세한 차이의 특성까지 학습해 장르에 대한 인식률의 차이를 줄일 수 있으며, 각 장르에 대해 GMM을 이용한 오디오 장르 분류보다 높은 인식률을 얻을 수 있다.

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

딥 러닝을 이용한 오디오 장르 분류

Audio genre classification using deep learning

초록

키워드