Audio Genre Classification based on Deep Learning using Spectrogram

Jang, Woo-Jin;Yun, Ho-Won;Shin, Seong-Hyeon;Park, Ho-chong;

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

한국방송∙미디어공학회 (The Korean Institute of Broadcast and Media Engineers)

스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술

Audio Genre Classification based on Deep Learning using Spectrogram

장우진 (광운대학교) ;
윤호원 (광운대학교) ;
신성현 (광운대학교) ;
박호종 (광운대학교)

Jang, Woo-Jin (Kwangwoon Universty) ;
Yun, Ho-Won (Kwangwoon Universty) ;
Shin, Seong-Hyeon (Kwangwoon Universty) ;
Park, Ho-chong (Kwangwoon Universty)

발행 : 2016.06.27

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술을 제안한다. 기존의 오디오 장르 분류는 대부분 GMM 알고리즘을 이용하고, GMM의 특성에 따라 입력 성분들이 서로 직교한 성질을 갖는 MFCC를 오디오의 특성으로 사용한다. 그러나 딥 러닝을 입력의 성질에 제한이 없으므로 MFCC보다 가공되지 않은 특성을 사용할 수 있고, 이는 오디오의 특성을 더 명확히 표현하기 때문에 효과적인 학습을 할 수 있다. 본 논문에서는 딥 러닝에 효과적인 특성을 구하기 위하여 스펙트로그램(spectrogram)을 사용하여 오디오 특성을 추출하는 방법을 제안한다. 제안한 방법을 사용한면 MFCC를 특성으로 하는 딥 러닝보다 더 높은 인식률을 얻을 수 있다.

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술

Audio Genre Classification based on Deep Learning using Spectrogram

초록

키워드