A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect

Jung, Hyeonyoung;Kim, Gyumi;Kim, Hyon Hee;

doi:10.3745/PKIPS.y2020m05a.397

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

한국정보처리학회 2020년도 춘계학술발표대회
/
Pages.397-400
/
2020
/
2005-0011(pISSN)
/
2671-7298(eISSN)

한국정보처리학회 (Korea Information Processing Society)

DOI QR Code

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류

A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect

정현영 (동덕여자대학교 정보통계학과) ;
김규미 (동덕여자대학교 정보통계학과) ;
김현희 (동덕여자대학교 정보통계학과)

Jung, Hyeonyoung (Dept. of Statistics and Information Science, Dongduk Women's University) ;
Kim, Gyumi (Dept. of Statistics and Information Science, Dongduk Women's University) ;
Kim, Hyon Hee (Dept. of Statistics and Information Science, Dongduk Women's University)

발행 : 2020.05.29

https://doi.org/10.3745/PKIPS.y2020m05a.397 인용 PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문은 영화에 나오는 효과음을 자막으로 생성해주는 자동자막생성을 제안하며, 그의 첫 단계로써 다중 사운드 분류 모델을 제안하였다. 고양이, 강아지, 사람의 음성을 분류하기 위해 사운드 데이터의 특정벡터를 추출한 뒤, 4가지의 기계학습에 적용한 결과 최적모델로 딥러닝이 선정되었다. 전처리 과정 중 주성분 분석의 유무에 따라 정확도는 81.3%와 33.3%로 확연한 차이가 있었으며, 이는 복잡한 특징을 가지는 사운드를 분류하는데 있어 주성분 분석과 넓고 깊은 형태의 신경망이 보다 개선된 분류성과를 가져온 것으로 생각된다.

한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류

A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)