DOI QR코드

DOI QR Code

효과음 자막 생성을 위한 딥러닝 기반의 다중 사운드 분류

A Multiclass Sound Classification Model based on Deep Learning for Subtitles Production of Sound Effect

  • 정현영 (동덕여자대학교 정보통계학과) ;
  • 김규미 (동덕여자대학교 정보통계학과) ;
  • 김현희 (동덕여자대학교 정보통계학과)
  • Jung, Hyeonyoung (Dept. of Statistics and Information Science, Dongduk Women's University) ;
  • Kim, Gyumi (Dept. of Statistics and Information Science, Dongduk Women's University) ;
  • Kim, Hyon Hee (Dept. of Statistics and Information Science, Dongduk Women's University)
  • 발행 : 2020.05.29

초록

본 논문은 영화에 나오는 효과음을 자막으로 생성해주는 자동자막생성을 제안하며, 그의 첫 단계로써 다중 사운드 분류 모델을 제안하였다. 고양이, 강아지, 사람의 음성을 분류하기 위해 사운드 데이터의 특정벡터를 추출한 뒤, 4가지의 기계학습에 적용한 결과 최적모델로 딥러닝이 선정되었다. 전처리 과정 중 주성분 분석의 유무에 따라 정확도는 81.3%와 33.3%로 확연한 차이가 있었으며, 이는 복잡한 특징을 가지는 사운드를 분류하는데 있어 주성분 분석과 넓고 깊은 형태의 신경망이 보다 개선된 분류성과를 가져온 것으로 생각된다.

키워드