신경망 기반 오디오 초 해상도 기술 성능 분석

Performance analysis of audio super-resolution based on neural networks

  • 임우택 (한국전자통신연구원 미디어부호화연구실) ;
  • 백승권 (한국전자통신연구원 미디어부호화연구실) ;
  • 성종모 (한국전자통신연구원 미디어부호화연구실) ;
  • 이태진 (한국전자통신연구원 미디어부호화연구실)
  • Lim, Wootaek (Media Coding Research Section Electronics and Telecommunications Research Institute (ETRI)) ;
  • Beack, Seungkwon (Media Coding Research Section Electronics and Telecommunications Research Institute (ETRI)) ;
  • Sung, Jongmo (Media Coding Research Section Electronics and Telecommunications Research Institute (ETRI)) ;
  • Lee, Taejin (Media Coding Research Section Electronics and Telecommunications Research Institute (ETRI))
  • 발행 : 2020.07.13

초록

오디오 초 해상도 기술은 저 해상도의 오디오 신호를 이용하여 고 해상도의 오디오를 복원 또는 생성해 내는 기술이다. 본 기술 분야는 기존에 주파수 대역 확장, 인공 대역 확장 기술 등으로 연구되었으나, 최근 딥러닝 기술의 발전, 이미지 초 해상도 기술 연구 등에 힘입어 오디오 초 해상도 기술 이라는 이름으로 주로 연구되고 있다. 본 논문에서는 이러한 오디오 초 해상도 기술에 연구 동향에 대하여 설명하고, 기존의 논문 들에서 주로 다루고 있는 음성 데이터 베이스가 아닌 MedleyDB 음악 데이터 베이스를 활용하여 실험을 수행하였다. 실험은 4-폴드 교차 검증을 통해 수행되었으며, 실험 결과 제안하는 컨벌루션 신경망 구조 기반 오디오 초 해상도 기술은 입력 저해상도 오디오 대비 SNR 이 3.41 dB 향상됨을 확인하였다.

키워드