Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder

심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 최적화

  • Shin, Seung-Min (Intelligent Signal Processing LAB, Yonsei University) ;
  • Byun, Joon (Intelligent Signal Processing LAB, Yonsei University) ;
  • Park, Young-Cheol (Intelligent Signal Processing LAB, Yonsei University) ;
  • Beack, Seung-kwon (Electronics and Telecommunications Research Institute (ETRI)) ;
  • Sung, Jong-mo (Electronics and Telecommunications Research Institute (ETRI))
  • 신승민 (연세대학교 지능형신호처리연구실) ;
  • 변준 (연세대학교 지능형신호처리연구실) ;
  • 박영철 (연세대학교 지능형신호처리연구실) ;
  • 백승권 (한국전자통신연구원) ;
  • 성종모 (한국전자통신연구원)
  • Published : 2022.06.20

Abstract

최근, 심층신경망 기반 오디오 부호화기가 활발히 연구되고 있다. 심층신경망 기반 오디오 부호화기는 기존의 전통적인 오디오 부호화기보다 구조적으로 간단하지만, 네트워크의 복잡도를 증가시키지 않고 인지적 성능향상을 기대하는 것은 어렵다. 이 문제를 해결하기 위하여 인간의 청각적 특성을 활용한 심리음향모델 기반 손실함수를 사용한 기법들이 소개되었다. 심리음향 모델 기반 손실함수를 사용한 오디오 부호화기는 양자화 잡음을 잘 제어하였지만, 여전히 지각적인 향상이 필요하다. 본 논문에서는 심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 지역 손실함수 윈도우 크기의 최적화 제안한다. Multi-time Scale 손실함수의 지역 손실함수 계산을 위한 윈도우 크기를 조절하며, 이를 통하여 오디오 부호화에 적합한 윈도우 사이즈를 결정한다. 실험을 통해 얻은 최적의 Multi-time Scale 손실함수를 사용하여 네트워크를 훈련하였고, 주관적 평가를 통해 기존의 심리음향모델 기반 손실함수보다 좋은 음성 품질을 보여주는 것을 확인하였다.

Keywords

Acknowledgement

본 연구는 한국전자통신연구원 연구운영비지원사업의 일환으로수행되었음. [22ZH1200, 초실감 입체공간 미디어 콘텐츠 원천기술 연구]