DOI QR코드

DOI QR Code

심층 신뢰 신경망을 이용한 오푸스 코덱 기반 인공 음성 대역 확장 기술

Artificial speech bandwidth extension technique based on opus codec using deep belief network

  • 최윤상 (한양대학교 전자통신공학과) ;
  • 이아성 (한양대학교 전자통신공학과) ;
  • 강상원 (한양대학교 전자통신공학과)
  • 투고 : 2016.08.30
  • 심사 : 2017.01.25
  • 발행 : 2017.01.31

초록

대역폭 확장 기술은 300 ~ 3,400 Hz 대역의 협대역 음성 신호를 50 ~ 7,000 Hz 대역의 광대역 음성신호로 확장하여 음질, 명료도, 그리고 자연성을 높이는 기술이다. 본 논문에서는 협대역 음성 정보를 이용하여 광대역 음성신호를 추정하는 인공 대역폭 확장 기술을 설계하여, 오푸스(Opus) 오디오 복호화기에 내장시킴으로써, 대역폭 확장 모듈에서의 LPC(Linear Prediction Coding) 분석 및 LSF(Line Spectral Frequencies) 해석과 관련된 계산량을 감소시켰고 알고리즘 지연도 줄였다. 이를 위해 현재 다양한 분야에 적용되고 있는 딥 러닝 기술 중 하나인 심층 신뢰 신경망(Deep Belief Network, DBN) 방식을 스펙트럼 포락선 확장에 도입하여 전통적인 코드북 매핑법보다 더 좋은 품질의 스펙트럼을 만들 수 있었다.

Bandwidth extension is a technique to improve speech quality, intelligibility and naturalness, extending from the 300 ~ 3,400 Hz narrowband speech to the 50 ~ 7,000 Hz wideband speech. In this paper, an Artificial Bandwidth Extension (ABE) module embedded in the Opus audio decoder is designed using the information of narrowband speech to reduce the computational complexity of LPC (Linear Prediction Coding) and LSF (Line Spectral Frequencies) analysis and the algorithm delay of the ABE module. We proposed a spectral envelope extension method using DBN (Deep Belief Network), one of deep learning techniques, and the proposed scheme produces better extended spectrum than the traditional codebook mapping method.

키워드

참고문헌

  1. ITU-T Recommendation, G.712, Performance characteristics of PCM channels between 4-wire interfaces at voice frequencies, 1988.
  2. P. Noll, "Wideband speech and audio coding," IEEE Communications Magazine, 31, 34-44 (1993).
  3. U. Kornagel, "Techniques for artificial bandwidth extension of telephone speech," Signal Processing, 86, 1276-1306 (2006).
  4. P. Jax and P. Vary, "On artificial bandwidth extension of telephone speech," Signal Processing, 83, 1707-1719 (2003). https://doi.org/10.1016/S0165-1684(03)00082-3
  5. K. Park and H. Kim, "Narrowband to wideband conversion of speech using GMM based transformation," in Proc. ICASSP, 1843-1846 (2000).
  6. G. Hinton, S. Osindero, and Y. Teh, "A fast learning algorithm for deep belief nets," Neural Computation, 19, 1527-1554 (2006).
  7. Jax, Peter and Peter Vary, "Bandwidth extension of speech signals: A catalyst for the introduction of wideband speech coding?" IEEE Communications Magazine 44, 106-111 (2006).
  8. Definition of the Opus Audio Codec, RFC 6716, http://www.ietf.org/rfc/rfc6716.txt, 2012.
  9. K. Vos, K. Sorensen, S. Jensen, and J.-M. Valin "Voice coding with opus," in proc. the AES 135th Convention (2013).
  10. G. Hinton, "A practical guide to training restricted boltzmann machines," Toronto Univ., Tech. Rep. 6(1), 2010.
  11. G. Hinton and R. Salakhutdinov, "Reducing the dimensionality of data with neural networks," Science, 313, 504-507 (2006). https://doi.org/10.1126/science.1127647
  12. ITU-T Recommendation, G.191, Software tools for speech and audio coding standardization, 2010.
  13. K. Li and C.-H. Lee, "A deep neural network approach to speech bandwidth expansion," in Proc. ICASSP, 4395-4399 (2015).