DOI QR코드

DOI QR Code

부가 정보를 이용하는 오토 인코더 기반의 오디오 고대역 부호화 기술

Audio High-Band Coding based on Autoencoder with Side Information

  • 투고 : 2019.03.15
  • 심사 : 2019.04.30
  • 발행 : 2019.05.30

초록

본 논문에서는 부가 정보를 이용하는 오토 인코더 기반의 새로운 오디오 고대역 부호화 방법을 제안한다. 제안하는 방법은 MDCT 영역에서 동작하고, 부호화 할 정보만 입력하는 기존의 오토 인코더와 다르게, 과거와 현재의 저대역 정보로 구성된 부가 정보를 추가로 입력하여 오토 인코더의 복원 성능을 향상시킨다. 특히, 시간-주파수 영역의 부가 정보를 사용하여 시간에 따른 신호 특성을 고대역 복원에 활용하도록 한다. 제안하는 방법에서 부호화기는 매 프레임마다 오토 인코더가 생성한 4차원 latent 벡터와 이득 정보를 12비트로 양자화 하여 전송한다. 복호화기는 과거와 현재 프레임에서 복원된 저대역 정보와 전송 받은 정보를 오토 인코더에 입력하여 고대역 정보를 복원한다. 청취 평가를 통하여 제안하는 방법이 SBR에 비하여 약 1/2의 비트율로 SBR과 동등 품질의 고대역 정보를 복원하는 것을 확인하였다.

In this study, a new method of audio high-band coding based on autoencoder with side information is proposed. The proposed method operates in the MDCT domain, and improves the performance by using additional side information consisting of the previous and current low bands, which is different from the conventional autoencoder that only inputs information to be encoded. Moreover, the side information in a time-frequency domain enables the high-band coder to utilize temporal characteristics of the signal. In the proposed method, the encoder transmits a 4-dimensional latent vector computed by the autoencoder and a gain variable using 12 bits for each frame. The decoder reconstructs the high band by applying the decoded low bands in the previous and current frames and the transmitted information to the autoencoder. Subjective evaluation confirms that the proposed method provides equivalent performance to the SBR at approximately half the bit rate of the SBR.

키워드

BSGHC3_2019_v24n3_387_f0001.png 이미지

그림 1. 오토 인코더의 기본 구조 Fig. 1. Basic structure of autoencoder

BSGHC3_2019_v24n3_387_f0003.png 이미지

그림 2. 제안하는 오토 인코더 구조 Fig. 2. Structure of the proposed autoencoder

BSGHC3_2019_v24n3_387_f0004.png 이미지

그림 3. GLU 구조 Fig. 3. GLU structure

BSGHC3_2019_v24n3_387_f0005.png 이미지

그림 4. Latent 벡터 X 값의 2차원 분포도 Fig. 4. 2D scatter diagram of latent vector X

BSGHC3_2019_v24n3_387_f0006.png 이미지

그림 5. 평가 데이터의 스펙트로그램 (a) 원본 신호, (b) 제안 방법으로 복원한 신호, (c) SBR로 복원한 신호 Fig. 5. Spectrogram of test data (a) original, (b) decoded signal by proposed method and (c) decoded signal by SBR

BSGHC3_2019_v24n3_387_f0007.png 이미지

그림 6. MUSHRA 청취 평가 결과 Fig. 6. Result of MUSHRA test

표 1. 제안하는 방법에서 사용하는 신경망의 세부 구조 Table 1. Detail of network structure in the proposed method

BSGHC3_2019_v24n3_387_t0001.png 이미지

참고문헌

  1. ISO/IEC 11172-3, "Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s - Part 3," 1993.
  2. M. Dietz, L. Liljeryd, K. Kjorling, and O. Kunz, "Spectral band replication, a novel approach in audio coding," 112th Conv. Audio Eng. Soc., May 2002.
  3. C. R. Helmrich, et al., "Spectral envelope reconstruction via IGF for audio transform coding," Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Brisbane, Australia, pp. 389-393, 2015.
  4. L. Jiang, R. Hu, X. Wang, W. Tu, and M. Zhang, "Nonlinear prediction with deep recurrent neural networks for non-blind audio bandwidth extension," China Communication, vol. 15, no. 1, pp. 72-85. Jan. 2018. https://doi.org/10.1109/cc.2018.8290807
  5. K. Schmidt and B. Edler, "Blind bandwidth extension based on convolutional and recurrent deep neural networks," Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Calgary, Canada, pp. 5444-5448, 2018.
  6. G. E. Hinton and R. Salakhutdinov, "Reducing the dimensionality of data with neural networks," Science, 313.5786, pp. 504-507, 2006. https://doi.org/10.1126/science.1127647
  7. Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," Nature, 521.7553, pp. 436-444, 2015. https://doi.org/10.1038/nature14539
  8. Y. N. Dauphin, et al., "Language modeling with gated convolutional networks," Proc. of the 34th Int. Conf. on Machine Learning, vol 70, Sydney, Australia, pp. 933-941, 2017.
  9. D. P. Kingma and J. L. Ba, "Adam: A method for stochastic optimization," Proc. of Int. Conf. on Learning Representation, San Diego, USA, 2015.
  10. C. Veaux, et al., "Superseded-CSTR VCTK corpus: English multi-speaker corpus for CSTR voice cloning toolkit," 2016.
  11. M. Goto, "Development of the RWC music database," Proc. of Int. Congress on Acoustics, vol. 1, pp. 553-556, April 2004.
  12. ISO/IEC JTC1/SC29/WG11 N9927, "Workplan for subjective testing of Unified Speech and Audio Coding proposals," April 2008.
  13. S. Beack, et al., "Single-mode-based Unified Speech and Audio Coding by extending the linear prediction domain coding mode," ETRI Journal, vol. 39, no. 3, pp. 310-318, 2017. https://doi.org/10.4218/etrij.17.0116.0397
  14. ITU-R BS.1534-3, "Method for the subjective assessment of intermediate quality level of audio systems," 2015.