DOI QR코드

DOI QR Code

Quality Improvement of Karaoke Mode in SAOC using Cross Prediction based Vocal Estimation Method

교차 예측 기반의 보컬 추정 방법을 이용한 SAOC Karaoke 모드에서의 음질 향상 기법에 대한 연구

  • 이동금 (연세대학교 전기전자공학과) ;
  • 박영철 (연세대학교 컴퓨터정보통신공학부) ;
  • 윤대희 (연세대학교 전기전자공학과)
  • Received : 2012.12.26
  • Accepted : 2013.02.18
  • Published : 2013.05.31

Abstract

In this paper, we present a vocal suppression algorithm that can enhance the quality of music signal coded using Spatial Audio Object Coding (SAOC) in Karaoke mode. The residual vocal component in the coded music signal is estimated by using a cross prediction method in which the music signal coded in Karaoke mode is used as the primary input and the vocal signal coded in Solo mode is used as a reference. However, the signals are extracted from the same downmix signal and highly correlated, so that the music signal can be severely damaged by the cross prediction. To prevent this, a psycho-acoustic disturbance rule is proposed, in which the level of disturbance to the reference input of the cross prediction filter is adapted according to the auditory masking property. Objective and subjective test were performed and the results confirm that the proposed algorithm offers improved quality.

본 논문에서는 SAOC의 Karaoke 모드의 출력 신호 내에 존재하는 잔여 보컬 성분을 추정하여 억제시킴으로써 음질을 향상시킬 수 있는 알고리듬을 제안하였다. 잔여 보컬 성분은 Karaoke 모드 환경으로 합성된 신호와 Solo 모드로 새로 합성된 신호를 서로 교차 예측하여 추정될 수 있다. 그러나, 두 신호는 모두 같은 다운 믹스 신호로부터 합성되는 신호이므로, 두 신호간의 높은 상관성으로 인하여 가라오케 신호내의 잔여 보컬 성분뿐만 아니라 음악 성분도 함께 제거된다. 이러한 열화를 해결하기 위해, 본 논문에서는 교차 예측 과정에서 심리 음향적 특성을 고려한 예측 방해 신호를 적용하였으며, 이 신호의 크기는 심리음향모델의 마스킹 특성에 따라 음악적 음질의 열화가 최소화되도록 적응적으로 설정되었다. 실험은 보컬 객체가 포함된 음악 신호에 대해서 객관적 및 주관적 음질평가를 수행하였으며, 전체적으로 성능 향상이 있음을 확인하였다.

Keywords

References

  1. ISO/IEC 23003-2:2010, Information technology-MPEG audio technologies-Part 2: Spatial Audio Object Coding (SAOC), 2010.
  2. G. Hotho, L. Villemoes, and J. Breebaart, "A backwardcompatible multichannel audio codec," IEEE Trans. on Audio, Signal and Language. Proc., 16, 83-93 (2008). https://doi.org/10.1109/TASL.2007.910768
  3. C. Falch, L. Terentiev, and J. Herre, "Spatial audio object coding with enhanced audio object separation," Proc. of the 13th Int. Conf. on DAFx-10 (2010).
  4. J. Park, J. Hong, K. Kim, and M. Hahn, "Harmonic elimination structures for Karaoke mode in spatial audio object coding scheme," IEEE Int. Conf. on Consum. Elec.,813-814 (2011).
  5. J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen, "Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding," 124th AES Conv., paper no. 7377 (2008).
  6. J. Breebaart, G. Hotho, J. Koppens, E. Schuijers, W. Oomen and S. Van De Par, "Background, concept, and architecture for the recent MPEG surround standard on multichannel audio compression," J. Audio Eng. Soc., 55, 331-351 (2007).
  7. J. D. Johnston, "Transform coding of audio signal using perceptual noise criteria," IEEE Journal on Sel. Areas in Commun., 6, 314-323 (1988). https://doi.org/10.1109/49.608
  8. ISO/IEC JTC1/SC29/WG11 N11037, Study on ISO/IEC FCD 23003-2:200x, Spatial Audio Object Coding, 2009.
  9. V. Emiya, E. Vincent, and N. Harlander, V. Hohmann, "Multicriteria subjective and objective evaluation of audio source separation," 38th AES Int. Conf. : Sound Qual. Eval. (2010).
  10. Recommendation ITU-R BS.1284-1, General methods for the subjective assessment of sound quality, 2003.
  11. E. Schuijers, J. Breebaart, H. Purnhagen, and J. Engdegard, "Low complexity parametric stereo coding," 124th AES Conv., paper no. 6073 (2004).