DOI QR코드

DOI QR Code

Intelligibility Enhancement of Multimedia Contents Using Spectral Shaping

스펙트럼 성형기법을 이용한 멀티미디어 콘텐츠의 명료도 향상

  • 지유나 (연세대학교 컴퓨터정보통신공학부) ;
  • 박영철 (연세대학교 컴퓨터정보통신공학부) ;
  • 황영수 (가톨릭 관동대학교 전자공학과)
  • Received : 2016.08.25
  • Accepted : 2016.10.26
  • Published : 2016.11.25

Abstract

In this paper, we propose an intelligibility enhancement algorithm for multimedia contents using spectral shaping. The dialogue signals is essential to understand the plot of audio-visual media contents such as movie and TV. However, the non-dialogue components as like sound effects and background music often degrade the dialogue clarity. To overcome this problem, this paper tries to improves the dialogue clarity of audio soundtracks which contain important cues for the visual scenes. In the proposed method, the dialogue components are first detected by soft masker based on speech presence probability (SPP) which is widely used in speech enhancement field. Then, extracted dialogue signals are applied to the spectral shaping method. It reallocate the spectral-temporal energy of speech to enhanced the intelligibility. The total energy is maintained as unchanged via a loudness normalization process to prevent saturation. The algorithm was evaluated using the modeled and real movie soundtracks and it was shown that the proposed algorithm enhances the dialogue clarity while preserving the total audio power.

본 논문에서는 스펙트럼 성형기법을 이용한 멀티미디어 콘텐츠 명료도 향상 알고리즘을 제안한다. 영화, 동영상과 같은 오디오-비주얼 미디어 콘텐츠에서 다이얼로그는 영상의 내용을 이해하기 위한 중요한 요소이다. 하지만 종종 영상내의 효과음, 배경음악 등과 같이 함께 믹싱 된 오디오 성분에 의해 중요한 정보를 지닌 다이얼로그의 명료도가 떨어지는 문제점이 제기되어왔다. 뿐만 아니라 멀티미디어 콘텐츠의 이용 환경이 다양해지면서 청자의 주변 환경 또한 오디오 볼륨에 영향을 미치는 요소가 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 영상의 중요 단서를 담고 있는 사운드트랙의 음성 성분 명료도를 높이고자 한다. 제안된 알고리즘은 먼저 영상의 스테레오 오디오 신호에서 음성 존재 확률(Speech Presence Probability)을 이용한 소프트 마스커를 통해 다이얼로그 성분을 검출한다. 추출된 다이얼로그 성분은 스펙트럼 성형 기법을 적용하여 명료도에 중요한 영향을 미치는 고주파대역의 성분을 증폭시키는 등 음성 신호 스펙트럼의 에너지를 재분배하여 신호의 명료도를 향상 시켰다. 마지막으로 크기 정규화 과정을 통해 프로세스 전과 후의 전체 오디오의 파워를 동일하게 유지함으로써 증폭으로 인한 스피커의 오디오 포화(saturation)를 방지하였다. 실험을 통해 본 알고리즘이 동일한 오디오 볼륨에서 영상의 명료도를 향상시킴을 확인 할 수 있었다.

Keywords

References

  1. K. Lopatka, K. Bartosz, and C. Andrzej, "Novel 5.1 downmix algorithm with improved dialogue" Audio Engineering Society Convention 134. Audio Engineering Society, 2013.
  2. C. Uhle, H. Oliver, and W. Jan, ‟Speech enhancement of movie sound," Audio Engineering Society Convention 125. Audio Engineering Society, 2008.
  3. K. Lopatka, C. Andrzej, and K. Bozena. ‟Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks." Digital Signal Processing Vol. 48, pp. 40-49, 2016. https://doi.org/10.1016/j.dsp.2015.08.015
  4. J. H. Choi, and J. H. Chang, "Robust speech reinforcement based on gain-modification incorporating speech absence probability." Journal of the Institute of Electronics Engineers of Korea SP, Vol. 47, no.1, pp. 175-182, 2010.
  5. B. Sauert, and P. Vary, "Recursive closed-form optimization of spectral audio power allocation for near end listening enhancement." ITGFachbericht-Sprachkommunikation 2010 (2010).
  6. T.C. Zorila, K. Varvara, and S. Yannis. ‟Speech -in-noise intelligibility improvement based on spectral shaping and dynamic range compression." Thirteenth Annual Conference of the International Speech Communication Association. 2012.
  7. Y. H. Baek, et al. "Efficient primary-ambient decomposition algorithm for audio upmix." Audio Engineering Society Convention 133. Audio Engineering Society, 2012.
  8. T. Gerkmann, B. Colin, and M. Rainer. "Improved a posteriori speech presence probability estimation based on a likelihood ratio with fixed priors." Audio, Speech, and Language Processing, IEEE Trans. on Vol. 16 no.5, pp. 910-919, 2008. https://doi.org/10.1109/TASL.2008.921764
  9. ANSI, "Methods for calculation of the speech intelligibility index," S3.5-1997, (American National Standards Institute, NewYork), 1997.
  10. ITU-T P.800, Methods for Subjective Determination of Transmission Quality, Aug. 1996.