DOI QR코드

DOI QR Code

Study on the Localization Concordance of Video and Audio

시선에 따른 영상 음향 정위 일치에 관한 연구

  • 이규원 (서울과학기술대학교 전자IT미디어공학과) ;
  • 최해근 (서울과학기술대학교 전자IT미디어공학과) ;
  • 박소연 (서울과학기술대학교 전자IT미디어공학과) ;
  • 박구만 (서울과학기술대학교 전자IT미디어공학과) ;
  • 김성권 (서울과학기술대학교 전자IT미디어공학과)
  • Received : 2018.09.06
  • Accepted : 2018.12.15
  • Published : 2018.12.31

Abstract

The $360^{\circ}$ video has a lot of image information and usefulness; however, the position of the audio source judged by hearing is different from the position on the screen. Therefore, human feels tired, the immersion decrease and user cant watch the video for Moreer time. In this paper, the concordance rate of the video and the audio localization is defined. The rate is expressed in a percentage. It means how much the system makes the sound localization real according to the position of the source on the screen. With this rate, the audio localization performance of immersive audio producing and playing system can be evaluated. It will be helpful for developers to make the higher performance system and expected to contribute to make makinguality system with reality.

$360^{\circ}$ 영상은 많은 영상정보를 담고 있어 유용하나, 눈에 보이는 물체의 방향과 그 물체의 소리가 들려오는 방향이 다른 경우 시청자에게 피로도를 느끼게 하여 감각적 이질감이 증대되어 그 활용도가 떨어지고 있다. 이에 본 논문에서는 $360^{\circ}$ 영상에서 시선에 따른 음향 정위가 얼마나 일치하는지를 백분율로 나타내는 기준을 제안하며, 제시한 영상 음향 정위 일치율을 이용하여 몰입도를 증대시키는 $360^{\circ}$ 영상의 제작 가능성을 제시한다. 제안한 영상 음향 정위 일치율은, 입체음향 콘텐츠 제작, 재생 솔루션의 정위 성능을 측정, 평가에 유용하고, 더욱 실감성 높은 시스템을 제작하는데 기여할 것으로 기대한다.

Keywords

KCTSAD_2018_v13n6_1293_f0001.png 이미지

그림 1. ITD 와 ILD Fig. 1 ITD and ILD

KCTSAD_2018_v13n6_1293_f0002.png 이미지

그림 2. 음원과 관찰자와의 각도에 따른 ITD 그래프. Fig. 2 ITD graph.

KCTSAD_2018_v13n6_1293_f0003.png 이미지

그림 3. 음원과 관찰자의 각도에 따른 ILD 그래프 Fig. 3 ILD Graph

KCTSAD_2018_v13n6_1293_f0004.png 이미지

그림 4. 수평면상에서 θV와 θA Fig. 4 θV and θA in azimuth plane

KCTSAD_2018_v13n6_1293_f0005.png 이미지

그림 5. θA도출 알고리즘 Fig. 5 θA generating algorithm

KCTSAD_2018_v13n6_1293_f0006.png 이미지

그림 6. 360° 영상의 영상 음향 정위 일치율 Fig. 6 360° Video Graph expressed with concordance rate of video and audio localization

KCTSAD_2018_v13n6_1293_f0007.png 이미지

그림 7. 360° 영상 입체음향 획득장치 Fig. 7 360° video and spatial audio recorder

KCTSAD_2018_v13n6_1293_f0008.png 이미지

그림 8. 시선에 따른 4방향 음원 믹싱 방법 Fig. 8 Mixing Method using 4 audio source by points of view

KCTSAD_2018_v13n6_1293_f0009.png 이미지

그림 9. ITD, ILD 측정 과정 Fig. 9 Process of measuring ITD, ILD

KCTSAD_2018_v13n6_1293_f0010.png 이미지

그림 10. θV = 90°인 상황에서 좌(위)·우(아래)로 들어온 신호 파형 Fig. 10 Waveform when θV = 90°. L(up), R(down)

KCTSAD_2018_v13n6_1293_f0011.png 이미지

그림 11. 개선된 360° 영상에서의 영상 음향 정위 일치율 그래프 Fig. 11 Graph of concordance rate of video and audio localization of the improved 360° video

표 1. 실험에 사용된 장비 Table 1. Equipments for experiment

KCTSAD_2018_v13n6_1293_t0001.png 이미지

표 2. ITD 측정 결과 (㎲) Table 2. Result of measuring ITD (㎲)

KCTSAD_2018_v13n6_1293_t0002.png 이미지

표 3. ILD 측정 결과 (dB)Table 3. Result of measuring ILD (dB)

KCTSAD_2018_v13n6_1293_t0003.png 이미지

References

  1. Y. Kim, H. Myung, H. Jung, and K. Kim, "3D Sound Technology," Communications of Korean Institute of Information Scientists and Engineers, vol. 19, no. 5, May 2001, pp. 30-37.
  2. C. Song, C. Yang, S. Park, J. Ku, and H. Park, "Audio Object Localization for 2D Stereo to 3D Virtual Audio Contents Converting," Proc. of Information and Control Symp., Chung-Ang University, Korea, Apr. 2014, pp. 164-165.
  3. T. Joe, S. Kim, G. Park, E. Go, J. Yang, and Y. Kim, "A study for change of audio data according to rotation degree of VR video," J. of Korea Institute of Electronic Communication Science, vol. 12, no. 6, Dec. 2017, pp. 1135-1142. https://doi.org/10.13067/JKIECS.2017.12.6.1135
  4. T. Francart, A. Lenssen, and J. Wouters, "Enhancement of interaural level differences improves sound localization in bimodal hearing," J. Acoust. Soc. Am., vol. 130, no. 5, Nov. 2011, pp. 2817-2826. https://doi.org/10.1121/1.3641414
  5. J. Kim, S. Kim, Y. Lee, S. Yeo, and H. Cho, "A Study of Immersive Audio Improvement of FTV using an effective noise," J. of the Korea Institute of Electronic Communication Sciences, vol. 10, no. 2, Feb. 2015, pp. 233-238. https://doi.org/10.13067/JKIECS.2015.10.2.233
  6. N. L. Aronson and W. M Hartmann, "Testing, correction, and extending the Woodworth model for interaural time difference," J. Acoust. Soc. Am., vol. 135, no. 2, Feb. 2014, pp. 817-823. https://doi.org/10.1121/1.4861243
  7. C. Han, B. Park, J. Seo, and H. Kim, "Direction of arrival Estimation using Frequency Domain Binaural Model," Proc. of KIIT Summer Conference, Kumoh National Institute of Technology, Korea, June 2007, pp. 233-237.
  8. S. Kim, Y. Lee, and Y. Lee, "3D Sound System Based on Audio/Video Analysis," In Proc. IEEK SUMMER Conf., Maison GLAD Jeju, Korea, July 2013, pp. 1924-1927.
  9. R. C. G. Smith and S. R. Price, "Modelling of Human Low Frequency Sound Localization Acuity Demonstrates Dominance of Spatial Variation of Interaural Time Difference and Suggests Uniform Just-Noticeable Differences in Interaural Time Difference," PLoS ONE, vol. 9, no. 2, Feb. 2014, e89033. https://doi.org/10.1371/journal.pone.0089033
  10. T. Kawashima and T. Sato, "Adaptation in Sound Localization Processing Induced by Interaural Time Difference in Amplitude Envelope at High Frequencies," PLoS ONE, vol. 7, no. 7, July 2012, e41328. https://doi.org/10.1371/journal.pone.0041328