DOI QR코드

DOI QR Code

Research on depth information based object-tracking and stage size estimation for immersive audio panning

이머시브 오디오 패닝을 위한 깊이 정보 기반 객체 추적 및 무대 크기 예측에 관한 연구

  • Kangeun Lee ;
  • Hongjun Park ;
  • Sungyoung Kim (Korea Advanced Institute of Science and Technology)
  • 이강은 (한국과학기술원) ;
  • 박홍준 (한국과학기술원) ;
  • 김성영 (한국과학기술원)
  • Received : 2024.07.02
  • Accepted : 2024.09.12
  • Published : 2024.09.30

Abstract

This paper presents our research on automatic audio panning for media content production. Previously, tracking an audio was done manually. With the advent of the immersive audio era, the need for an automatic audio panning system has increased, yet no substantial research has been progressed to date. Therefore, we propose a computer vision-based human tracking and depth feature processing system which processes depth feature through using 2-dimensional coordinates and models 3-dimensional view transformation for automatic audio panning to ensure audiovisual congruence. Also, this system applies stage size estimation model which gets input as an image and extrapolates stage width and depth as meter unit. Since our system estimates stage sizes and directly applies them to view transformation, no additional depth data training is required. To validate the proposed system, we also conducted a pilot test with Unity based sample video. Our team expects that our system will enable automated audio panning, assisting many audio engineers.

본 논문은 미디어 컨텐츠 제작을 위한 자동 오디오 패닝 기술 구현에 관한 연구 내용을 다룬다. 이전까지, 오디오 오브젝트를 지속적으로 추적하는 것은 사람의 수동 작업에 의존하였다. 이머시브(몰입형) 오디오의 시대가 도래함으로써, 자동 오디오 패닝 시스템의 필요성은 점차 부각되었지만, 현재까지 현업에 적용한 연구까지는 진행되지 않고 있다. 이에 본 연구팀은 시청각 조화를 고려한 깊이 정보 기반 객체 추적을 적용한 자동 오디오 패닝 시스템을 제안한다. 시스템은 먼저 2차원의 좌표를 기반으로 깊이 정보를 계산하여 이를 반영한 3차원의 Top-View 시점 변환을 모델링한다. 또한, 실제 무대 공간의 이미지를 입력 값으로 받아, 무대 바닥의 가로 및 깊이를 예측하는 모델을 적용한다. 무대 크기를 예측한 값이 시점 변환에 적용되기에 별도의 깊이 데이터 학습이 추가적으로 요구되지 않는다. 본 연구에서 제안하는 시스템 유효성을 검증하기 위해 Unity 기반의 샘플 비디오를 사용하여 파일럿 테스트를 진행했다. 본 시스템은 많은 오디오 엔지니어들에게 자동화된 오디오 패닝 기능을 제공함으로써 오디오 프로덕션의 작업 효율 개선에 도움을 줄 것으로 예상된다.

Keywords

Acknowledgement

이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. RS-2023-00222383).

References

  1. J. Klapholz, "Fantasia: Innovations in sound," J. Audio Eng. Soc. 39(1/2), 66-70 (1991).
  2. Y. Zhang, P. Sun, Y. Jiang, D. Yu, F. Weng, Z. Yuan, P. Luo, W. Liu, and X. Wang, "Bytetrack: Multi-object tracking by associating every detection box," Proc. ECCV, 1-21 (2022).
  3. P. Sun, J. Cao, Y. Jiang, Z. Yuan, S. Bai, K. Kitani, and P. Luo, "Dancetrack: Multi-object tracking in uniform appearance and diverse motion," Proc. IEEE Conf. CVPR. 20993-21002 (2022).
  4. A. Geiger, P. Lenz, and R. Urtasun, "Are we ready for autonomous driving? The kitti vision benchmark suite," Proc. IEEE Conf. CVPR. 3354-3361 (2012).
  5. Y. Zhang, T. Wang, and X. Zhang, "Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors," Proc. IEEE Conf. CVPR. 22056-22065 (2023).
  6. Z. Ge, S. Liu, F. Wang, Z. Li, and J. Sun, "Yolox: Exceeding yolo series in 2021," arXiv preprint arXiv:2107.08430 (2021).
  7. J. Cao, J. Pang, X. Weng, R. Khirodkar, and K. Kitani, "Observation-centric sort: Rethinking sort for robust multi-object tracking," Proc. IEEE Conf. CVPR. 9686-9696 (2023).
  8. R. Ranftl, K. Lasinger, D. Hafner, K. Schindler, and V. Koltun, "Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer," IEEE Trans. Pattern Anal. Mach. Intell. 44, 1623-1637 (2020).
  9. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. IEEE Conf. CVPR. 770-778 (2016).
  10. J. Canny, "A computational approach to edge detection," IEEE Trans. Pattern Anal. Mach. Intell. PAMI-8, 679-698 (1986).