DOI QR코드

DOI QR Code

Comparison of Artificial Intelligence Multitask Performance using Object Detection and Foreground Image

물체탐색과 전경영상을 이용한 인공지능 멀티태스크 성능 비교

  • Received : 2022.04.12
  • Accepted : 2022.05.16
  • Published : 2022.05.30

Abstract

Researches are underway to efficiently reduce the size of video data transmitted and stored in the image analysis process using deep learning-based machine vision technology. MPEG (Moving Picture Expert Group) has newly established a standardization project called VCM (Video Coding for Machine) and is conducting research on video encoding for machines rather than video encoding for humans. We are researching a multitask that performs various tasks with one image input. The proposed pipeline does not perform all object detection of each task that should precede object detection, but precedes it only once and uses the result as an input for each task. In this paper, we propose a pipeline for efficient multitasking and perform comparative experiments on compression efficiency, execution time, and result accuracy of the input image to check the efficiency. As a result of the experiment, the capacity of the input image decreased by more than 97.5%, while the accuracy of the result decreased slightly, confirming the possibility of efficient multitasking.

딥러닝 기반 머신 비전 기술을 이용한 영상분석 과정에서 전송되고 저장되는 방대한 양의 동영상 데이터의 용량을 효율적으로 줄이기 위한 연구들이 진행 중이다. MPEG(Moving Picture Expert Group)은 VCM(Video Coding for Machine)이라는 표준화 프로젝트를 신설해 인간을 위한 동영상 부호화가 아닌 기계를 위한 동영상 부호화에 대한 연구를 진행 중이다. 그 중 한 번의 영상 입력으로 여러가지 태스크를 수행하는 멀티태스크에 대한 연구를 진행하고 있다. 본 논문에서는 효율적인 멀티태스크를 위한 파이프라인을 제안한다. 제안하는 파이프라인은 물체탐지를 선행해야 하는 각 태스크들의 물체탐지를 모두 수행하지 않고 한번만 선행하여 그 결과를 각 태스크의 입력으로 사용한다. 제안하는 멀티태스크 파이프라인의 효율성을 알아보기 위해 입력영상의 압축효율, 수행시간, 그리고 결과 정확도에 대한 비교 실험을 수행한다. 실험 결과 입력 영상의 용량이 97.5% 이상 감소한데 반해 결과 정확도는 소폭 감소하여 멀티태스크에 대한 효율적인 수행 가능성을 확인할 수 있었다.

Keywords

Acknowledgement

본 논문은 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2020-0-00011, 기계를 위 한 영상 부호화 기술).

References

  1. Y. Jang, D. Chung, "Technology Trend for Image Analysis Based on Deep Learning," Current Industrial and Technological Trends in Aerospace, vol.17, No.1, pp.113-122, July 2019.
  2. M. Jeong, S. Kim, H. Jin, H. Lee, H. Choo, H. Lim, and J. Seo, "Experiment on the Effect of Feature Map Encoding on CNN Performance Evaluation," JOURNAL OF BROADCAST ENGINEERING, vol.25, No.7, pp.1081-1094, December 2020. doi: https://doi.org/10.5909/JBE.2020.25.7.1081
  3. H. Jin, M. Jeong, D. Yoo, S. Kim, J. Lee, H. Lee, and W. Cheong, "Compression of CNN Inference Results Using MPEG-7 Descriptor Binarization," Proceedings of the Korean Society of Broadcast Engineers Conference, pp.36-38, June 2021.
  4. S. Wenkel, K. Alhazmi, T. Liiv, S. Alrshoud, M. Simon, "Confidence Score: The Forgotten Dimension of Object Detection Performance Evaluation," Sensors, Vol. 21, No.13: 4350, 2021, (accessed May. 3, 2022). doi: https://doi.org/10.3390/s21134350.
  5. H. Lee, J. Lee, H. Choo, W. Cheong, J. Seo, "[VCM] Object of interest based VCM for multi-task," ISO/IEC JTC1/SC29/WG02 m58846, Online, January 2022
  6. W. Lin, K. Dong, R. Yang, T. Wang, A. Zhang and D. Liu, "[VCM] Anchor generation for HiEve(object tracking)," ISO/IEC JTC1/SC29/WG02 m55761, Online, December 2020.
  7. Github - facebookresearch/detectron2, https://github.com/facebookresearch/detectron2 (accessed Apr. 10, 2022).
  8. FFmpeg, https://ffmpeg.org/ (accessed Apr. 10, 2022).
  9. VTM-12.0 jvet/VVCSoftware, https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM/-/tree/VTM-12.0 (accessed Apr.10, 2022).
  10. Github - leoxiaobin/deep-high-resolution-net.pytorch, https://github.com/leoxiaobin/deep-high-resolution-net.pytorch(acces sed Apr.10, 2022).
  11. Github - Zhongdao/Towards-Realtime-MOT, https://github.com/Zhongdao/Towards-Realtime-MOT (accessed Apr.10, 2022).
  12. J. Redmon and A. Farhadi, "YOLO v3: An Incremental Improvement", Computer Vision and Pattern Recognition, 2018. (accessed Apr. 10, 2022). doi: https://doi.org/10.48550/arXiv.1804.02767