DOI QR코드

DOI QR Code

Lightweight Key Point Detection Model Based on Multi-Scale Ghost Convolution for YOLOv8

YOLOv8 을 위한 다중 스케일 Ghost 컨볼루션 기반 경량 키포인트 검출 모델

  • Zihao Li (Dept. of Computer Science, Hanyang University) ;
  • Inwhee Joe (Dept. of Computer Science, Hanyang University)
  • 이자호 (한양대학교 컴퓨터 소프트웨어학과) ;
  • 조인휘 (한양대학교 컴퓨터 소프트웨어학과)
  • Published : 2024.05.23

Abstract

컴퓨터 비전 응용은 우리 생활에서 중요한 역할을 한다. 현재, 대규모 모델의 등장으로 딥 러닝의 훈련 및 운행 비용이 급격히 상승하고 있다. 자원이 제한된 환경에서는 일부 AI 프로그램을 실행할 수 없게 되므로, 경량화 연구가 필요하다. YOLOv8 은 현재 주요 목표 검출 모델 중 하나이며, 본 논문은 다중 스케일 Ghost 컨볼루션 모듈을 사용하여 구축된 새로운 YOLOv8-pose-msg 키포인트 검출 모델을 제안한다. 다양한 사양에서 새 모델의 매개변수 양은 최소 34% 감소할 수 있으며, 최대 59%까지 감소할 수 있다. 종합적인 검출 성능은 비교적 대규모 데이터셋에서 원래의 수준을 유지할 수 있으며, 소규모 데이터셋에서의 키포인트 검출은 30% 이상 증가할 수 있다. 동시에 최대 25%의 훈련 및 추론 시간을 절약할 수 있다.

Keywords

References

  1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  2. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object detection with transformers. In European conference on computer vision (pp. 213-229). Cham: Springer International Publishing.
  3. Jocher, G., Chaurasia, A., & Qiu, J. (2023). Ultralytics YOLO (Version 8.1) [Computer software]. https://github.com/ultralytics/ultralytics
  4. Han, K., Wang, Y., Tian, Q., Guo, J., Xu, C., & Xu, C. (2020). Ghostnet: More features from cheap operations. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 1580-1589).
  5. Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., ... & Adam, H. (2017). Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861.
  6. Bochkovskiy, A., Wang, C. Y., & Liao, H. Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934.
  7. Wang, C. Y., Bochkovskiy, A., & Liao, H. Y. M. (2023). YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 7464-7475).
  8. Ultralytics. (n.d.). Tiger-Pose Dataset. Ultralytics. Retrieved March 5, 2024, from https://docs.ultralytics.com/datasets/pose/tiger-pose