System for Extraction and Classification of Critical Objects using YOLOv8

YOLOv8을 활용한 디지털 문서의 핵심 객체 추출 및 분류 시스템 설계

  • Young-Rae Cho (T3Q(주)) ;
  • Hong Jun Kim (T3Q(주)) ;
  • Byung Hoon Park (T3Q(주)) ;
  • Sooyeon Shin (Center for Creative Convergence Education, Hanyang University(Seoul)) ;
  • Chi hoon Lee (T3Q(주))
  • 조영래 (티쓰리큐(주)) ;
  • 김홍준 (티쓰리큐(주)) ;
  • 박병훈 (티쓰리큐(주)) ;
  • 신수연 (한양대학교(서울)) ;
  • 이치훈 (티쓰리큐(주))
  • Published : 2024.05.23

Abstract

디지털 문서의 유통과정에서 발생할 수 있는 보안상의 문제를 해결하기 위해서는 파일 복사, 이동과정에 문서의 보안 등급을 자동 검출하고 특정 문서의 유출을 방지하는 보안 솔루션이 필요하다. 따라서 본 논문에서는 이러한 보안상의 문제를 해결하기 위하여 하나의 검출 분류 시스템을 제안하고자 한다. 제안한 시스템은 디지털 문서 내용을 이용하여 핵심 정보라고 판단되는 객체를 우선 추출한 후 그 핵심 유형을 분류하는 과정을 통해서 핵심 정보를 사전에 탐지하도록 하였다. 이를 위해서 SOTA를 달성한 YOLOv8를 이용하여 디지털 문서의 핵심 객체 감지하고 또한 파인튜닝을실시한 모델을 이용하여 그 유형을 분류하도록 설계하였다. 해당 시스템 검증을 위해서 기업에서 사용하고 있는 실제 사내 문서를 데이터셋을 이용하고 그 성능평가를 실시하였다.

Keywords

References

  1. Yann LeCun et al, "Gradient-Based LearningApplied to Document Recognition", IEEE, 1998.
  2. Ross Girshick et al, "Rich feature hierarchiesfor accurate object detection and semanticsegmentation Tech report (v5)", arXiv, 2014.
  3. Joseph Redmon et al, "You Only Look Once: Unified, Real-Time Object Detection", arXiv, 2016.
  4. Wei Liu et al, "SSD: Single Shot MultiBoxDetector", arXiv, 2016.
  5. YOLOv8 공식문서, "https://docs.ultralytics.com/",
  6. YOLOv8 github, "https://github.com/ultralytics/ultralytics"