• 제목/요약/키워드: One-Stage Object Detection

검색결과 38건 처리시간 0.029초

An Enhanced Two-Stage Vehicle License Plate Detection Scheme Using Object Segmentation for Declined License Plate Detections

  • Lee, Sang-Won;Choi, Bumsuk;Kim, Yoo-Sung
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권9호
    • /
    • pp.49-55
    • /
    • 2021
  • 본 논문에서는 실제 도로에서 기울어진 촬영 각도로 인하여 회전된 차량 번호판을 정확하게 탐지하기 위하여 객체 세그먼테이션(object segmentation)을 이용하는 개선된 2-단계 차량 번호판 탐지 모델을 제안한다. 기존 연구에서 제안한 3-단계 차량 번호판 탐지 파이프라인 모델은 차량 번호판이 많이 기울어져 있을수록 탐지 정확도가 낮아지는 문제가 있다. 이를 해결하기 위해서 기존의 3-단계 모델에서 사각형 형태만으로 차량 후보 영역과 차량 번호판 후보 영역을 인식하는 전위 2개의 처리 단계 대신에 임의의 형태로 객체 탐지가 가능한 객체 세그먼테이션을 이용하는 하나의 단계로 대체함으로써 탐지 과정을 단순화하였으며 궁극적으로는 임의의 형태로 기울어진 차량 이미지에 대해서도 탐지 성능을 개선하였다. 기울어진 차량 번호판 이미지를 대상으로 실시한 차량 번호판 탐지 모델의 정확도 분석 실험 결과에 의하면 기존의 3-단계 차량 번호판 탐지 모델보다 제안된 2-단계 기법이 탐지 과정을 단순화하였음에도 최대 약 20%의 탐지 정확도를 개선할 수 있는 것으로 분석되었다.

Sub-Frame Analysis-based Object Detection for Real-Time Video Surveillance

  • Jang, Bum-Suk;Lee, Sang-Hyun
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.76-85
    • /
    • 2019
  • We introduce a vision-based object detection method for real-time video surveillance system in low-end edge computing environments. Recently, the accuracy of object detection has been improved due to the performance of approaches based on deep learning algorithm such as Region Convolutional Neural Network(R-CNN) which has two stage for inferencing. On the other hand, one stage detection algorithms such as single-shot detection (SSD) and you only look once (YOLO) have been developed at the expense of some accuracy and can be used for real-time systems. However, high-performance hardware such as General-Purpose computing on Graphics Processing Unit(GPGPU) is required to still achieve excellent object detection performance and speed. To address hardware requirement that is burdensome to low-end edge computing environments, We propose sub-frame analysis method for the object detection. In specific, We divide a whole image frame into smaller ones then inference them on Convolutional Neural Network (CNN) based image detection network, which is much faster than conventional network designed forfull frame image. We reduced its computationalrequirementsignificantly without losing throughput and object detection accuracy with the proposed method.

딥러닝을 이용한 객체 검출 알고리즘 (Popular Object detection algorithms in deep learning)

  • 강동연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.427-430
    • /
    • 2019
  • Object detection is applied in various field. Autonomous driving, surveillance, OCR(optical character recognition) and aerial image etc. We will look at the algorithms that are using to object detect. These algorithms are divided into two methods. The one is R-CNN algorithms [2], [5], [6] which based on region proposal. The other is YOLO [7] and SSD [8] which are one stage object detector based on regression/classification.

카메라와 라이다의 객체 검출 성능 향상을 위한 Sensor Fusion (Camera and LiDAR Sensor Fusion for Improving Object Detection)

  • 이종서;김만규;김학일
    • 방송공학회논문지
    • /
    • 제24권4호
    • /
    • pp.580-591
    • /
    • 2019
  • 본 논문의 목적은 자율주행을 위하여 카메라와 라이다를 이용하여 객체를 검출하고 각 센서에서 검출된 객체를 late fusion 방식으로 융합을 하여 성능을 향상하는 것을 목적으로 한다. 카메라를 이용한 객체 검출은 one-stage 검출인 YOLOv3을, 검출된 객체의 거리 추정은 perspective matrix를, 라이다의 객체 검출은 K-means 군집화 기반 객체 검출을 각각 이용하였다. 카메라와 라이다 calibration은 PnP-RANSAC을 이용하여 회전, 변환 행렬을 구하였다. 센서 융합은 라이다에서 검출된 객체를 이미지 평면에 옮겨 Intersection over union(IoU)을 계산하고, 카메라에서 검출된 객체를 월드 좌표에 옮겨 거리, 각도를 계산하여 IoU, 거리 그리고 각도 세 가지 속성을 로지스틱 회귀를 이용하여 융합을 하였다. 융합을 통하여 각 센서에서 검출되지 않은 객체를 보완해주어 성능이 약 5% 증가하였다.

Bounding Box CutMix와 표준화 거리 기반의 IoU를 통한 재활용품 탐지 (Recyclable Objects Detection via Bounding Box CutMix and Standardized Distance-based IoU)

  • 이해진;정희철
    • 대한임베디드공학회논문지
    • /
    • 제17권5호
    • /
    • pp.289-296
    • /
    • 2022
  • In this paper, we developed a deep learning-based recyclable object detection model. The model is developed based on YOLOv5 that is a one-stage detector. The deep learning model detects and classifies the recyclable object into 7 categories: paper, carton, can, glass, pet, plastic, and vinyl. We propose two methods for recyclable object detection models to solve problems during training. Bounding Box CutMix solved the no-objects training images problem of Mosaic, a data augmentation used in YOLOv5. Standardized Distance-based IoU replaced DIoU using a normalization factor that is not affected by the center point distance of the bounding boxes. The recyclable object detection model showed a final mAP performance of 0.91978 with Bounding Box CutMix and 0.91149 with Standardized Distance-based IoU.

Dual Attention Based Image Pyramid Network for Object Detection

  • Dong, Xiang;Li, Feng;Bai, Huihui;Zhao, Yao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4439-4455
    • /
    • 2021
  • Compared with two-stage object detection algorithms, one-stage algorithms provide a better trade-off between real-time performance and accuracy. However, these methods treat the intermediate features equally, which lacks the flexibility to emphasize meaningful information for classification and location. Besides, they ignore the interaction of contextual information from different scales, which is important for medium and small objects detection. To tackle these problems, we propose an image pyramid network based on dual attention mechanism (DAIPNet), which builds an image pyramid to enrich the spatial information while emphasizing multi-scale informative features based on dual attention mechanisms for one-stage object detection. Our framework utilizes a pre-trained backbone as standard detection network, where the designed image pyramid network (IPN) is used as auxiliary network to provide complementary information. Here, the dual attention mechanism is composed of the adaptive feature fusion module (AFFM) and the progressive attention fusion module (PAFM). AFFM is designed to automatically pay attention to the feature maps with different importance from the backbone and auxiliary network, while PAFM is utilized to adaptively learn the channel attentive information in the context transfer process. Furthermore, in the IPN, we build an image pyramid to extract scale-wise features from downsampled images of different scales, where the features are further fused at different states to enrich scale-wise information and learn more comprehensive feature representations. Experimental results are shown on MS COCO dataset. Our proposed detector with a 300 × 300 input achieves superior performance of 32.6% mAP on the MS COCO test-dev compared with state-of-the-art methods.

회랑 감시를 위한 딥러닝 알고리즘 학습 및 성능분석 (Deep Learning Algorithm Training and Performance Analysis for Corridor Monitoring)

  • 정우진;홍석민;최원혁
    • 한국항행학회논문지
    • /
    • 제27권6호
    • /
    • pp.776-781
    • /
    • 2023
  • K-UAM은 2035년까지의 성숙기 이후 상용화될 예정이다. UAM 회랑은 기존의 헬리콥터 회랑을 수직 분리하여 사용될 예정이기에 회량 사용량이 증가할 것으로 예상된다. 따라서 회랑을 모니터링하는 시스템도 필요하다. 최근 객체 검출 알고리즘이 크게 발전하였다. 객체 검출 알고리즘은 1단계 탐지와, 2단계 탐지 모델로 나뉜다. 실시간 객체 검출에 있어서 2단계 모델은 너무 느리기에 적합하지 않다. 기존 1단계 모델은 정확도에 문제가 있었지만, 버전 업그레이드를 통해 성능이 향상되었다. 1단계 모델 중 YOLO-V5는 모자이크 기법을 통한 소형 객체 검출 성능을 향상시킨 모델이다. 따라서 YOLO-V5는 넓은 회랑의 실시간 모니터링에 가장 적합하다고 판단된다. 본 논문에서는 YOLO-V5 알고리즘을 학습시켜 궁극적으로 회랑 모니터링 시스템에 대한 적합도를 분석한다.

단-단계 물체 탐지기 학습을 위한 고난도 예들의 온라인 마이닝 (Online Hard Example Mining for Training One-Stage Object Detectors)

  • 김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권5호
    • /
    • pp.195-204
    • /
    • 2018
  • 본 논문에서는 심층 합성 곱 신경망 모델 기반의 단-단계 물체 탐지기들의 탐지 성능을 향상시킬 수 있는 새로운 손실 함수와 온라인 고난도 예 마이닝 방식을 제안한다. 본 논문에서 제안하는 손실 함수와 온라인 고난도 예 마이닝 방식은 물체와 배경 간의 학습 데이터 불균형 문제를 해결할 뿐만 아니라, 각 물체의 위치 추정 정확도를 더 개선시킬 수 있다. 따라서 물체 탐지 속도가 빠른 단-단계 물체 탐지기들에 이-단계 물체 탐지기들과 비슷하거나 더 우수한 탐지 성능을 제공할 수 있다. PASCAL VOC 2007 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해, 본 논문에서 제안하는 손실 함수와 온라인 고난도 예 마이닝 방식이 단-단계 물체 탐지기들의 성능 개선에 도움이 된다는 것을 입증해 보인다.

Experiment on Intermediate Feature Coding for Object Detection and Segmentation

  • Jeong, Min Hyuk;Jin, Hoe-Yong;Kim, Sang-Kyun;Lee, Heekyung;Choo, Hyon-Gon;Lim, Hanshin;Seo, Jeongil
    • 방송공학회논문지
    • /
    • 제25권7호
    • /
    • pp.1081-1094
    • /
    • 2020
  • With the recent development of deep learning, most computer vision-related tasks are being solved with deep learning-based network technologies such as CNN and RNN. Computer vision tasks such as object detection or object segmentation use intermediate features extracted from the same backbone such as Resnet or FPN for training and inference for object detection and segmentation. In this paper, an experiment was conducted to find out the compression efficiency and the effect of encoding on task inference performance when the features extracted in the intermediate stage of CNN are encoded. The feature map that combines the features of 256 channels into one image and the original image were encoded in HEVC to compare and analyze the inference performance for object detection and segmentation. Since the intermediate feature map encodes the five levels of feature maps (P2 to P6), the image size and resolution are increased compared to the original image. However, when the degree of compression is weakened, the use of feature maps yields similar or better inference results to the inference performance of the original image.

화장품 물체 인식을 위한 Two-Stage 딥러닝 기반 알고리즘 (Two-Stage Deep Learning Based Algorithm for Cosmetic Object Recognition)

  • 김종민;서대호
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.101-106
    • /
    • 2023
  • With the recent surge in YouTube usage, there has been a proliferation of user-generated videos where individuals evaluate cosmetics. Consequently, many companies are increasingly utilizing evaluation videos for their product marketing and market research. However, a notable drawback is the manual classification of these product review videos incurring significant costs and time. Therefore, this paper proposes a deep learning-based cosmetics search algorithm to automate this task. The algorithm consists of two networks: One for detecting candidates in images using shape features such as circles, rectangles, etc and Another for filtering and categorizing these candidates. The reason for choosing a Two-Stage architecture over One-Stage is that, in videos containing background scenes, it is more robust to first detect cosmetic candidates before classifying them as specific objects. Although Two-Stage structures are generally known to outperform One-Stage structures in terms of model architecture, this study opts for Two-Stage to address issues related to the acquisition of training and validation data that arise when using One-Stage. Acquiring data for the algorithm that detects cosmetic candidates based on shape and the algorithm that classifies candidates into specific objects is cost-effective, ensuring the overall robustness of the algorithm.