• 제목/요약/키워드: Feature pyramid network(FPN)

검색결과 11건 처리시간 0.023초

계층 간 특징 복원-예측 네트워크를 통한 피라미드 특징 압축 (Pyramid Feature Compression with Inter-Level Feature Restoration-Prediction Network)

  • 김민섭;심동규
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.283-294
    • /
    • 2022
  • 딥 러닝 네트워크에서 사용되는 특징 맵은 일반적으로 영상보다 데이터가 크며 특징 맵을 전송하기 위해서는 영상의 압축률보다 더 높은 압축률이 요구된다. 본 논문은 딥러닝 기반의 영상처리에서 객체의 크기에 대한 강인성을 가지는 FPN 구조의 네트워크에서 사용되는 피라미드 특징 맵을 높은 압축률로 전송하기 위해 제안한 복원-예측 네트워크를 통해 전송된 일부 계층의 피라미드 특징 맵으로 전송하지 않은 계층의 피라미드 특징 맵을 예측하며, 압축으로 인한 손상을 복원하는 구조를 제안한다. 제안한 방법의 COCO 데이터셋 2017 Train images에 대한 객체 탐지의 성능은 rate-precision 그래프에서 VTM12.0을 통해 특징 맵을 압축한 결과 대비 BD-rate 31.25%의 성능향상을 보였고, PCA와 DeepCABAC을 통한 압축을 수행한 방법 대비 BD-rate 57.79%의 성능향상을 보였다.

FPN(Feature Pyramid Network)을 이용한 고지서 양식 인식 (Recognition of Bill Form using Feature Pyramid Network)

  • 김대진;황치곤;윤창표
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.523-529
    • /
    • 2021
  • 4차산업 혁명 시대를 맞아, 기술의 변화가 다양한 분야에 적용되고 있다. 고지서 분야에서도 자동화, 디지털화, 데이터관리가 되고 있다. 사회에서 유통되는 고지서의 형태는 수만 가지 이상이며, 이를 자동화, 디지털화, 데이터관리를 위해서는 고지서 인식이 필수적이다. 현재 다양한 고지서들을 관리하기 위해서 OCR(Optical Character Recognition) 기술을 활용한다. 이때, 정확도를 높이기 위해, 먼저 고지서 양식을 인식하면, OCR 인식 시 더 높은 인식률을 가질 수 있다. 본 논문에서는 고지서 양식을 구분하기 위해 인덱스로 사용할 수 있는 로고를 객체 인식하였으며, 이때 로고의 크기가 전체 고지서 대비 작으므로 딥러닝 기술 중 FPN(Feature Pyramid Network)을 작은 객체 검출에 활용하였다. 결과적으로, 제안하는 알고리즘을 통해서 자원 낭비를 줄이고, OCR 인식 정확도를 높일 수 있었다.

객체 인식 설명성 향상을 위한 FPN-Attention Layered 모델의 성능 평가 (Performance Evaluation of FPN-Attention Layered Model for Improving Visual Explainability of Object Recognition)

  • 윤석준;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1311-1314
    • /
    • 2022
  • DNN을 사용하여 객체 인식 과정에서 객체를 잘 분류하기 위해서는 시각적 설명성이 요구된다. 시각적 설명성은 object class에 대한 예측을 pixel-wise attribution으로 표현해 예측 근거를 해석하기 위해 제안되었다, Scale-invariant한 특징을 제공하도록 설계된 pyramidal features 기반 backbone 구조는 object detection 및 classification 등에서 널리 쓰이고 있으며, 이러한 특징을 갖는 feature pyramid를 trainable attention mechanism에 적용하고자 할 때 계산량 및 메모리의 복잡도가 증가하는 문제가 있다. 본 논문에서는 일반적인 FPN에서 객체 인식 성능과 설명성을 높이기 위한 피라미드-주의집중 계층네트워크 (FPN-Attention Layered Network) 방식을 제안하고, 실험적으로 그 특성을 평가하고자 한다. 기존의 FPN만을 사용하였을 때 객체 인식 과정에서 설명성을 향상시키는 방식이 객체 인식에 미치는 정도를 정량적으로 평가하였다. 제안된 모델의 적용을 통해 낮은 computing 오버헤드 수준에서 multi-level feature를 고려한 시각적 설명성을 개선시켜, 결괴적으로 객체 인식 성능을 향상 시킬 수 있음을 실험적으로 확인할 수 있었다.

  • PDF

SEL-RefineMask: A Seal Segmentation and Recognition Neural Network with SEL-FPN

  • Dun, Ze-dong;Chen, Jian-yu;Qu, Mei-xia;Jiang, Bin
    • Journal of Information Processing Systems
    • /
    • 제18권3호
    • /
    • pp.411-427
    • /
    • 2022
  • Digging historical and cultural information from seals in ancient books is of great significance. However, ancient Chinese seal samples are scarce and carving methods are diverse, and traditional digital image processing methods based on greyscale have difficulty achieving superior segmentation and recognition performance. Recently, some deep learning algorithms have been proposed to address this problem; however, current neural networks are difficult to train owing to the lack of datasets. To solve the afore-mentioned problems, we proposed an SEL-RefineMask which combines selector of feature pyramid network (SEL-FPN) with RefineMask to segment and recognize seals. We designed an SEL-FPN to intelligently select a specific layer which represents different scales in the FPN and reduces the number of anchor frames. We performed experiments on some instance segmentation networks as the baseline method, and the top-1 segmentation result of 64.93% is 5.73% higher than that of humans. The top-1 result of the SEL-RefineMask network reached 67.96% which surpassed the baseline results. After segmentation, a vision transformer was used to recognize the segmentation output, and the accuracy reached 91%. Furthermore, a dataset of seals in ancient Chinese books (SACB) for segmentation and small seal font (SSF) for recognition were established which are publicly available on the website.

VCM 을 위한 FPN 다중 스케일 특징 압축 (Compression of Multiscale Features of FPN for VCM)

  • 김동하;윤용욱;이주영;정세윤;김재곤;정대권
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.143-145
    • /
    • 2022
  • MPEG-VCM(Video Coding for Machine)은 입력된 비디오 특징(feature)를 압축하는 Track1 과 입력 영상을 직접 압축하는 Track2 로 나뉘어 표준화가 진행중이다. 본 논문은 VCM Track 1 에 해당하는 Detectron2 FPN(Feature Pyramid Network)에서 추출한 다중 스케일 특징맵을 VVC 로 압축하는 MSFC(Multi-Scale Feature Compression)을 구조를 제안한다. 본 논문의 MSFC 에서는 다중 스케일 특징을 결합하여 부호화/복호화하는 기존의 구조에서 특징맵의 해상도를 줄여 압축하는 개선된 MSFC 를 제시한다. 제안 방법은 VCM 의 Track2 의 영상 앵커(image anchor) 보다 우수한 BPP-mAP 성능을 보이고 최대 -84.98%의 BD-rate 성능향상을 보인다.

  • PDF

Single Shot Detector 기반 타깃 검출 알고리즘 (A Target Detection Algorithm based on Single Shot Detector)

  • 풍원림;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.358-361
    • /
    • 2021
  • In order to improve the accuracy of small target detection more effectively, this paper proposes an improved single shot detector (SSD) target detection and recognition method based on cspdarknet53, which introduces lightweight ECA attention mechanism and Feature Pyramid Network (FPN). First, the original SSD backbone network is replaced with cspdarknet53 to enhance the learning ability of the network. Then, a lightweight ECA attention mechanism is added to the basic convolution block to optimize the network. Finally, FPN is used to gradually fuse the multi-scale feature maps used for detection in the SSD from the deep to the shallow layers of the network to improve the positioning accuracy and classification accuracy of the network. Experiments show that the proposed target detection algorithm has better detection accuracy, and it improves the detection accuracy especially for small targets.

원격 탐사 변화 탐지를 위한 변화 주목 기반의 덴스 샴 네트워크 (Change Attention based Dense Siamese Network for Remote Sensing Change Detection)

  • 황기수;이우주;오승준
    • 방송공학회논문지
    • /
    • 제26권1호
    • /
    • pp.14-25
    • /
    • 2021
  • 서로 다른 시간에 촬영된 같은 위치의 원격 탐사 영상에서 변화된 사항을 찾는 변화 탐지는 다양한 영역에 적용되기 때문에 매우 중요하다. 그러나 정합 오차, 건물 변위 오차, 그림자 오차 등이 오탐지를 발생시킨다. 이러한 문제점을 해결하기 위해 본 논문은 CADNet(Change Attention Dense Siamese Network)을 제안한다. CADNet은 다양한 크기의 변화 영역을 탐지하기 위해 FPN(Feature Pyramid Network)을 사용하며, 변화 영역에 주목하는 변화 주목 모듈을 적용하고, 낮은 수준 (Low-level)의 특징과 높은 수준 (High-level)의 특징을 모두 포함하고 있는 피처 맵을 변화 탐지에 사용하기 위해 DenseNet을 피처 추출기로 사용한다. CADNet의 성능을 Precision, Recall, F1 측면에서 측정하였을 때 WHU 데이터 세트에 대하여 98.44%, 98.47%, 98.46%이었고, LEVIR-CD 데이터 세트에 대해 90.72%, 91.89%, 91.30%이었다. 이 실험의 결과는 CADNet이 기존 변화 탐지 방법들보다 향상된 성능을 제공한다는 것을 보여준다.

One-step deep learning-based method for pixel-level detection of fine cracks in steel girder images

  • Li, Zhihang;Huang, Mengqi;Ji, Pengxuan;Zhu, Huamei;Zhang, Qianbing
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.153-166
    • /
    • 2022
  • Identifying fine cracks in steel bridge facilities is a challenging task of structural health monitoring (SHM). This study proposed an end-to-end crack image segmentation framework based on a one-step Convolutional Neural Network (CNN) for pixel-level object recognition with high accuracy. To particularly address the challenges arising from small object detection in complex background, efforts were made in loss function selection aiming at sample imbalance and module modification in order to improve the generalization ability on complicated images. Specifically, loss functions were compared among alternatives including the Binary Cross Entropy (BCE), Focal, Tversky and Dice loss, with the last three specialized for biased sample distribution. Structural modifications with dilated convolution, Spatial Pyramid Pooling (SPP) and Feature Pyramid Network (FPN) were also performed to form a new backbone termed CrackDet. Models of various loss functions and feature extraction modules were trained on crack images and tested on full-scale images collected on steel box girders. The CNN model incorporated the classic U-Net as its backbone, and Dice loss as its loss function achieved the highest mean Intersection-over-Union (mIoU) of 0.7571 on full-scale pictures. In contrast, the best performance on cropped crack images was achieved by integrating CrackDet with Dice loss at a mIoU of 0.7670.

VCM 의 바텀-업 MSFF 를 이용한 MSFC 기반 멀티-스케일 특징 압축 네트워크 개선 (Enhancement of MSFC-Based Multi-Scale Features Compression Network with Bottom-UP MSFF in VCM)

  • 김동하;한규웅;차준석;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.116-118
    • /
    • 2022
  • MPEG-VCM(Video Coding for Machine)은 입력된 이미지/비디오의 특징(feature)를 압축하는 Track 1 과 입력 이미지/비디오를 직접 압축하는 Track 2 로 나뉘어 표준화가 진행 중이다. 본 논문은 Track 1 의 비전임무 네트워크로 사용하는 Detectron2 의 FPN(Feature Pyramid Network)에서 추출한 멀티-스케일 특징을 효율적으로 압축하는 MSFC 기반의 압축 모델의 개선 기법을 제시한다. 제안기법은 해상도를 줄여서 단일-스케일 압축맵을 압축하는 기존의 압축 모델에서 저해상도 특징맵을 고해상도 특징맵에 바텀-업(Bottom-Up) 구조로 합성하여 단일-스케일 특징맵을 구성하는 바텀-업 MSFF 를 가지는 압축 모델을 제시한다. 제안방법은 기존의 모델 보다 BPP-mAP 성능에서 1 ~ 2.7%의 개선된 BD-rate 성능을 보이며 VCM 의 이미지 앵커(image anchor) 대비 최대 -85.94%의 BD-rate 성능향상을 보인다.

  • PDF

딥러닝 기반 임의적 스케일 초해상도 모듈을 이용한 Mask-RCNN 성능 향상 (Improvement of Mask-RCNN Performance Using Deep-Learning-Based Arbitrary-Scale Super-Resolution Module)

  • 안영필;박현준
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.381-388
    • /
    • 2022
  • 인스턴스 분할에서 Mask-RCNN은 베이스 모델로 자주 사용된다. Mask-RCNN의 성능을 높이는 것은 파생된 모델에 영향을 미치기에 의미가 있다. Mask-RCNN에는 입력 이미지 크기를 배치 크기로 통일시키는 변환 모듈(transform module)이 있다. 이 논문에서는 Mask-RCNN의 성능 향상을 위해 변환 모듈의 크기 조정 부분에 딥러닝 기반 ASSR(Arbitrary-Scale Super-Resolution)을 적용하고, 스케일 정보를 모델의 IM(Integration Module)을 이용하여 주입한다. 제안하는 방법을 COCO 데이터세트에 적용하였을 때 인스턴스 분할 성능이 Mask-RCNN 성능보다 2.5 AP 높았다. 그리고 제안하는 IM 위치 최적화를 위한 실험에서는 FPN(Feature Pyramid Network)과 백본(backbone)이 결합하기 전의 'Top' 위치에 배치했을 때 가장 좋은 성능을 보였다. 따라서 제안하는 방법은 Mask-RCNN을 베이스 모델로 사용하는 모델들의 성능을 향상시킬 수 있다.