• 제목/요약/키워드: Feature pyramid learning

검색결과 24건 처리시간 0.021초

계층 간 특징 복원-예측 네트워크를 통한 피라미드 특징 압축 (Pyramid Feature Compression with Inter-Level Feature Restoration-Prediction Network)

  • 김민섭;심동규
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.283-294
    • /
    • 2022
  • 딥 러닝 네트워크에서 사용되는 특징 맵은 일반적으로 영상보다 데이터가 크며 특징 맵을 전송하기 위해서는 영상의 압축률보다 더 높은 압축률이 요구된다. 본 논문은 딥러닝 기반의 영상처리에서 객체의 크기에 대한 강인성을 가지는 FPN 구조의 네트워크에서 사용되는 피라미드 특징 맵을 높은 압축률로 전송하기 위해 제안한 복원-예측 네트워크를 통해 전송된 일부 계층의 피라미드 특징 맵으로 전송하지 않은 계층의 피라미드 특징 맵을 예측하며, 압축으로 인한 손상을 복원하는 구조를 제안한다. 제안한 방법의 COCO 데이터셋 2017 Train images에 대한 객체 탐지의 성능은 rate-precision 그래프에서 VTM12.0을 통해 특징 맵을 압축한 결과 대비 BD-rate 31.25%의 성능향상을 보였고, PCA와 DeepCABAC을 통한 압축을 수행한 방법 대비 BD-rate 57.79%의 성능향상을 보였다.

심층신경망을 이용한 PCB 부품의 검지 및 인식 (Detection of PCB Components Using Deep Neural Nets)

  • 조태훈
    • 반도체디스플레이기술학회지
    • /
    • 제19권2호
    • /
    • pp.11-15
    • /
    • 2020
  • In a typical initial setup of a PCB component inspection system, operators should manually input various information such as category, position, and inspection area for each component to be inspected, thus causing much inconvenience and longer setup time. Although there are many deep learning based object detectors, RetinaNet is regarded as one of best object detectors currently available. In this paper, a method using an extended RetinaNet is proposed that automatically detects its component category and position for each component mounted on PCBs from a high-resolution color input image. We extended the basic RetinaNet feature pyramid network by adding a feature pyramid layer having higher spatial resolution to the basic feature pyramid. It was demonstrated by experiments that the extended RetinaNet can detect successfully very small components that could be missed by the basic RetinaNet. Using the proposed method could enable automatic generation of inspection areas, thus considerably reducing the setup time of PCB component inspection systems.

Skin Lesion Segmentation with Codec Structure Based Upper and Lower Layer Feature Fusion Mechanism

  • Yang, Cheng;Lu, GuanMing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.60-79
    • /
    • 2022
  • The U-Net architecture-based segmentation models attained remarkable performance in numerous medical image segmentation missions like skin lesion segmentation. Nevertheless, the resolution gradually decreases and the loss of spatial information increases with deeper network. The fusion of adjacent layers is not enough to make up for the lost spatial information, thus resulting in errors of segmentation boundary so as to decline the accuracy of segmentation. To tackle the issue, we propose a new deep learning-based segmentation model. In the decoding stage, the feature channels of each decoding unit are concatenated with all the feature channels of the upper coding unit. Which is done in order to ensure the segmentation effect by integrating spatial and semantic information, and promotes the robustness and generalization of our model by combining the atrous spatial pyramid pooling (ASPP) module and channel attention module (CAM). Extensive experiments on ISIC2016 and ISIC2017 common datasets proved that our model implements well and outperforms compared segmentation models for skin lesion segmentation.

FPN(Feature Pyramid Network)을 이용한 고지서 양식 인식 (Recognition of Bill Form using Feature Pyramid Network)

  • 김대진;황치곤;윤창표
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.523-529
    • /
    • 2021
  • 4차산업 혁명 시대를 맞아, 기술의 변화가 다양한 분야에 적용되고 있다. 고지서 분야에서도 자동화, 디지털화, 데이터관리가 되고 있다. 사회에서 유통되는 고지서의 형태는 수만 가지 이상이며, 이를 자동화, 디지털화, 데이터관리를 위해서는 고지서 인식이 필수적이다. 현재 다양한 고지서들을 관리하기 위해서 OCR(Optical Character Recognition) 기술을 활용한다. 이때, 정확도를 높이기 위해, 먼저 고지서 양식을 인식하면, OCR 인식 시 더 높은 인식률을 가질 수 있다. 본 논문에서는 고지서 양식을 구분하기 위해 인덱스로 사용할 수 있는 로고를 객체 인식하였으며, 이때 로고의 크기가 전체 고지서 대비 작으므로 딥러닝 기술 중 FPN(Feature Pyramid Network)을 작은 객체 검출에 활용하였다. 결과적으로, 제안하는 알고리즘을 통해서 자원 낭비를 줄이고, OCR 인식 정확도를 높일 수 있었다.

3차원 특징볼륨을 이용한 깊이영상 생성 모델 (Depth Map Estimation Model Using 3D Feature Volume)

  • 신수연;김동명;서재원
    • 한국콘텐츠학회논문지
    • /
    • 제18권11호
    • /
    • pp.447-454
    • /
    • 2018
  • 본 논문은 컨볼루션 신경망으로 이루어진 학습 모델을 통해 스테레오 영상의 깊이영상 생성 알고리즘을 제안한다. 제안하는 알고리즘은 좌, 우 시차 영상을 입력으로 받아 각 시차영상의 주요 특징을 추출하는 특징 추출부와 추출된 특징을 이용하여 시차 정보를 학습하는 깊이 학습부로 구성된다. 우선 특징 추출부는 2D CNN 계층들로 이루어진 익셉션 모듈(xception module) 및 ASPP 모듈(atrous spatial pyramid pooling) module을 통해 각각의 시차영상에 대한 특징맵을 추출한다. 그 후 각 시차에 대한 특징 맵을 시차에 따라 3차원 형태로 쌓아 3D CNN을 통해 깊이 추정 가중치를 학습하는 깊이 학습부를 거친 후 깊이 영상을 추정한다. 제안하는 알고리즘은 객체 영역에 대해 기존의 다른 학습 알고리즘들 보다 정확한 깊이를 추정하였다.

ASPPMVSNet: A high-receptive-field multiview stereo network for dense three-dimensional reconstruction

  • Saleh Saeed;Sungjun Lee;Yongju Cho;Unsang Park
    • ETRI Journal
    • /
    • 제44권6호
    • /
    • pp.1034-1046
    • /
    • 2022
  • The learning-based multiview stereo (MVS) methods for three-dimensional (3D) reconstruction generally use 3D volumes for depth inference. The quality of the reconstructed depth maps and the corresponding point clouds is directly influenced by the spatial resolution of the 3D volume. Consequently, these methods produce point clouds with sparse local regions because of the lack of the memory required to encode a high volume of information. Here, we apply the atrous spatial pyramid pooling (ASPP) module in MVS methods to obtain dense feature maps with multiscale, long-range, contextual information using high receptive fields. For a given 3D volume with the same spatial resolution as that in the MVS methods, the dense feature maps from the ASPP module encoded with superior information can produce dense point clouds without a high memory footprint. Furthermore, we propose a 3D loss for training the MVS networks, which improves the predicted depth values by 24.44%. The ASPP module provides state-of-the-art qualitative results by constructing relatively dense point clouds, which improves the DTU MVS dataset benchmarks by 2.25% compared with those achieved in the previous MVS methods.

One-step deep learning-based method for pixel-level detection of fine cracks in steel girder images

  • Li, Zhihang;Huang, Mengqi;Ji, Pengxuan;Zhu, Huamei;Zhang, Qianbing
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.153-166
    • /
    • 2022
  • Identifying fine cracks in steel bridge facilities is a challenging task of structural health monitoring (SHM). This study proposed an end-to-end crack image segmentation framework based on a one-step Convolutional Neural Network (CNN) for pixel-level object recognition with high accuracy. To particularly address the challenges arising from small object detection in complex background, efforts were made in loss function selection aiming at sample imbalance and module modification in order to improve the generalization ability on complicated images. Specifically, loss functions were compared among alternatives including the Binary Cross Entropy (BCE), Focal, Tversky and Dice loss, with the last three specialized for biased sample distribution. Structural modifications with dilated convolution, Spatial Pyramid Pooling (SPP) and Feature Pyramid Network (FPN) were also performed to form a new backbone termed CrackDet. Models of various loss functions and feature extraction modules were trained on crack images and tested on full-scale images collected on steel box girders. The CNN model incorporated the classic U-Net as its backbone, and Dice loss as its loss function achieved the highest mean Intersection-over-Union (mIoU) of 0.7571 on full-scale pictures. In contrast, the best performance on cropped crack images was achieved by integrating CrackDet with Dice loss at a mIoU of 0.7670.

딥러닝 기반의 Multi Scale Attention을 적용한 개선된 Pyramid Scene Parsing Network (Modified Pyramid Scene Parsing Network with Deep Learning based Multi Scale Attention)

  • 김준혁;이상훈;한현호
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.45-51
    • /
    • 2021
  • 딥러닝의 발전으로 인하여 의미론적 분할 방법은 다양한 분야에서 연구되고 있다. 의료 영상 분석과 같이 정확성을 요구하는 분야에서 분할 정확도가 떨어지는 문제가 있다. 본 논문은 의미론적 분할 시 특징 손실을 최소화하기 위해 딥러닝 기반 분할 방법인 PSPNet을 개선하였다. 기존 딥러닝 기반의 분할 방법은 특징 추출 및 압축 과정에서 해상도가 낮아져 객체에 대한 특징 손실이 발생한다. 이러한 손실로 윤곽선이나 객체 내부 정보에 손실이 발생하여 객체 분류 시 정확도가 낮아지는 문제가 있다. 이러한 문제를 해결하기 위해 의미론적 분할 모델인 PSPNet을 개선하였다. 기존 PSPNet에 제안하는 multi scale attention을 추가하여 객체의 특징 손실을 방지하였다. 기존 PPM 모듈에 attention 방법을 적용하여 특징 정제 과정을 수행하였다. 불필요한 특징 정보를 억제함으로써 윤곽선 및 질감 정보가 개선되었다. 제안하는 방법은 Cityscapes 데이터 셋으로 학습하였으며, 정량적 평가를 위해 분할 지표인 MIoU를 사용하였다. 실험을 통해 기존 PSPNet 대비 분할 정확도가 약 1.5% 향상되었다.

효율적인 객체 검출을 위해 Attention Process를 적용한 경량화 모델에 대한 연구 (A Study on Lightweight Model with Attention Process for Efficient Object Detection)

  • 박찬수;이상훈;한현호
    • 디지털융복합연구
    • /
    • 제19권5호
    • /
    • pp.307-313
    • /
    • 2021
  • 본 논문에서는 기존 객체 검출 방법 대비 매개변수를 감소시킨 경량화 네트워크를 제안하였다. 현재 사용되는 검출 모델의 경우 정확도 향상을 위해 네트워크 복잡도를 크게 늘렸다. 따라서, 제안하는 네트워크는 EfficientNet을 특징 추출 네트워크로 사용하였으며, 후속 레이어는 저수준 세부 특징과 고수준의 의미론적 특징을 활용하기 위해 피라미드 구조로 형성하였다. 피라미드 구조 사이에 attention process를 적용하여 예측에 불필요한 노이즈를 억제하였다. 네트워크의 모든 연산 과정은 depth-wise 및 point-wise 컨볼루션으로 대체하여 연산량을 최소화하였다. 제안하는 네트워크는 PASCAL VOC 데이터셋으로 학습 및 평가하였다. 실험을 통해 융합된 특징은 정제 과정을 거쳐 다양한 객체에 대해 견고한 특성을 보였다. CNN 기반 검출 모델과 비교하였을 때 적은 연산량으로 검출 정확도가 향상되었다. 향후 연구로 객체의 크기에 맞게 앵커의 비율을 조절할 필요성이 사료된다.

모션 그래디언트 히스토그램 기반의 시공간 크기 변화에 강인한 동작 인식 (Spatial-Temporal Scale-Invariant Human Action Recognition using Motion Gradient Histogram)

  • 김광수;김태형;곽수영;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권12호
    • /
    • pp.1075-1082
    • /
    • 2007
  • 본 논문은 동영상에 등장하는 다수 사람의 동작을 검출하여 검출된 동작을 개별적으로 인식하는 방법을 제안한다. 동작이 수행되는 속도 또는 크기 변화에 강인한 인식 성능을 갖기 위해 시공간축 피라미드(Spatial-Temporal Pyramid)방식을 적용한다. 동작 표현 방식을 통계적 특성 기반의 모션 그래디언트 히스토그램(MGH:Motion Gradient Histogram)으로 선택하여 인식 과정에서 발생하는 복잡도를 최소화 하였다. 다수의 동작을 검출하기 위하여 이진 차영상을 축적한 모션 에너지 이미지(MEI: Motion Energy Image) 방법을 적용하여 효율적으로 개별적 동작 영역을 획득한다. 각 영역은 동작 표현 방법인 MGH로 나타내어지고, 크기 변화에 강인하도록 피라미드 방식을 적응하여 학습된 템플릿 MGH와 유사도를 상호 비교하여 최종 인식 결과를 얻는다. 인식 성능의 평가를 위해 10개의 동영상을 활용하여 단일 객체, 다수 객체, 속도 및 크기 변화, 기존 방식과의 비교, 기타 추가 실험 등을 실시하여 다양한 조건의 영상에서 양호한 인식 결과를 확인 할 수 있었다.