• 제목/요약/키워드: spatial pyramid

검색결과 53건 처리시간 0.023초

Pyramid pooling을 이용한 CNN 기반의 Human Parsing 기법 (CNN-based Human Parsing Technique Using Pyramid Pooling)

  • 최인규;고민수;송혁
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.97-98
    • /
    • 2018
  • 최근 딥러닝 기술의 발전으로 영상 분류 및 영상 내 객체 검출뿐만 아니라 CNN 기반의 segmentation 기술도 개발되어 다른 요소까지 포함한 직사각형 영역의 검출 영역이 아닌 경계까지 고려한 분리가 가능하게 되었다. 더불어 사람 영역을 신체부위나 의류 부분과 같은 세부 영역으로 나누어 분리하는 human parsing 기술까지 연구되고 있다. Human parsing은 의류스타일 분석 및 검색, 사람의 행동 인식 및 추적과 같은 분야에도 응용될 수 있다. 본 논문에서는 Spatial pyramid pooling layer를 이용하여 영상 전체에 대한 공간적 분포 및 특성 정보를 고려한 human parsing 기법을 제안한다. Look into person(LIP) dataset을 이용하여 기존의 다른 segmentation 및 human parsing 기법과 제안하는 기법을 비교하여 제안하는 기법의 human parsing 결과가 보다 정교한 분리가 가능한 것을 확인하였다.

  • PDF

혼성 예측 피라미드 호환 부호화 기법 (On the Hybrid Prediction Pyramid Compatible Coding Technique)

  • 이준서;이상욱
    • 한국통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.33-46
    • /
    • 1996
  • Inthis paper, we investigate the compatible coding technique, which receives much interest ever since the introduction of HDTV. First, attempts have been made to analyze the theoretical transform coding gains for various hierarchical decomposition techniques, namely subband, pyramid and DCT-based decomposition techniques. It is shown that the spatical domain techniques proide higher transform coding gains than the DCT-based coding technique. Secondly, we compare the performance of these spatial domain techniques, in terms of the PSNR versus various rate allocations to each layer. Based on these analyses, it is believed that the pyramid decomposition is more appropriate for the compatible coding. Also in this paper, we propose a hybrid prediction pyramid coding technique, by combining the spatio-temporal prediction in MPEG-2[3] and the adaptive MC(Motion Compensation)[1]. In the proposed coding technigue, we also employ an adaptive DCT coefficient scanning technique to exploit the direction information of the 2nd-layer signal. Through computer simulations, the proposed hybrid prediction with adaptive scanning technuque shows the PSNR improvement, by about 0.46-1.78dB at low 1st-layer rate(about 0.1bpp) over the adaptive MC[1], and by about 0.33-0.63dB at high 1st-layer rate (about 0.32-0.43bpp) over the spatio-temporal prediction[3].

  • PDF

모션 그래디언트 히스토그램 기반의 시공간 크기 변화에 강인한 동작 인식 (Spatial-Temporal Scale-Invariant Human Action Recognition using Motion Gradient Histogram)

  • 김광수;김태형;곽수영;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권12호
    • /
    • pp.1075-1082
    • /
    • 2007
  • 본 논문은 동영상에 등장하는 다수 사람의 동작을 검출하여 검출된 동작을 개별적으로 인식하는 방법을 제안한다. 동작이 수행되는 속도 또는 크기 변화에 강인한 인식 성능을 갖기 위해 시공간축 피라미드(Spatial-Temporal Pyramid)방식을 적용한다. 동작 표현 방식을 통계적 특성 기반의 모션 그래디언트 히스토그램(MGH:Motion Gradient Histogram)으로 선택하여 인식 과정에서 발생하는 복잡도를 최소화 하였다. 다수의 동작을 검출하기 위하여 이진 차영상을 축적한 모션 에너지 이미지(MEI: Motion Energy Image) 방법을 적용하여 효율적으로 개별적 동작 영역을 획득한다. 각 영역은 동작 표현 방법인 MGH로 나타내어지고, 크기 변화에 강인하도록 피라미드 방식을 적응하여 학습된 템플릿 MGH와 유사도를 상호 비교하여 최종 인식 결과를 얻는다. 인식 성능의 평가를 위해 10개의 동영상을 활용하여 단일 객체, 다수 객체, 속도 및 크기 변화, 기존 방식과의 비교, 기타 추가 실험 등을 실시하여 다양한 조건의 영상에서 양호한 인식 결과를 확인 할 수 있었다.

가중치 기반 Bag-of-Feature와 앙상블 결정 트리를 이용한 정지 영상에서의 인간 행동 인식 (Human Action Recognition in Still Image Using Weighted Bag-of-Features and Ensemble Decision Trees)

  • 홍준혁;고병철;남재열
    • 한국통신학회논문지
    • /
    • 제38A권1호
    • /
    • pp.1-9
    • /
    • 2013
  • 본 논문에서는 CS-LBP (Center-Symmetric Local Binary Pattern) 특징과 공간 피라미드를 이용한 BoF (Bag of Features)를 생성하고 이를 랜덤 포레스트(Random Forest) 분류기에 적용하여 인간의 행동을 인식하는 알고리즘을 제안한다. BoF를 생성하기 위해 영상을 균일한 패치로 나누고, 각 패치 마다 CS-LBP 특징을 추출한다. 행동 분류 성능을 향상시키기 위해 패치들마다 추출한 특징벡터들에 대해 K-mean 클러스터링을 적용하여 코드 북을 생성한다. 본 논문에서는 영상의 지역적인 특성을 고려하기 위해 공간 피라미드 방법을 적용하고 각 공간 레벨에서 추출된 BoF에 대해 가중치를 적용하여 최종적으로 하나의 특징 벡터로 결합한다. 행동 분류를 위해 결정트리의 앙상블로 이루어진 랜덤 포레스트는 학습 단계에서 각 행동 클래스를 위한 분류 모델을 만든다. 가중 BoF가 적용된 랜덤 포레스트는 다양한 인간 행동 영상을 포함하고 있는 Standford Actions 40 데이터를 성공적으로 분류하였다. 또한 기존 방법에 비해 분류 성능이 유사하거나 우수하며, 한 장의 영상에 대해 빠른 인식속도를 보였다.

Dual Attention Based Image Pyramid Network for Object Detection

  • Dong, Xiang;Li, Feng;Bai, Huihui;Zhao, Yao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4439-4455
    • /
    • 2021
  • Compared with two-stage object detection algorithms, one-stage algorithms provide a better trade-off between real-time performance and accuracy. However, these methods treat the intermediate features equally, which lacks the flexibility to emphasize meaningful information for classification and location. Besides, they ignore the interaction of contextual information from different scales, which is important for medium and small objects detection. To tackle these problems, we propose an image pyramid network based on dual attention mechanism (DAIPNet), which builds an image pyramid to enrich the spatial information while emphasizing multi-scale informative features based on dual attention mechanisms for one-stage object detection. Our framework utilizes a pre-trained backbone as standard detection network, where the designed image pyramid network (IPN) is used as auxiliary network to provide complementary information. Here, the dual attention mechanism is composed of the adaptive feature fusion module (AFFM) and the progressive attention fusion module (PAFM). AFFM is designed to automatically pay attention to the feature maps with different importance from the backbone and auxiliary network, while PAFM is utilized to adaptively learn the channel attentive information in the context transfer process. Furthermore, in the IPN, we build an image pyramid to extract scale-wise features from downsampled images of different scales, where the features are further fused at different states to enrich scale-wise information and learn more comprehensive feature representations. Experimental results are shown on MS COCO dataset. Our proposed detector with a 300 × 300 input achieves superior performance of 32.6% mAP on the MS COCO test-dev compared with state-of-the-art methods.

영상 피라미드 기반 영상 모자이크를 위한 접합선 추출 (Seamline Detection for Image Mosaicking with Image Pyramid)

  • 유은진
    • 산업경영시스템학회지
    • /
    • 제46권3호
    • /
    • pp.268-274
    • /
    • 2023
  • Image mosaicking is one of the basic and important technologies in the field of application using images. The key of image mosaicking is to extract seamlines from a joint image. The method proposed in this paper for image mosaicking is as follows. The feature points of the images to be joined are extracted and the joining form between the two images is identified. A reference position for detection the seamlines were selected according to the joint form, and an image pyramid was created for efficient image processing. The outlines of the image including buildings and roads are extracted from the overlapping area with low resolution, and the seamlines are determined by considering the components of the outlines. Based on this, the seamlines in the high-resolution image was re-searched and finally the seamline for image mosaicking was determined. In addition, in order to minimize color distortion of the image with the determined seamline, a method of improving the quality of the mosaic image by fine correction of the mosaic area was applied. It was confirmed that the quality of the seamline extraction results applying the method proposed was reasonable.

A Multi-Stage Convolution Machine with Scaling and Dilation for Human Pose Estimation

  • Nie, Yali;Lee, Jaehwan;Yoon, Sook;Park, Dong Sun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권6호
    • /
    • pp.3182-3198
    • /
    • 2019
  • Vision-based Human Pose Estimation has been considered as one of challenging research subjects due to problems including confounding background clutter, diversity of human appearances and illumination changes in scenes. To tackle these problems, we propose to use a new multi-stage convolution machine for estimating human pose. To provide better heatmap prediction of body joints, the proposed machine repeatedly produces multiple predictions according to stages with receptive field large enough for learning the long-range spatial relationship. And stages are composed of various modules according to their strategic purposes. Pyramid stacking module and dilation module are used to handle problem of human pose at multiple scales. Their multi-scale information from different receptive fields are fused with concatenation, which can catch more contextual information from different features. And spatial and channel information of a given input are converted to gating factors by squeezing the feature maps to a single numeric value based on its importance in order to give each of the network channels different weights. Compared with other ConvNet-based architectures, we demonstrated that our proposed architecture achieved higher accuracy on experiments using standard benchmarks of LSP and MPII pose datasets.

DP-LinkNet: A convolutional network for historical document image binarization

  • Xiong, Wei;Jia, Xiuhong;Yang, Dichun;Ai, Meihui;Li, Lirong;Wang, Song
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1778-1797
    • /
    • 2021
  • Document image binarization is an important pre-processing step in document analysis and archiving. The state-of-the-art models for document image binarization are variants of encoder-decoder architectures, such as FCN (fully convolutional network) and U-Net. Despite their success, they still suffer from three limitations: (1) reduced feature map resolution due to consecutive strided pooling or convolutions, (2) multiple scales of target objects, and (3) reduced localization accuracy due to the built-in invariance of deep convolutional neural networks (DCNNs). To overcome these three challenges, we propose an improved semantic segmentation model, referred to as DP-LinkNet, which adopts the D-LinkNet architecture as its backbone, with the proposed hybrid dilated convolution (HDC) and spatial pyramid pooling (SPP) modules between the encoder and the decoder. Extensive experiments are conducted on recent document image binarization competition (DIBCO) and handwritten document image binarization competition (H-DIBCO) benchmark datasets. Results show that our proposed DP-LinkNet outperforms other state-of-the-art techniques by a large margin. Our implementation and the pre-trained models are available at https://github.com/beargolden/DP-LinkNet.

수치사진측량을 이용한 지형공간정보 추출 (Geospatial Information Extraction by using Digital Photogrammetry)

  • 유복모;김원대
    • 대한공간정보학회지
    • /
    • 제7권2호
    • /
    • pp.81-91
    • /
    • 1999
  • 지형공간정보체계의 운영을 위하여 필수적인 자료기반의 갱신을 위한 연구가 활발히 진행되고 있다. 본 연구에서는 수치 사진측량과정에 의하여 취득되는 자료를 활용하여 정사투영영상을 생성하고 영상피라미드 기법을 이용하여 다축척 정사투영영상지도를 제작하였다. 연구의 결과 제작된 정사투영영상지도의 정확도는 1:5,000 지형도 대비 2.092m의 정확도로서, 다양한 지형공간정보체계 자료기반 자료취득이 가능하였다.

  • PDF

다축척 수치영상에서 $F\"{o}rstner$연산자의 거동 ([ $F\"{o}rstner$ ] Interest Operator in Scale Space)

  • 조우석
    • 대한공간정보학회지
    • /
    • 제4권1호
    • /
    • pp.67-73
    • /
    • 1996
  • 본 논문은 수치영상으로부터 컴퓨터비전(Computer Vision), 수치사진측량학(야?w미 Photogrammmetry)분야에서 특이점(Distinct Point)이나 Linear Feature를 추출하기 위해서 가장 많이 이용되고 있는 $F\"{o}rstner$ interest operator의 Scale space에 관한 연구이다. 수치사진측량분야에서 사용되고 있는 수치영상자료의 크기를 고려할 때, Scale space 즉 Image pyramid는 수치영상 처리속도를 향상시킬 수 있는 방법으로 서서히 주목받고 있다. 본 연구에서는 Gaussian에 의해서 구축된 Scale space에서 $F\"{o}rstner$ interest operator의 거동을 고찰하였고, 실제 수치사진 영상에 적용하여 실제적용 여부를 검증하였다.

  • PDF