• 제목/요약/키워드: Local Descriptors

검색결과 63건 처리시간 0.026초

Efficient Use of MPEG-7 Edge Histogram Descriptor

  • Won, Chee-Sun;Park, Dong-Kwon;Park, Soo-Jun
    • ETRI Journal
    • /
    • 제24권1호
    • /
    • pp.23-30
    • /
    • 2002
  • MPEG-7 Visual Standard specifies a set of descriptors that can be used to measure similarity in images or video. Among them, the Edge Histogram Descriptor describes edge distribution with a histogram based on local edge distribution in an image. Since the Edge Histogram Descriptor recommended for the MPEG-7 standard represents only local edge distribution in the image, the matching performance for image retrieval may not be satisfactory. This paper proposes the use of global and semi-local edge histograms generated directly from the local histogram bins to increase the matching performance. Then, the global, semi-global, and local histograms of images are combined to measure the image similarity and are compared with the MPEG-7 descriptor of the local-only histogram. Since we exploit the absolute location of the edge in the image as well as its global composition, the proposed matching method can retrieve semantically similar images. Experiments on MPEG-7 test images show that the proposed method yields better retrieval performance by an amount of 0.04 in ANMRR, which shows a significant difference in visual inspection.

  • PDF

Multi-scale Local Difference Directional Number Pattern for Group-housed Pigs Recognition

  • Huang, Weijia;Zhu, Weixing;Zhang, Zhengyan;Guo, Yizheng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권9호
    • /
    • pp.3186-3203
    • /
    • 2021
  • In this paper, a multi-scale local difference directional number (MLDDN) pattern is proposed for pig identification. Firstly, the color images of individual pig are converted into grey images by the most significant bits (MSB) quantization, which makes the grey values have better discrimination. Then, Gabor amplitude and phase responses on different scales are obtained by convoluting the grey images with Gabor masks. Next, by calculating the main difference of local edge directions instead of traditionally edge information, the directional numbers of Gabor amplitude and phase responses are encoded. Finally, the block histograms of the encoded images are concatenated on each scale, and the maximum pooling is adopted on different scales to avoid the high feature dimension. Experimental results on two pigsties show that MLDDN impressively outperforms the other widely used local descriptors.

Improving Transformer with Dynamic Convolution and Shortcut for Video-Text Retrieval

  • Liu, Zhi;Cai, Jincen;Zhang, Mengmeng
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2407-2424
    • /
    • 2022
  • Recently, Transformer has made great progress in video retrieval tasks due to its high representation capability. For the structure of a Transformer, the cascaded self-attention modules are capable of capturing long-distance feature dependencies. However, the local feature details are likely to have deteriorated. In addition, increasing the depth of the structure is likely to produce learning bias in the learned features. In this paper, an improved Transformer structure named TransDCS (Transformer with Dynamic Convolution and Shortcut) is proposed. A Multi-head Conv-Self-Attention module is introduced to model the local dependencies and improve the efficiency of local features extraction. Meanwhile, the augmented shortcuts module based on a dual identity matrix is applied to enhance the conduction of input features, and mitigate the learning bias. The proposed model is tested on MSRVTT, LSMDC and Activity-Net benchmarks, and it surpasses all previous solutions for the video-text retrieval task. For example, on the LSMDC benchmark, a gain of about 2.3% MdR and 6.1% MnR is obtained over recently proposed multimodal-based methods.

통계적 얼굴 모델을 이용한 부분적으로 가려진 얼굴 검출 (Detection of Faces with Partial Occlusions using Statistical Face Model)

  • 서정인;박혜영
    • 정보과학회 논문지
    • /
    • 제41권11호
    • /
    • pp.921-926
    • /
    • 2014
  • 얼굴 검출은 입력 영상에서 얼굴 영역을 추출하는 과정으로, 얼굴 인식 및 인증 과정의 속도와 정확도를 효율적으로 높여주는 작업이며 그 응용분야도 다양하다. 기존에 개발된 얼굴 검출 방법들은 얼굴의 전체 형태를 바탕으로 검출을 수행하기 때문에 착용물 또는 신체 부위로 인해 일부가 가려져 폐색된 얼굴에 대해서는 그 검출 성능이 크게 하락할 수 있다. 이러한 문제를 해결하기 위하여 이 논문에서는 얼굴 영상을 지역적 특징 기술자의 집합으로 표현하고, 이에 대한 통계적 확률 모델을 추정한 뒤 이를 이용하여 입력 영상에서 얼굴 영역을 추출하는 방법을 제안한다. AR 데이터베이스와 Caltech 데이터베이스를 이용한 실험을 통해 제안하는 얼굴 검출 방법이 일부가 폐색된 얼굴 검출에 효과적임을 확인하였다.

PPD: A Robust Low-computation Local Descriptor for Mobile Image Retrieval

  • Liu, Congxin;Yang, Jie;Feng, Deying
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제4권3호
    • /
    • pp.305-323
    • /
    • 2010
  • This paper proposes an efficient and yet powerful local descriptor called phase-space partition based descriptor (PPD). This descriptor is designed for the mobile image matching and retrieval. PPD, which is inspired from SIFT, also encodes the salient aspects of the image gradient in the neighborhood around an interest point. However, without employing SIFT's smoothed gradient orientation histogram, we apply the region based gradient statistics in phase space to the construction of a feature representation, which allows to reduce much computation requirements. The feature matching experiments demonstrate that PPD achieves favorable performance close to that of SIFT and faster building and matching. We also present results showing that the use of PPD descriptors in a mobile image retrieval application results in a comparable performance to SIFT.

MPEG-7 디스크립터들의 조합을 이용한 영상 검색 (Image Retrieval Using a Composite of MPEG-7 Visual Descriptors)

  • 강희범;원치선
    • 방송공학회논문지
    • /
    • 제8권1호
    • /
    • pp.91-100
    • /
    • 2003
  • 본 논문에서는 MPEG-7 영상 디스크립터 중 에지 히스토그램 디스크립터(EHD), 컬러 레이아웃 디스크립터(CLD), 그리고 호모니어스 텍스쳐 디스크립터(HTD)로 구성된 각각의 영상 데이터베이스를 조합하여 렐러번스 피드백을 적용한 영상 검색 방법을 제안한다. 본 논문에서 사용한 에지 히스토그램 디스크립터는 영상의 국부적인 방향성 에지 분포를 표현한 것으로서 영상에 대하여 그 내용물의 형태를 잘 표현하는 디스크립터이다. 컬러 레이아웃 디스크립터는 구조적인 단순함과 빠른 동작 속도에 의해 영상 검색에 넓게 사용되어지며 컬러의 공간적 분포로 표현된다. 호모지니어스 텍스쳐 디스크립터는 영상의 질감에 대하여 정밀한 통계상의 분할로 서술된다. 앞에서 언급한 디스크립터들은 각각의 특징을 반영한 영상 검색에 적용되어 진다. 렐러번스 피드백은 영상 검색에 있어 사용자가 요구하는 정보를 반영할 수 있어 영상의 검색 효율을 높일 수 있다. 제안한 방법은 사용자가 렐러번스 피드백으로 결정한 영상의 특징 정보가 각각의 디스크립터들에 새로운 가중치를 부여한다. 따라서, 사용자의 선택적 요구가 반영된 특징 정보 갱신을 통해 검색 효율을 높인다. 자연 영상에 대한 실험 결과로 제안한 방법이 검색 성능을 향상시켜주는 것을 확인할 수 있다.

Spatio-temporal Semantic Features for Human Action Recognition

  • Liu, Jia;Wang, Xiaonian;Li, Tianyu;Yang, Jie
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권10호
    • /
    • pp.2632-2649
    • /
    • 2012
  • Most approaches to human action recognition is limited due to the use of simple action datasets under controlled environments or focus on excessively localized features without sufficiently exploring the spatio-temporal information. This paper proposed a framework for recognizing realistic human actions. Specifically, a new action representation is proposed based on computing a rich set of descriptors from keypoint trajectories. To obtain efficient and compact representations for actions, we develop a feature fusion method to combine spatial-temporal local motion descriptors by the movement of the camera which is detected by the distribution of spatio-temporal interest points in the clips. A new topic model called Markov Semantic Model is proposed for semantic feature selection which relies on the different kinds of dependencies between words produced by "syntactic " and "semantic" constraints. The informative features are selected collaboratively based on the different types of dependencies between words produced by short range and long range constraints. Building on the nonlinear SVMs, we validate this proposed hierarchical framework on several realistic action datasets.

인터액티브 펜-입력 디스플레이 애플리케이션을 위한 효과적인 특징점 추출법 (An Efficient Feature Point Detection for Interactive Pen-Input Display Applications)

  • 김대현;김명준
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.705-716
    • /
    • 2005
  • 패턴 인식 연구 분야에서 많은 특징점 추출 알고리즘들이 개발되었지만, 태블릿 PC나 LCD 태블릿과 같은 펜-입력 디스플레이를 위한 인터액티브 애플리케이션들은 기존과는 다른 요구사항을 가진다. 사용자 마다 다른 다양한 스케치 스타일의 대해서 세그멘테이션 및 특징점 추출을 그림을 그리는 동안 실시간에 안정적으로 수행하여야 한다. 본 논문은 사용자로부터 자유로이 입력된 펜 입력을 분할(segmentation)하기 위해 필수적인 곡률(curvature) 측정 방법을 제안한다. 이 방법은 국소적인 모양 정보(shape descriptors)만을 사용하므로 펜 입력동안 곧바로(on-the-fly) 곡률을 측정할 수 있다. 본 알고리즘은 3차원 스케치 기반 모델링 애플리케이션에서 펜 마킹 인식을 위해서 사용되었다.

Enhanced VLAD

  • Wei, Benchang;Guan, Tao;Luo, Yawei;Duan, Liya;Yu, Junqing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권7호
    • /
    • pp.3272-3285
    • /
    • 2016
  • Recently, Vector of Locally Aggregated Descriptors (VLAD) has been proposed to index image by compact representations, which encodes powerful local descriptors and makes significant improvement on search performance with less memory compared against the state of art. However, its performance relies heavily on the size of the codebook which is used to generate VLAD representation. It indicates better accuracy needs higher dimensional representation. Thus, more memory overhead is needed. In this paper, we enhance VLAD image representation by using two level hierarchical-codebooks. It can provide more accurate search performance while keeping the VLAD size unchanged. In addition, hierarchical-codebooks are used to construct multiple inverted files for more accurate non-exhaustive search. Experimental results show that our method can make significant improvement on both VLAD image representation and non-exhaustive search.

조명 변화에 강인한 엄격한 순차 기반의 특징점 기술자 (Illumination Robust Feature Descriptor Based on Exact Order)

  • 김봉조;손광훈
    • 방송공학회논문지
    • /
    • 제18권1호
    • /
    • pp.77-87
    • /
    • 2013
  • 컴퓨터 비전에서 두 영상 사이에 대응점을 찾는 영상 정합 성능은 조명 변화에 큰 영향을 받는다. 본 논문에서는 조명 변화 문제와 기존 순차 기반 기술자의 단점을 해결하기 위하여, 엄격한 순차 기반의 특징점 기술자를 제안한다. 제안하는 기술자는 관심영역내 모든 픽셀의 순차 정보를 이용하여 기술자를 추출한다. 동일한 픽셀 값의 순차 모호성을 해결하기 위하여, 제안하는 방법은 불연속 스칼라 픽셀 값을 k차수의 연속적인 벡터 값으로 변환한다. k차수의 벡터 값으로부터 계산된 엄격한 순차를 이용하여 특징점 기술자를 추출하였으며, 이를 이용하여 영상 정합을 수행하였다. 실험결과 제안한 방법은 영상의 밝기 왜곡 및 가우시안 노이즈에 기존의 방법보다 강건한 영상 정합 성능을 나타낸다. 제안한 방법은 조명 변화에 강인한 특징점을 표현하는 기술로써 영상 정합과 더불어 얼굴인식, 텍스처 검출 및 영상 분석에 활용될 수 있다.