• 제목/요약/키워드: nearest neighbor query

검색결과 111건 처리시간 0.022초

일반적인 GPU 트리 탐색과의 비교실험을 통한 GPU 기반 병렬 Shifted Sort 알고리즘 분석 (Analysis of GPU-based Parallel Shifted Sort Algorithm by comparing with General GPU-based Tree Traversal)

  • 김희수;박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1151-1156
    • /
    • 2017
  • 일반적으로 GPU 기반 트리 탐색을 수행할 경우 병렬 처리 속도가 생각보다 크게 향상되지 않는 경우가 대부분이다. 본 논문에서는 이러한 원인을 분석하고 그 분석 결과로 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위인 warp 내에서 분기문(if문)으로 인한 warp divergence가 일어나기 때문임을 제시한다. 또한 이러한 warp divergence를 최소화할 수 있는 병렬 shifted sort 알고리즘과의 비교를 통해 shifted sort 알고리즘이 일반적인 GPU 내 트리 탐색에 비해 우수한 성능을 보이는 구조임을 제시하였다. 분석 결과 GPU 기반 kd-tree 탐색에 비해 warp divergence가 발생하지 않은 shifted sort 탐색은 3차원 공간에서 데이터나 쿼리의 수가 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이 성능 차이는 데이터나 쿼리의 개수가 증가함에 따라 더 커지는 경향을 보였다.

Vantage Point Metric Index Improvement for Multimedia Databases

  • Chanpisey, Uch;Lee, Sang-Kon Samuel;Lee, In-Hong
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.112-114
    • /
    • 2011
  • On multimedia databases, in order to realize the fast access method, indexing methods for the multidimension data space are used. However, since it is a premise to use the Euclid distance as the distance measure, this method lacks in flexibility. On the other hand, there are metric indexing methods which require only to satisfy distance axiom. Since metric indexing methods can also apply for distance measures other than the Euclid distance, these methods have high flexibility. This paper proposes an improved method of VP-tree which is one of the metric indexing methods. VP-tree follows the node which suits the search range from a route node at searching. And distances between a query and all objects linked from the leaf node which finally arrived are computed, and it investigates whether each object is contained in the search range. However, search speed will become slow if the number of distance calculations in a leaf node increases. Therefore, we paid attention to the candidates selection method using the triangular inequality in a leaf node. As the improved methods, we propose a method to use the nearest neighbor object point for the query as the datum point of the triangular inequality. It becomes possible to make the search range smaller and to cut down the number of times of distance calculation by these improved methods. From evaluation experiments using 10,000 image data, it was found that our proposed method could cut 5%~12% of search time of the traditional method.

The Kernel Trick for Content-Based Media Retrieval in Online Social Networks

  • Cha, Guang-Ho
    • Journal of Information Processing Systems
    • /
    • 제17권5호
    • /
    • pp.1020-1033
    • /
    • 2021
  • Nowadays, online or mobile social network services (SNS) are very popular and widely spread in our society and daily lives to instantly share, disseminate, and search information. In particular, SNS such as YouTube, Flickr, Facebook, and Amazon allow users to upload billions of images or videos and also provide a number of multimedia information to users. Information retrieval in multimedia-rich SNS is very useful but challenging task. Content-based media retrieval (CBMR) is the process of obtaining the relevant image or video objects for a given query from a collection of information sources. However, CBMR suffers from the dimensionality curse due to inherent high dimensionality features of media data. This paper investigates the effectiveness of the kernel trick in CBMR, specifically, the kernel principal component analysis (KPCA) for dimensionality reduction. KPCA is a nonlinear extension of linear principal component analysis (LPCA) to discovering nonlinear embeddings using the kernel trick. The fundamental idea of KPCA is mapping the input data into a highdimensional feature space through a nonlinear kernel function and then computing the principal components on that mapped space. This paper investigates the potential of KPCA in CBMR for feature extraction or dimensionality reduction. Using the Gaussian kernel in our experiments, we compute the principal components of an image dataset in the transformed space and then we use them as new feature dimensions for the image dataset. Moreover, KPCA can be applied to other many domains including CBMR, where LPCA has been used to extract features and where the nonlinear extension would be effective. Our results from extensive experiments demonstrate that the potential of KPCA is very encouraging compared with LPCA in CBMR.

시그니처 트리를 사용한 의미적 유사성 검색 기법 (Semantic Similarity Search using the Signature Tree)

  • 김기성;임동혁;김철한;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.546-553
    • /
    • 2007
  • 온톨로지의 활용이 늘어나면서 의미적 유사성 검색에 대한 관심이 높아지고 있다. 본 논문에서는 질의 객체와의 의미적 유사성이 높은 객체를 검색하는 최근접 질의 기법을 제안하였다. 의미적 유사성을 측정하는 유사성 함수로는 최적 대응값 방식의 유사도 함수를 사용하였으며 주석 정보에 대한 색인을 위해 시그니처 트리를 사용하였다. 시그니처 트리는 집합 유사성 검색에서 많이 사용되는 색인 구조로서 유사성 검색에 사용하기 위해서는 검색시 각 노드를 탐색하였을 때 발견할 수 있는 유사도의 최대값을 예측할 수 있어야 한다. 이에 본 논문에서는 최적 대응값 방식의 유사도 함수에 대한 예측 최대값 함수를 제안하고 올바른 예측 함수임을 증명하였다. 또한 시그니처 트리에 동일한 시그니처가 중복되어 저장되지 않도록 구조를 개선하였다. 이는 시그니처 트리의 크기를 감소시킬 뿐만 아니라 질의 성능 또한 향상시켜 주었다. 실험의 데이타로는 대용량 온톨로지와 주석 정보 데이타를 제공하는 Gene Ontology(GO)를 사용하였다. 실험에서는 제안한 방법의 성능 향상 외에도 페이지 크기와 노드 분할 방법이 의미적 유사성 질의 성능에 미치는 영향에 대해 알아보았다.

DGR-Tree : u-LBS에서 POI의 검색을 위한 효율적인 인덱스 구조 (DGR-Tree : An Efficient Index Structure for POI Search in Ubiquitous Location Based Services)

  • 이득우;강홍구;이기영;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제11권3호
    • /
    • pp.55-62
    • /
    • 2009
  • 유비쿼터스 컴퓨팅 환경에서의 LBS, 즉 u-LBS는 실세계의 수많은 객체가 위치정보와 밀접히 연관된 대용량 데이타를 대상으로 한다. 특히, 사용자의 위치 정보와 관련하여 검색하려고 하는 객체인 POI에 대한 빠른 검색이 중요하다. 따라서 u-LBS에서 POI의 효율적인 검색을 위한 인덱스 구조에 대한 연구가 필요하다. 본 논문에서는 u-LBS에서 정적 POI를 대상으로 이를 효율적으로 검색하기 위한 DGR-Tree를 제시한다. DGR-Tree는 변형된 R-Tree를 기본 인덱스로 하고 동적 레벨 그리드를 보조 인덱스로 사용하는 구조이다. DGR-Tree는 점 데이타에 적합하도록 최적화하고 있으며 리프 노드 간 겹침 문제를 해결한다. DGR-Tree에서 동적 레벨 그리드는 점 데이타의 밀집도에 따라 동적으로 구성되며, 각 셀은 DGR-Tree의 리프 노드와 연계를 위한 포인터를 저장하여 리프 노드를 직접 접근하도록 함으로써 인덱스 접근 성능을 향상시킨다. 또한, 본 논문에서는 DGR-Tree를 위한 KNN 검색 알고리즘을 제시한다. 이 알고리즘에서는 KNN 검색 시 후보 셀에 빠르게 접근하기 위하여 동적 레벨 그 리드를 활용하며, 후보를 노드별로 구분하여 저장함으로써 후보 리스트 내에서의 정렬 비용을 감소시킨다. 마지막으로 실험을 통해 DGR-Tree의 우수성을 입증하였다.

  • PDF

위치 검색 지도 서비스를 위한 k관심지역 검색 기법 (k-Interest Places Search Algorithm for Location Search Map Service)

  • 조성환;이경주;유기윤
    • 한국측량학회지
    • /
    • 제31권4호
    • /
    • pp.259-267
    • /
    • 2013
  • 최근 인터넷의 발달과 더불어 지리정보시스템(GIS, Geographic Information System)에 대한 인식이 저변 확대되면서 일반인들도 위치 검색 기능을 제공하는 웹GIS를 쉽게 이용할 수 있게 되었다. 현재 서비스되고 있는 모든 위치 검색 기능은 사용자가 하나의 검색어를 입력하고 그에 대한 결과를 보여주는 서비스에 한정되어 있다. 하지만 사용자의 검색 목적이 다양해짐에 따라, 여러 가지 행위를 동시에 할 수 있는 장소를 검색하는 서비스는 없었다. 예를들어, 점심을 먹은 후, 은행에서 업무를 보고, 영화 한 편을 보고자 할 때 이러한 관심 지역(POI, Point of Interest)들이 모여 있는 장소를 필요로 할 수 있다. 따라서 본 논문에서는 사용자로부터 여러 장소를 입력받아 입력된 장소가 모여 있는 곳을 검색해주는 k-IPS 기법을 제안하고자 한다. 여기서 k는 다양한 행위를 할 수 있는 관심의 개수이다. 이 방법은 최소경계사각형(MBR, Minimum Bounding Rectangle)의 계층적 트리 구조인 $R^*$-tree 색인 기법을 이용하여 공간을 분할하고, 기존 공간 Join 연산의 성능 개선을 위하여 $R^*$-tree간의 겹치는 영역 추출하는 재귀적 공간 Join 연산을 구현하였다. k-IPS 기법의 성능 평가는 159개의 다양한 검색어 집합을 구성하여 k=2,3,4,6에 대한 검색 결과를 확인하였다. 실험 결과의 약 90%에 대해서 예상한대로 k개의 검색어 장소가 모여 있는 위치를 얻을 수 있었고, k=2,3,4의 처리 시간은 0.1초 이내의 응답을 얻을 수 있었다. k-IPS 서비스를 통하여 현대인의 순차적 생활 패턴에 맞춘 검색 서비스가 가능할 것으로 판단된다.

CS-트리 : 고차원 데이터의 유사성 검색을 위한 셀-기반 시그니쳐 색인 구조 (CS-Tree : Cell-based Signature Index Structure for Similarity Search in High-Dimensional Data)

  • 송광택;장재우
    • 정보처리학회논문지D
    • /
    • 제8D권4호
    • /
    • pp.305-312
    • /
    • 2001
  • 최근 고차원 색인 구조들이 멀티미디어 데이터베이스, 데이터 웨어하우징과 같은 데이터베이스 응용에서 유사성 검색을 위해 요구된다. 본 논문에서는 고차원 특징벡터에 대한 효율적인 저장과 검색을 지원하는 셀-기반 시그니쳐 트리(CS-트리)를 제안한다. 제안하는 CS-트리는 고차원 특징 벡터 공간을 셀로써 분할하여 하나의 특징 벡터를 그에 해당되는 셀의 시그니쳐로 표현한다. 특징 벡터 대신 셀의 시그니쳐를 사용함으로써 트리의 깊이를 줄이고, 그 결과 효율적인 검색 성능을 달성한다. 또한 셀에 기반하여 탐색 공간을 효율적으로 줄이는 유사성 검색 알고리즘을 제시한다. 마지막으로 우수한 고차원 색인 기법으로 알려져 있는 X-트리와 삽입시간, k-최근접 질의에 대한 검색 시간 그리고 부가저장 공간 측면에서 성능 비교를 수행한다. 성능비교 결과 CS-트리가 검색 성능에서 우수함을 보인다.

  • PDF

Fast Search with Data-Oriented Multi-Index Hashing for Multimedia Data

  • Ma, Yanping;Zou, Hailin;Xie, Hongtao;Su, Qingtang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권7호
    • /
    • pp.2599-2613
    • /
    • 2015
  • Multi-index hashing (MIH) is the state-of-the-art method for indexing binary codes, as it di-vides long codes into substrings and builds multiple hash tables. However, MIH is based on the dataset codes uniform distribution assumption, and will lose efficiency in dealing with non-uniformly distributed codes. Besides, there are lots of results sharing the same Hamming distance to a query, which makes the distance measure ambiguous. In this paper, we propose a data-oriented multi-index hashing method (DOMIH). We first compute the covariance ma-trix of bits and learn adaptive projection vector for each binary substring. Instead of using substrings as direct indices into hash tables, we project them with corresponding projection vectors to generate new indices. With adaptive projection, the indices in each hash table are near uniformly distributed. Then with covariance matrix, we propose a ranking method for the binary codes. By assigning different bit-level weights to different bits, the returned bina-ry codes are ranked at a finer-grained binary code level. Experiments conducted on reference large scale datasets show that compared to MIH the time performance of DOMIH can be improved by 36.9%-87.4%, and the search accuracy can be improved by 22.2%. To pinpoint the potential of DOMIH, we further use near-duplicate image retrieval as examples to show the applications and the good performance of our method.

전자우편 문서의 자동분류를 위한 다중 분류기 결합 (Combining Multiple Classifiers for Automatic Classification of Email Documents)

  • 이지행;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.192-201
    • /
    • 2002
  • 디지털 형태의 문서가 널리 퍼지고 끊임없이 증가함에 따라 이를 자동으로 가공하고 처리하는 문서 자동분류의 중요성이 널리 인식되고 있다. 최근의 문서 자동분류는 k-최근접 이웃, 결정트리, Support Vector Machine, 신경망 등의 다양한 기계학습 기법을 이용하여 연구되고 있다. 그러나 많은 연구가 잘 조직된 데이타 집합을 이용하여 연구결과를 보여주고 있으며, 실제 문제에의 응용성에는 큰 비중을 두지 않고 있다. 본 논문에서는 문서분류의 응용시스템인 질의 자동응답시스템에 적용할 수 있는 다중분류기 결합 방법을 제안하고 실제 전자우편 문서의 분류문제를 해결한다. 첫째로, 다중신경 망을 이용한 문서분류를 제안한다. 제안한 방법은 최대값 결합, 신경망 결합을 통해 성능의 향상을 가져온다. 둘째로, 여러 분류기의 결합을 통해 문서분류의 성능을 개선한다. 본 논문에서는 투표 결합방법, Borda 결합, 신경망 결합방법 등을 적용하여 여러 분류기의 결합을 수행하였다. 실용 가능성을 분석한 실험결과 90%이상의 정확율을 보여 제안한 방법이 실용적일 수 있음을 알 수 있었다.

가중치 벡터합을 이용한 이동객체의 방향계산 및 미디어 검색방법 (A Direction Computation and Media Retrieval Method of Moving Object using Weighted Vector Sum)

  • 서창덕;한기태
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.399-410
    • /
    • 2008
  • 본 논문은 기존 위치기반 서비스에서 최근접질의 및 한 지점에서의 방향성분을 고려한 최근접질의의 단점을 해소하고자 가중치 벡터합을 이용하는 새로운 검색방법을 제안한다. 검색반경으로 1차 필터링된 영역에서, 2차 필터링을 위해 이용자의 이동방향, 관심방향 및 검색각도를 조합한 방향정보를 이용한다. 이동방향은 일정구간내 존재하는 벡터들의 가중치 합으로 계산하며, 검색각도를 $0{\sim}360^{\circ}$까지 세분화하여 검색방향에 대한 범위를 조절 하도록 한다. 본 검색방법에 사용되는 데이터는 촬영위치가 기록된 정지영상 및 동영상, 업체나 관광지의 위치정보와 함께 소비자에게 제공되는 텍스트, 웹, 영상 등 각종 미디어 형태의 데이터가 될 수 있다. 제안하는 방법은 이동 중인 이용자가 현 위치를 기준으로 일정 반경 내에 있으면서 유사방향에 부합하는 미디어만을 검색하도록 함으로써, 이미 지났거나 혹은 관련 없는 방향의 미디어를 배제한 검색결과를 제공하기 때문에 기존의 위치만을 고려한 검색방법에 비해 보다 정확한 검색을 보장할 수 있으며, 방향성을 고려한 기존 최근접질의 에 비해서도 보다 유연하고 포괄적인 검색결과를 보장한다.