• 제목/요약/키워드: High-Dimensional Data

검색결과 1,545건 처리시간 0.032초

CS-트리 : 고차원 데이터의 유사성 검색을 위한 셀-기반 시그니쳐 색인 구조 (CS-Tree : Cell-based Signature Index Structure for Similarity Search in High-Dimensional Data)

  • 송광택;장재우
    • 정보처리학회논문지D
    • /
    • 제8D권4호
    • /
    • pp.305-312
    • /
    • 2001
  • 최근 고차원 색인 구조들이 멀티미디어 데이터베이스, 데이터 웨어하우징과 같은 데이터베이스 응용에서 유사성 검색을 위해 요구된다. 본 논문에서는 고차원 특징벡터에 대한 효율적인 저장과 검색을 지원하는 셀-기반 시그니쳐 트리(CS-트리)를 제안한다. 제안하는 CS-트리는 고차원 특징 벡터 공간을 셀로써 분할하여 하나의 특징 벡터를 그에 해당되는 셀의 시그니쳐로 표현한다. 특징 벡터 대신 셀의 시그니쳐를 사용함으로써 트리의 깊이를 줄이고, 그 결과 효율적인 검색 성능을 달성한다. 또한 셀에 기반하여 탐색 공간을 효율적으로 줄이는 유사성 검색 알고리즘을 제시한다. 마지막으로 우수한 고차원 색인 기법으로 알려져 있는 X-트리와 삽입시간, k-최근접 질의에 대한 검색 시간 그리고 부가저장 공간 측면에서 성능 비교를 수행한다. 성능비교 결과 CS-트리가 검색 성능에서 우수함을 보인다.

  • PDF

대용량 데이터의 내용 기반 검색을 위한 분산 고차원 색인 구조 (A Distributed High Dimensional Indexing Structure for Content-based Retrieval of Large Scale Data)

  • 최현화;이미영;김영창;장재우;이규철
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.228-237
    • /
    • 2010
  • 고차원 데이터에 대한 다양한 색인 구조가 제안되어 왔음에도 불구하고, 인터넷 서비스로서 이미지 및 동영상의 내용 기반 검색을 지원하기 위해서는 고확장성 지원 및 k-최근접점 검색 성능 향상을 지원하는 새로운 고차원 데이터의 색인 구조가 절실히 요구된다. 이에 우리는 다중 컴퓨팅 노드를 바탕으로 구축되는 분산 색인 구조로 분산 벡터 근사 트리(Distributed Vector Approximation-tree)를 제안한다. 분산 벡터 근사 트리는 대용량의 고차원 데이터로부터 추출한 샘플 데이터를 바탕으로 hybrid spill-tree를 구축하고, hybrid spill-tree외 말단 노드 각각에 분산 컴퓨팅 노드를 매핑하여 VA-file용 구축하는 두 레벨의 분산 색인 구조이다. 우리는 다중 컴퓨팅 노드들 상에 구축된 분산 벡터 근사 트리를 바탕으로 병렬 k-최근접점 검색을 수행함으로써 검씩 성능을 향상시킨다. 본 논문에서는 서로 다른 분포의 데이터 집합을 바탕으로 한 성능 시험 결과를 통하여, 분산 벡터 근사 트리가 기존의 고확장성을 지원하는 색인 구조와 비교하여 검색 정확도에 대한 손실 없이 더 빠른 k-최근접점 검색을 수행함을 보인다.

Feature-Based Image Retrieval using SOM-Based R*-Tree

  • Shin, Min-Hwa;Kwon, Chang-Hee;Bae, Sang-Hyun
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2003년도 Proceeding
    • /
    • pp.223-230
    • /
    • 2003
  • Feature-based similarity retrieval has become an important research issue in multimedia database systems. The features of multimedia data are useful for discriminating between multimedia objects (e 'g', documents, images, video, music score, etc.). For example, images are represented by their color histograms, texture vectors, and shape descriptors, and are usually high-dimensional data. The performance of conventional multidimensional data structures(e'g', R- Tree family, K-D-B tree, grid file, TV-tree) tends to deteriorate as the number of dimensions of feature vectors increases. The R*-tree is the most successful variant of the R-tree. In this paper, we propose a SOM-based R*-tree as a new indexing method for high-dimensional feature vectors.The SOM-based R*-tree combines SOM and R*-tree to achieve search performance more scalable to high dimensionalities. Self-Organizing Maps (SOMs) provide mapping from high-dimensional feature vectors onto a two dimensional space. The mapping preserves the topology of the feature vectors. The map is called a topological of the feature map, and preserves the mutual relationship (similarity) in the feature spaces of input data, clustering mutually similar feature vectors in neighboring nodes. Each node of the topological feature map holds a codebook vector. A best-matching-image-list. (BMIL) holds similar images that are closest to each codebook vector. In a topological feature map, there are empty nodes in which no image is classified. When we build an R*-tree, we use codebook vectors of topological feature map which eliminates the empty nodes that cause unnecessary disk access and degrade retrieval performance. We experimentally compare the retrieval time cost of a SOM-based R*-tree with that of an SOM and an R*-tree using color feature vectors extracted from 40, 000 images. The result show that the SOM-based R*-tree outperforms both the SOM and R*-tree due to the reduction of the number of nodes required to build R*-tree and retrieval time cost.

  • PDF

차원축소 방법을 이용한 평균처리효과 추정에 대한 개요 (Overview of estimating the average treatment effect using dimension reduction methods)

  • 김미정
    • 응용통계연구
    • /
    • 제36권4호
    • /
    • pp.323-335
    • /
    • 2023
  • 고차원 데이터의 인과 추론에서 고차원 공변량의 차원을 축소하고 적절히 변형하여 처리와 잠재 결과에 영향을 줄 수 있는 교란을 통제하는 것은 중요한 문제이다. 평균 처리 효과(average treatment effect; ATE) 추정에 있어서, 성향점수와 결과 모형 추정을 이용한 확장된 역확률 가중치 방법이 주로 사용된다. 고차원 데이터의 분석시 모든 공변량을 포함한 모수 모형을 이용하여 성향 점수와 결과 모형 추정을 할 경우, ATE 추정량이 일치성을 갖지 않거나 추정량의 분산이 큰 값을 가질 수 있다. 이런 이유로 고차원 데이터에 대한 적절한 차원 축소 방법과 준모수 모형을 이용한 ATE 방법이 주목 받고 있다. 이와 관련된 연구로는 차원 축소부분에 준모수 모형과 희소 충분 차원 축소 방법을 활용한 연구가 있다. 최근에는 성향점수와 결과 모형을 추정하지 않고, 차원 축소 후 매칭을 활용한 ATE 추정 방법도 제시되었다. 고차원 데이터의 ATE 추정 방법연구 중 최근에 제시된 네 가지 연구에 대해 소개하고, 추정치 해석시 유의할 점에 대하여 논하기로 한다.

고차원 (유전자 발현) 자료에 대한 군집 타당성분석 기법의 성능 비교 (Comparison of the Cluster Validation Methods for High-dimensional (Gene Expression) Data)

  • 정윤경;백장선
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.167-181
    • /
    • 2007
  • 유전자 발현 자료(gene expression data)는 전형적인 고차원 자료이며, 이를 분석하기 위한 여러 가지 군집 알고리즘(clustering algorithm)과 군집 결과들을 검증하는 군집타당성분석 기법(cluster validation technique)이 제안되고 있지만, 이들 군집 타당성을 분석하는 기법의 성능에 대한 비교, 평가는 매우 드물다. 본 논문에서는 저차원의 모의실험 자료와 실제 유전자 발현 자료에 대하여 군집 타당성분석 기법들의 성능을 비교하였으며, 그 결과 내적 측도에서는 Dunn 지수, Silhouette 지수 순으로 뛰어났고 외적 측도에서는 Jaccard 지수가 성능이 가장 우수한 것으로 평가되었다.

주기적 편중 분할에 의한 다차원 데이터 디클러스터링 (Declustering of High-dimensional Data by Cyclic Sliced Partitioning)

  • 김학철;김태완;이기준
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.596-608
    • /
    • 2004
  • 디스크 입출력 성능에 의해서 많은 영향을 받는 대용량의 데이타를 저장하고 처리하는 시스템에서 데이타를 다수의 병렬 디스크에 분산 시켜 저장한 후 질의 처리 시 디스크 접근 시간을 감소시키기 위한 노력들이 많이 행해졌다. 대부분의 이전 연구들은 데이타 공간이 정형의 그리드 형태로 분할되어 있다는 가정 하에 각 그리드 셀에 대해서 효과적으로 디스크 번호를 할당하는 알고리즘 연구에 치중하였다. 하지만, 그리드 형태의 분할은 저차원 데이타에 대해서는 효과적이지만 고차원 데이타에 대해서는 우수한 디스크 할당 알고리즘을 적용하더라도 디클러스터링에 의한 성능 향상을 이룰 수가 없다. 그 이유는 그리드 분할 방법은 데이타 분포 비율에 관계없이 전체 데이타 공간을 동일한 비율로 분할하기 때문이다. 고차원 데이타는 대부분 데이타 공간의 표면에 존재한다. 본 논문에서는 이와 같은 현상을 고려하여 데이타 표면으로부터 주기적으로 편중 분할하는 알고리즘을 이용한 새로운 디클러스터링 알고리즘을 제시한다. 다양한 실험 결과에 의하면 표면으로부터 주기적으로 편중 분할하는 방법은 차원이 증가할 수록, 또한 질의 크기가 증가할 수록 그리드 형태의 분할에 비해서 질의를 만족하는 데이타 블록의 수를 현저히 감소시킬 수 있다. 본 논문에서는 분할 결과 데이타 블록들의 배치(layout)를 이용한 디스크 번호 할당 알고리즘들을 제시하였다. 우리는 제시한 알고리즘의 성능을 보이기 위해서 다양한 차원과 디스크 수에 대해서 여러 가지 실험을 하였다. 본 연구에서 제시한 디스크 할당 알고리즘은 절대 최적의 디스크 할당 방법에 비해서 추가적인 디스크 접근 횟수가 10번을 넘지 않는다. 디클러스터링 알고리즘의 응답 시간에 대해서 그리드 분할에 대해서 가장 좋은 성능을 보이는 것으로 알려져 있는 Kronecker sequence을 이용한 디스크 할당 알고리즘과 비교하였으며 차원이 높아짐에 따라 최대 14배까지 성능이 향상된다.

얼굴의 대칭성을 이용하여 조명 변화에 강인한 2차원 얼굴 인식 시스템 설계 (Design of Two-Dimensional Robust Face Recognition System Realized with the Aid of Facial Symmetry with Illumination Variation)

  • 김종범;오성권
    • 전기학회논문지
    • /
    • 제64권7호
    • /
    • pp.1104-1113
    • /
    • 2015
  • In this paper, we propose Two-Dimensional Robust Face Recognition System Realized with the Aid of Facial Symmetry with Illumination Variation. Preprocessing process is carried out to obtain mirror image which means new image rearranged by using difference between light and shade of right and left face based on a vertical axis of original face image. After image preprocessing, high dimensional image data is transformed to low-dimensional feature data through 2-directional and 2-dimensional Principal Component Analysis (2D)2PCA, which is one of dimensional reduction techniques. Polynomial-based Radial Basis Function Neural Network pattern classifier is used for face recognition. While FCM clustering is applied in the hidden layer, connection weights are defined as a linear polynomial function. In addition, the coefficients of linear function are learned through Weighted Least Square Estimation(WLSE). The Structural as well as parametric factors of the proposed classifier are optimized by using Particle Swarm Optimization(PSO). In the experiment, Yale B data is employed in order to confirm the advantage of the proposed methodology designed in the diverse illumination variation

구형 피라미드 기법 : 고차원 데이터의 유사성 검색을 위한 효율적인 색인 기법 (Spherical Pyramid-Technique : An Efficient Indexing Technique for Similarity Search in High-Dimensional Data)

  • 이동호;정진완;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권11호
    • /
    • pp.1270-1281
    • /
    • 1999
  • 피라미드 기법 1 은 d-차원의 공간을 2d개의 피라미드들로 분할하는 특별한 공간 분할 방식을 이용하여 고차원 데이타를 효율적으로 색인할 수 있는 새로운 색인 방법으로 제안되었다. 피라미드 기법은 고차원 사각형 형태의 영역 질의에는 효율적이나, 유사성 검색에 많이 사용되는 고차원 구형태의 영역 질의에는 비효율적인 면이 존재한다. 본 논문에서는 고차원 데이타를 많이 사용하는 유사성 검색에 효율적인 새로운 색인 기법으로 구형 피라미드 기법을 제안한다. 구형 피라미드 기법은 먼저 d-차원의 공간을 2d개의 구형 피라미드로 분할하고, 각 단일 구형 피라미드를 다시 구형태의 조각으로 분할하는 특별한 공간 분할 방법에 기반하고 있다. 이러한 공간 분할 방식은 피라미드 기법과 마찬가지로 d-차원 공간을 1-차원 공간으로 변환할 수 있다. 따라서, 변환된 1-차원 데이타를 다루기 위하여 B+-트리를 사용할 수 있다. 본 논문에서는 이렇게 분할된 공간에서 고차원 구형태의 영역 질의를 효율적으로 처리할 수 있는 알고리즘을 제안한다. 마지막으로, 인위적 데이타와 실제 데이타를 사용한 다양한 실험을 통하여 구형 피라미드 기법이 구형태의 영역 질의를 처리하는데 있어서 기존의 피라미드 기법보다 효율적임을 보인다.Abstract The Pyramid-Technique 1 was proposed as a new indexing method for high- dimensional data spaces using a special partitioning strategy that divides d-dimensional space into 2d pyramids. It is efficient for hypercube range query, but is not efficient for hypersphere range query which is frequently used in similarity search. In this paper, we propose the Spherical Pyramid-Technique, an efficient indexing method for similarity search in high-dimensional space. The Spherical Pyramid-Technique is based on a special partitioning strategy, which is to divide the d-dimensional data space first into 2d spherical pyramids, and then cut the single spherical pyramid into several spherical slices. This partition provides a transformation of d-dimensional space into 1-dimensional space as the Pyramid-Technique does. Thus, we are able to use a B+-tree to manage the transformed 1-dimensional data. We also propose the algorithm of processing hypersphere range query on the space partitioned by this partitioning strategy. Finally, we show that the Spherical Pyramid-Technique clearly outperforms the Pyramid-Technique in processing hypersphere range queries through various experiments using synthetic and real data.

GC-트리 : 이미지 데이타베이스를 위한 계층 색인 구조 (GC-Tree: A Hierarchical Index Structure for Image Databases)

  • 차광호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.13-22
    • /
    • 2004
  • 멀티미디어 데이타의 사용이 증가함에 따라 고차원 이미지 데이타에 대한 효율적인 색인과 검색 기법이 크게 요구되고 있다. 그러나 많은 노력에도 불구하고 현재의 다차원 색인 기법들은 고차원 데이타 공간에서 만족할 만한 성능을 보여주지 못하고 있다. 이러한 소위 차원의 저주를 해결하기 위해 최근에 차원을 줄이거나 근사 해를 구하는 둥의 접근법이 시도되고 있지만 이러한 방법들은 근본적으로 정확도의 상실이라는 문제를 갖고 있다. 정확도의 보존을 위해 VA-file, LPC-file둥과 같이 벡터 근사에 기반 한 기법들이 최근에 개발되었다. 그러나 이 기법은 검색 성능이 색인 파일의 크기에 큰 영향을 받으며, 한번에 큰 검색 공간을 줄이는 계층 색인 구조의 장점을 상실한다. 본 논문에서는 이미지 데이터베이스에서 유사성 질의를 위한 새로운 계층 색인 구조인 GC-트리를 제안한다. GC-트리는 밀도 함수에 기초하여 데이타 공간을 적응적으로 분할하고, 색인 구조를 동적으로 생성한다. 이러한 특성을 갖는 GC-트리는 군집화 된 고차원 이미지 데이타 검색에 훌륭한 성능을 나타낸다.

얼굴 인식을 위한 연립 대각화와 국부 선형 임베딩 (Locally Linear Embedding for Face Recognition with Simultaneous Diagonalization)

  • 김은솔;노영균;장병탁
    • 정보과학회 논문지
    • /
    • 제42권2호
    • /
    • pp.235-241
    • /
    • 2015
  • 국부 선형 임베딩(Locally Linear Embedding, LLE) [1]는 다양체 학습(manifold learning) 알고리즘 중 하나로 고차원 공간에 있는 데이터들 사이의 내적 값을 기반으로 임베딩하는 방법이다. LLE를 이용하여 임베딩 한 결과는 독특한 성질이 있는데, 고차원 공간 상에서 같은 평면에 있는 데이터들은 내적 값이 크기 때문에 저차원 공간에서도 가깝게 위치하도록 임베딩 되는 반면 수직으로 위치한 평면에있는 데이터들은 내적 값이 0이 되기 때문에 서로 떨어진 위치에 임베딩된다. 한편, 한 사람의 얼굴에 다양한 각도에서 조명을 비추면서 촬영한 이미지들은 저차원의 선형 부분공간을 구성한다는 사실이 잘 알려져 있다 [2]. 이에 본 논문에서는 다른 평면에 위치하는 데이터들을 자연스럽게 분류하여 임베딩하는 LLE 알고리즘을 얼굴 이미지에 사용하여 효과적으로 얼굴 인식 문제를 해결할 수 있는 방법을 제안한다. 제안하는 방법은 LLE에 연립 대각화(Simultaneous Diagonalization, SD)를 적용한 방법으로, S연립 대각화를 적용하면 데이터들이 형성하는 평면이 수직이 되도록 바꿀 수 있기 때문에 LLE의 성질을 극대화 할 수 있다. 실험 결과, 연립 대각화를 적용하고 LLE를 적용하면 서로 다른 사람의 얼굴 이미지들이 겹치지 않고 뚜렷하게 구분되는 효과가 있음을 확인하였다.