• 제목/요약/키워드: multidimensional indexes

검색결과 25건 처리시간 0.024초

SVD를 기반으로 한 고차원 데이터 및 질의 집합의 생성 (An SVD-Based Approach for Generating High-Dimensional Data and Query Sets)

  • 김상욱
    • 정보기술과데이타베이스저널
    • /
    • 제8권2호
    • /
    • pp.91-101
    • /
    • 2001
  • Previous research efforts on performance evaluation of multidimensional indexes typically have used synthetic data sets distributed uniformly or normally over multidimensional space. However, recent research research result has shown that these hinds of data sets hardly reflect the characteristics of multimedia database applications. In this paper, we discuss issues on generating high dimensional data and query sets for resolving the problem. We first identify the features of the data and query sets that are appropriate for fairly evaluating performances of multidimensional indexes, and then propose HDDQ_Gen(High-Dimensional Data and Query Generator) that satisfies such features. HDDQ_Gen supports the following features : (1) clustered distributions, (2) various object distributions in each cluster, (3) various cluster distributions, (4) various correlations among different dimensions, (5) query distributions depending on data distributions. Using these features, users are able to control tile distribution characteristics of data and query sets. Our contribution is fairly important in that HDDQ_Gen provides the benchmark environment evaluating multidimensional indexes correctly.

  • PDF

청크 기반 MOLAP 큐브를 위한 비트맵 인덱스 (A Bitmap Index for Chunk-Based MOLAP Cubes)

  • 임윤선;김명
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.225-236
    • /
    • 2003
  • 다차원 온라인 분석처리 (MOLAP, Multidimensional On-line Analytical Processing) 시스템은 데이타를 큐브라고 불리는 다차원 배열에 저장하고 배열 인덱스를 이용하여 데이타를 엑세스한다. 큐브를 디스크에 저장할 때 각 변의 길이가 같은 작은 청크들로 조각내어 저장하게 되면 데이타 클러스터링 효과를 통해 모든 차원에 공평한 질의 처리 성능이 보장되며, 이러한 큐브 저장 방법을 ‘청크기반 MOLAP 큐브’ 저장 방법이라고 부른다. 공간 효율성을 높이기 위해 밀도가 낮은 청크들은 또한 압축되어 저장되는데 이 과정에서 데이타의 상대 위치 정보가 상실되며 원하는 청크들을 신속하게 엑세스하기 위해 인덱스가 필요하게 된다. 본 연구에서는 비트맵을 사용하여 청크기반 MOLAP 큐브를 인덱싱하는 방법을 제시한다. 인덱스는 큐브가 생성될 때 동시에 생성될 수 있으며, 인덱스 수준에서 청크들의 상대 위치 정보를 보존하여 청크들을 상수 시간에 검색할 수 있도록 하였고, 인덱스 블록마다 가능한 많은 청크들의 위치 정보가 포함되도록 하여 범위 질의를 비롯한 OLAP 주요 연산 처리 시에 인덱스 엑세스 회수를 크게 감소시켰다. 인덱스의 시간 공간적 효율성은 다차원 인덱싱 기법인 UB-트리, 그리드 파일과의 비교를 통해 검증하였다.

객체지향 질의의 효율적 처리를 위한 다차원 경로 색인구조의 최적 구성방법 (Optimal Configurations of Multidimensional Path Indexes for the Efficient Execution of Object-Oriented Queries)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.859-876
    • /
    • 2004
  • 본 논문에서는 객체 데이타베이스에서 객체지향 질의의 효율적 처리를 위한 다차원 경로 색인구조(Multidimensional Path Indexes: MPIs)의 최적 구성방법을 제시한다. MPI는 중포속성과 여러 클래스 계층이 포함된 중포술어를 효율적으로 지원하기 위하여 다차원 색인구조를 이용한다. $B^+$-tree와 같은 일차원 색인구조를 이용한 중포속성 색인구조로서는 이와 같은 술어를 잘 지원할 수 없다. 본 논문에서는 타겟 클래스 또는 도메인 클래스의 대치가 있는 경로식으로 표현된 여러 중포술어들의 접속으로 구성된 복합질의의 관점에서 MPI 색인들의 구성에 관하여 분석한다. 먼저, 데이타베이스의 변경에 따른 MPI 색인구조의 운용과 하나의 중포술어를 가지는 질의의 경우에 대한 MPI 색인의 사용에 대하여 색인구성을 분석한다. 그리고 겹침 경로와 비겹침 경로 상에 주어지는 여러 개의 중포술어들로 구성된 보다 일반적인 질의의 관점에서 MPI 색인의 구성에 관하여 분석한다. 겹침 경로는 경로들 사이에 공통의 부경로가 있는 것이고, 비겹침 경로는 공통의 부경로가 없는 것이다.

  • PDF

Efficient Indoor Location Estimation using Multidimensional Indexes in Wireless Networks

  • Jun, Bong-Gi
    • International Journal of Contents
    • /
    • 제5권2호
    • /
    • pp.59-63
    • /
    • 2009
  • Since it is hard to use GPS for tracking mobile user in indoor environments, much research has focused on techniques using existing wireless local area network infrastructure. Signal strength received at a fixed location is not constant, so fingerprinting approach which use pattern matching is popular. But this approach has to pay additional costs to determine user location. This paper proposes a new approach to find user's location efficiently using an index scheme. After analyzing characteristics of RF signals, the paper suggests the data processing method how the signal strength values for each of the access points are recorded in a radio map. To reduce computational cost during the location determination phase, multidimensional indexes for radio map with the important information which is the order of the strongest access points are used.

Singular Value Decomposition 기반 고차원 인덱스 구조 (A High-Dimensional Index Structure Based on Singular Value Decomposition)

  • 김상욱
    • 산업기술연구
    • /
    • 제20권B호
    • /
    • pp.213-218
    • /
    • 2000
  • The nearest neighbor query is an important operation widely used in multimedia databases for finding the object that is most similar to a given query object. Most of techniques for processing nearest neighbor queries employ multidimensional indexes for effective indexing of objects. However, the performance of previous multidimensional indexes, which use N-dimensional rectangles or spheres for representing the capsule of the object cluster, deteriorates seriously as the number of dimensions gets higher. This paper proposes a new index structure based singular value decomposition resolving this problem and the query processing method using it. We also verify the superiority of our approach through performance evaluation by performing extensive experiments.

  • PDF

다차원 색인을 이용한 하향식 계층 클러스터링 (Top-down Hierarchical Clustering using Multidimensional Indexes)

  • 황재준;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.367-380
    • /
    • 2002
  • 최근 공간 데이타 분석, 영상 분석 등과 같은 대용량 데이타를 관리하는 다양한 응용 업무들이 증가함에 따라, 대용량의 데이타베이스를 위한 클러스터링 기법이 많이 연구되고 있다. 그 중에서도 계층 클러스터링 기법은 데이타베이스의 계층 분할을 표현하는 계층 트리를 생성하고 이를 이용하여 효율적인 클러스터링을 수행하는 방법으로서, 지금까지는 주로 트리를 하위 계층으로부터 상위 계층으로 생성해 가는 상향식(bottom-up) 계층 클러스터링 기법들이 연구되었다. 이러한 상향식 클러스터링 방법은 트리를 생성하기 위하여 전체 데이타베이스를 한 번 이상 액세스하여야 할 뿐만 아니라, 하위 계층에서부터 검색을 시작하기 때문에 트리의 많은 부분을 검색하여야 하는 문제점이 있다. 본 논문에서는 대부분의 데이타베이스 응용에서 이미 유지하고 있는 다차원 색인을 이용하여 클러스터링을 수행하는 새로운 하향식(top-down) 계층 클러스터링 기법을 제안한다. 일반적으로 다차원 색인에서는 가까운 객체들이 동일한 (혹은 인접한) 페이지에 저장될 가능성이 큰 클러스터링 성질을 가진다. 이러한 다차원 색인의 클러스터링 성질을 사용하면 각 객체들간의 거리를 일일이 계산하지 않고도 이웃한 객체들을 식별할 수 있다. 우선 객체들의 밀도에 기반하여 클러스터를 정형적으로 정의한다. 이를 위하여, 객체를 포함하는 영역의 밀도를 이용한 영역 대조 분할(region contrast partition) 개념을 사용한다. 또, 클러스터링 알고리즘에서의 빠른 검색을 위하여 분기 한정(branch-and-bound) 알고리즘을 사용하며, 여기서의 한계값(bound)을 제안하고 이의 정확성을 이론적으로 증명한다. 실험 결과, 제안한 방법은 상향식 계층 클러스터링 방법인 BIRCH와 비교하여, 정확성 측면에서 우수하거나 유사한 것으로 나타났으며, 데이타 페이지 액세스 횟수를 데이타베이스 크기에 따라 최고 26~187배까지 감소시킨 것으로 나타났다. 이 같은 결과로 볼 때, 제안한 방법은 대용량 데이타베이스에서의 클러스터링 성능을 크게 향상시키는 기법으로서, 일반 데이타베이스 응용에 실용적으로 적용 가능하다고 판단된다.

XML 질의처리를 위한 다차원 타입상속 색인구조의 할당기법 (An Assignment Method of Multidimensional Type Inheritance Indexes for XML Query Processing)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제12권1호
    • /
    • pp.1-15
    • /
    • 2009
  • 본 논문에서는 XML 데이터베이스에서 XML 질의처리를 효율적으로 지원하기 위한 다차원 타입상속 색인구조(MD-TIX)들의 할당기법을 제시한다. MD-TIX는 중첩요소와 여러 타입상속 계층으로 이루어진 중첩술어의 처리를 효율적으로 지원하기 위하여 다차원 색인구조를 이용하는 색인기법이다. 본 논문에서는 타겟 타입 또는 도메인 타입의 대치가 있는 Xpath로 표현된 여러 중첩술어들의 접속으로 구성된 복합질의의 관점에서 MD-TIX 색인들의 할당에 따른 질의처리 기법들을 분석하고, 그 결과로서 가장 효과적인 객인 할당기법을 제시한다. 먼저, XML문서의 변경에 따른 MD-TIX 색인구조의 운용과 하나의 중첩술어를 가지는 질의처리에 대한 MD-TIX 색인의 할당에 대하여 분석한다. 그리고 경로들 사이에 공통의 부경로가 있는 겹침 경로 상에 주어지는 여러 개의 중첩술어들로 구성된 보다 일반적인 질의의 관점에서 MD-TIX 색인의 운용과 그 할당기법을 제시한다.

  • PDF

최근접 질의를 위한 고차원 인덱싱 방법

  • 김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.632-642
    • /
    • 2001
  • 최근접 질의(nearest neighbor query)는 멀티미디어 데이타베이스에서 주어진 질의 객체와 가장 유사한 객체를 찾기 위한 매우 중요한 연산으로 사용된다. 대부분의 최근접 질의 처리 기법들은 객체의 효과 적인 인덱싱을 위하여 다차원 인덱스(multidimensional index)를 사용한다. 그러나 N차원 사각형 혹은 원을 사용하여 객체 클러스터의 캡슐 표현하는 기존의 다차원 인덱스들은 타원 수가 높아짐에 따라 검색 성능이 크게 떨어진다. 본 논문에서는 이러한 단순한 캡슐 표현 방식이 최근접 질의 처리의 성능을 저하시키는 주요 원인임을 지적하고, (1) 클러스터에 적합한 새로운 축 시스템(axis system)의 채택, (2) 원과 사각형의 조합 에 의한 다양한 캡슐 형태의 표현. (3) 아웃 라이어(outlier)의 별도 관리 등의 해결 방안을 제안한다. 또한, 이러한 개념들을 채택하는 인덱싱 구조를 제시하고. 이를 이용하는 최근접 질의 처리 방안을 제안한다. 끝으 로, 다양한 실험에 의한 성능 평가를 통하여 제안된 기법의 우수성을 검증한다.

  • PDF

객체지향 질의처리를 위한 다차원 중포 속성 색인구조의 최적 설계기법 (Optimal Design Method of Multidimensional Nested Attribute Indexes for Object-Oriented Query Processing)

  • 윤동하;이종학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1863-1866
    • /
    • 2002
  • 본 논문에서는 객체지향 데이터베이스 시스템에서 중포 속성에 대한 색인구조로 다차원 색인구조를 이용하는 다차원 중포 색인구조(Multidimensional Nested Attribute Index: MD-NAI)의 최적 설계기법을 제시한다. MD-NAI는 일차원 색인구조를 이용한 중포 속성 색인구조에서 지원할 수 없는 클래스 계층상의 클래스 대치가 있는 중포 술어의 질의처리를 잘 지원할 수 있다. 그러나, MD-NAI는 사용자 질의 형태에 따라 색인검색의 성능이 매우 나빠질 수 있다. 본 논문에서는 질의 형태에 따른 MD-NAI의 성능 개선을 위하여, 먼저 중포 술어에 대한 질의 정보로서 MD-NAI의 색인 페이지 영역의 최적 모양을 결정하고, 이 최적 모양을 갖는 색인 페이지 영역의 모양이 되도록 하는 영역분할 전략을 적용한다. 성능평가의 결과에 의하면, 주어진 질의 패턴에 따라 최적의 MD-NAI를 구성할 수 있었으며, 삼차원 MD-NAI의 경우에 질의 형태에 따라 5.5배까지 성능이 향상되었다.

  • PDF

시계열 데이터베이스에서 DFT-기반 다차원 인덱스를 위한 물리적 데이터베이스 설계 (Physical Database Design for DFT-Based Multidimensional Indexes in Time-Series Databases)

  • 김상욱;김진호;한병일
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1505-1514
    • /
    • 2004
  • 시퀀스 매칭은 시계열 데이터베이스로부터 질의 시퀀스와 변화의 추세가 유사한 데이터 시퀀스들을 검색하는 연산이다. 기존의 대부분의 연구에서는 효과적인 시퀀스 매칭을 위하여 다차원 인덱스를 사용하며, 데이터 시퀀스를 이산 푸리에 변환(Discrete Fourier Transform: DFT)한 후, 단순히 앞의 두 개 내지 세 개의 DFT 계수만을 구성 속성 (organizing attributes)으로 사용함으로써 고차원의 경우 발생하는 차원 저주(dimensionality curse) 문제를 해결한다. 본 논문에서는 기존의 단순한 기법이 가지는 성능 상의 문제점들을 지적하고, 이러한 문제점들을 해결하는 최적의 다차원 인덱스 구성 기법을 제안한다. 제안된 기법은 대상이 되는 시계열 데이터베이스의 특성을 사전에 분석함으로써 변별력이 뛰어난 요소들을 다차원 인덱스의 구성 속성으로 선정하며, 비용 모델(cost model)을 기반으로 한 시퀀스 매칭 비용의 추정을 통하여 다차원 인덱스에 참여하는 최적의 구성 속성의 수를 결정한다. 제안된 기법의 우수성을 규명하기 위하여 실험을 통한기존 기법과의 성능 비교를 수행하였다 실험 결과에 의하면, 제안된 기법은 기존의 기법에 비교하여 매우 큰 성능 개선 효과를 가지는 것으로 나타났다.

  • PDF