• 제목/요약/키워드: 다차원 인덱스

검색결과 51건 처리시간 0.033초

고차원 공간에서 최근접 질의를 효과적으로 처리하기 위한 새로운 인덱싱 기법 (A New Indexing Technique for Processing Nearest Neighbor Queries in High Dimensional Space)

  • 김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.83-85
    • /
    • 2000
  • 최근접 질의(nearest neighbor query)는 멀티미디어 데이터베이스에서 주어진 질의 객체와 가장 유사한 객체를 찾기 위한 매우 중요한 연산으로 사용된다. 대부분의 최근접 질의 처리 기법들은 객체의 효과적인 인덱싱을 위하여 다차원 인덱스(multidimensional index)를 사용한다. 그러나 N차원 시각형 혹은 원을 사용하여 객체 클러스터의 캡슐을 표현하는 기존의 다차원 인덱스들은 차원 수가 높아짐에 따라 검색 성능이 크게 떨어진다. 본 논문에서는 이러한 문제를 해결하는 새로운 인덱스 구조를 제시하고, 이를 이용하는 최근접 질의 처리 방안을 제안한다. 또한, 다양한 실험에 의한 성능 평가를 통하여 제안된 기법의 우수성을 검증한다.

  • PDF

Time Slice에 따라 인덱스를 분할하는 이동경로 인덱싱 기법 (Trajectory Indexing Technique with Time-sliced Index Partitioning)

  • 강현민;김기홍;차상균
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.231-233
    • /
    • 1999
  • 시공간 상에서 움직이는 물체의 이동경로는 일반적으로 MBR이 매우 크므로, R-tree 계열의 다차원 인덱싱 기법을 적용할 때 질의시 겹침 영역이 많이 발생하는 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 time slice에 따라 이동경로의 MBR을 나누어 별도의 인덱스에 저장하는 기법을 제안한다. 이 기법을 적용하면 MBR의 평균 크기가 줄어들어 인덱스 페이지 및 데이터 페이지 접근횟수를 감소시킬 수 있을 뿐만 아니라, 시간이 지나 질의가 매우 드물게 수행되는 데이터에 대한 엔트리를 삭제하여 검색 범위를 줄이는 것이 용이하다. 또한 본 논문에서는 질의 성능을 최적화하기 위해서 time slice를 어떻게 설계해야 하는지에 대해서도 논의한다.

  • PDF

LUR-tree에서 이동체의 지연 다량 삽입 기법 (Lazy Bulk Insertion Method of Moving objects on LUR-tree)

  • 김정현;장용일;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.70-72
    • /
    • 2005
  • 지금까지의 이동체 인덱스에 대한 연구는 주로 인덱스 구성 후에 발생하는 질의 처리 효율성에 두고 있다. 다수의 이동체 인덱스에서 이동체 데이터의 갱신 연산에 의한 인덱스 재구성에 대한 디스크 접근 오버헤드를 고려하지 않았다. 이동체 데이터 처리를 위한 대표적 인덱스 구조인 R-tree는 이동체에 대한 갱신 연산 비용이 많이 든다. 이런 R-tree의 단점을 보완하기 위해 이동체가 가지는 MBR값이 동적으로 변화하는 환경에 맞추어 R트리의 갱신 비용을 절감하여 처리하는 LUR-tree가 제안되었다. 본 논문에서는 마른 데이터 생성 속도에 적합하도록 디스크 접근 오버헤드를 고려해서 LUR-tree를 관리할 수 있는 현재 인덱스에 대한 다량 삽입 기법을 제안한다. 이 기법에서는 다차원 인덱스 구조에서의 다량 삽입 기법을 위한 간단한 버퍼링 기법을 사용한다. LUR-tree의 단말 노드 정보를 관리하는 보조 인덱스를 추가하여 갱신 연산에 따른 노드의 분할과 합병을 예측한다. 예측된 결과를 바탕으로 노드의 변화를 최소화하는 방향으로 데이터의 갱신 순서를 정하여 데이터 갱신에 따른 노드의 분할과 합병을 최소화한다. 실험을 통해 제안한 기법을 이용한 다량 삽입이 기존의 다량 삽입 기법들과 비교해 인덱스의 갱신 비용을 감소시키는 것을 알 수 있다.

  • PDF

시퀀스 데이터베이스를 위한 타임 워핑 기반 유사 검색 (Time-Warping-Based Similarity Search in Sequence Databases)

  • 감상욱;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.202-204
    • /
    • 2001
  • 본 논문에서는 대형 시퀀스 데이터베이스에서 타임 워핑을 지원하는 유사 검색을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 주는 변환이다. 타임 워핑 거리는 삼각형 부등식 성질을 만족하지 못하므로 기존의 기법들은 착오 기각 없이 다차원 인덱스를 사용할 수 없었다. 본 논문에서는 타임 워핑을 지원하는 새로운 인덱스 기반 유사 검색 기법을 제안한다. 제안된 주요 목표는 착오 기각 없이 대형 데이터베이스에서도 좋은 검색 성능을 보장하는 것이다. 다양한 실험을 통하여 제안된 기법의 우수성을 규명한다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 약 4배에서 43배까지의 성능 개선 효과를 가지는 것을 나타났다.

  • PDF

ORB : 효율적인 질의 성능을 위한 R-tree 대량로딩 기법 (ORB : R-tree Packing for better query performance)

  • 이태원;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.743-745
    • /
    • 2003
  • R-tree는 공간 데이터나 다차원 데이터의 효율적인 질의 처리를 위한 인덱스 구조이다. 다량의 데이터로부터 빠르게 인덱스를 생성하기 위해서 많은 다량로딩 기법들이 제안되었으나 이들은 공간이용률을 극대화하는 데에 초점을 맞춰 R-tree의 목적인 효율적인 질의 처리를 위한 개선의 여지가 남아 있다. 본 논문에서는 다량로딩 과정에서 인접한 노드들간의 겹치는 영역을 감소시켜 전체적으로 질의 처리 성능을 향상시킬 수 있는 기법을 제안한다. 실험 결과에서 보이듯이 지금까지 가장 효율적이라고 알려져 있는 STR 기법보다 질의 성능이 좋게 나오는 것을 확인할 수 있다.

  • PDF

다차원 시퀀스 데이터베이스를 위한 효율적인 범위 검색 기법 (Efficient Range Search Method for Multi-dimensional Sequence Database)

  • 이상준;김범수;이석호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.613-620
    • /
    • 1999
  • 시간의 흐름에 따라 순차적으로 생성되는 연속적인 데이터의 모임을 시퀀스라 한다. 저장된 시퀀스에서 질의로 주어진 시퀀스와 유사한 것을 찾는 문제에 대한 기존의 연구는 대부분 하나의 속성만을 대상으로 한것이며, 여러 속성으로 구성된 다차원 시퀀스에 대해서는 아직까지 활발한 연구가 이루어지지않고 있다. 본 논문에서는 유사도에 기반한 다차원 시퀀스의 범위 검색 문제를 정의하고 세 가지 검색 기법을 기술한다. 순차 검색 기법, 속성별 인덱스 구조, 차원 감소 기법을 이용한 다차원 시퀀스의 검색 기법을 기술하고 질의에 대해 어떤 검색 기법이 효율적인지 실험을 통해 보인다.

공간 순서화 곡선을 이용한 다차원 영역 질의 처리 (A Multi-dimensional Range Query Processing using Space Filling Curves)

  • 백현;원정임;윤지희
    • 한국공간정보시스템학회 논문지
    • /
    • 제8권2호
    • /
    • pp.13-38
    • /
    • 2006
  • 다차원 공간 객체를 위한 영역 질의는 다차원 공간상에서 질의 영역과 교차 또는 포함되는 객체들을 검색하는 가장 기본적인 공간 연산이다. 영역 질의 처리를 위한 인덱스 기법으로서 공간 순서화 곡선을 이용하여 다차원 공간 객체의 MBR 정보를 1차원 값으로 변환하여 저장하는 DOT(DOuble Transformation) 인덱스 기법이 알려져 있다. 이 기법은 데이터베이스 시스템의 주색인 기법을 그대로 적용할 수 있는 장점을 갖으나, 중간 공간에 설정된 다차원 질의 영역을 최종 공간상의 1차원 값의 집합으로 변환하는 공간 변환 연산에 대한 오버헤드가 매우 크다는 문제점이 있으며, 원 공간을 2차원 이상으로 확장하여 적용할 수 있는 구체적인 영역 질의 방법이 연구된 바 없다. 본 논문에서는 다차원 공간 질의 영역 상의 공간 순서화 곡선의 규칙성을 분석함으로써 공간 변환 연산의 횟수를 대폭 감소시킨 효율적인 다차원 공간 영역 질의 처리 기법을 제안한다. 제안된 기법에서는 공간 변환 연산의 비용을 감소시키기 위하여 질의 영역을 공간 순서화 곡선이 연속 운행되는 최대 크기의 쿼터로 분할하는 쿼터 분할 기법을 사용한다. 제안된 기법에 의한 다차원 영역 질의 처리 과정을 시각적으로 확인할 수 있는 시뮬레이터를 구현하였으며, 이를 이용한 성능평가 결과를 보였다.

  • PDF

시퀀스 데이터베이스에서 타임 워핑을 지원하는 효과적인 인덱스 기반 서브시퀀스 매칭 (An Index-Based Approach for Subsequence Matching Under Time Warping in Sequence Databases)

  • 박상현;김상욱;조준서;이헌길
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.173-184
    • /
    • 2002
  • 본 논문에서는 대용량 시퀀스 데이터베이스에 타임 워핑을 지원하는 인덱스 기반 서브시퀀스 매칭에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해준다. 최근의 연구에서 타임 워핑을 지원하는 효과적인 전체 매칭 기법을 제안된바 있다. 이 기법은 데이터 시퀀스들로부터 타임 워핑에 영향을 받지 않는 특징 벡터들의 집합을 대상으로 인덱스를 구성한다. 또한, 특징 공간상에서의 필터링을 위하여 삼각형 부등식을 만족하는 타임 워핑 거리의 하한 함수를 사용한다. 본 연구에서는 이 기존의 연구에 슬라이딩 윈도우를 기반으로 하는 접두어-질의 방법을 결합하는 새로운 기법을 제안한다. 인덱싱을 위하여 각 슬라이딩 윈도우와 대응되는 서브 시퀀스로부터 특징 벡터를 추출하고, 이 특징 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 구성한다. 질의 처리를 위하여, 조건을 만족하는 질의 접두어들에 대한 특징 벡터들을 이용하여 다수의 인덱스 검색을 수행한다. 제안된 기법은 대용량의 데이터베이스에서도 효과적인 서브시퀀스 매칭을 지원한다. 본 연구에서는 제안된 기법이 착오 기각을 유발시키지 않음을 증명한다. 제안된 기법의 우수성을 규명하기 위하여 다양한 실험을 수행한다. 실험 결과에 따르면, 제안된 기법은 실제 S&P 500 주식 데이터와 대용량의 생성 데이터 모두에 대하여 큰 성능 개선 효과를 보이는 것으로 나타났다.

Z-인덱스 기반 MOLAP 큐브 저장 구조 (A Z-Index based MOLAP Cube Storage Scheme)

  • 김명;임윤선
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권4호
    • /
    • pp.262-273
    • /
    • 2002
  • MOLAP(multi-dimensional online analytical processing)은 데이타의 다차원적 분석 기술로서, 이는 질의 처리 속도를 높이기 위해 데이타를 큐브(cube)라고 불리는 다차원 배열에 저장하고 배열 인덱스를 사용하여 데이타를 엑세스한다. 큐브는 다양한 방식으로 디스크에 저장될 수 있으며 이 때 사용되는 방식에 따라 MOLAP의 주요 연산인 슬라이스와 다이스 연산 속도가 크게 영향을 받는다. 이러한 연산들을 효율적으로 처리하기 위해 다차원 배열을 작은 크기의 청크로 나누고 이 들 중에서 희박한 청크들을 압축하여 저장하는 기법이 [1]에 제안되어 있다. 이 방식에서는 청크들을 행우선 순서로 디스크에 저장한다. 본 연구에서는 청크들을 밀도와 인접도 기준으로 배치시킴으로써 슬라이스와 다이스 연산 속도를 향상시키는 방법을 제시한다. 청크 밀도를 이용하여 청크들을 디스크 블록 경계에 가능한 한 맞추었고, Z 인덱싱을 사하여 인접한 저밀도 청크들을 군집화 함으로써 디스크 I/O의 속도를 높였다. 제안한 큐브 저장 방식은 일반적 비즈니스 데이타의 분석에 흔히 사용되는 3~5차원의 큐브 저장에 효율적이라는 것을 실험적으로 보였다.

링크드 데이터를 위한 대용량 RDF 저장 및 검색 시스템 (A Large-scale RDF Storage and Retrieval System for Linked Data)

  • 이용주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.523-524
    • /
    • 2016
  • 본 논문에서는 링크드 데이터를 위한 대용량 RDF 저장 및 검색 시스템을 제안한다. 현재 링크드 데이터에 대한 핵심 이슈는 링크드 데이터의 효율적인 저장과 검색, 그리고 활용 애플리케이션 개발이다. 제안 시스템은 저장 관리자, 인덱스 구조, 그리고 질의 처리기로 구성되어 있다. 저장 관리자는 대용량 RDF 데이터를 처리하기 위해 그래프 데이터베이스에 데이터를 분산 저장하며, 인덱스 구조는 다차원 히스토그램, 보조 인덱싱, 그리고 그래프 인덱싱 기법이 구현된다. 질의 처리기는 SPARQL 또는 NoSQL 질의를 사용하여 질의 최적화 및 랭킹기법이 적용된 RDF 트리플 검색을 수행한다.