• 제목/요약/키워드: 다차원 인덱스

검색결과 51건 처리시간 0.024초

다차원 데이터 분석을 위한 비트맵 인덱스 (A Bitmap Index for Multi-Dimensional Data Analysis)

  • 임윤선;박영선;김명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.298-300
    • /
    • 2002
  • 다차원 데이터를 배열에 저장하는 Multidimensional OLAP (MOLAP) 시스템은 배열내의 위치 정보를 통해 데이터를 신속하게 엑세스할 수 있는 장점을 갖는다. 그러나 실생활의 다차원 데이터는 대체로 희박하여 저장될 때 압축되고, 데이터가 검색될 때는 원래의 위치 정보를 찾기 위해 인덱스를 필요로 하게 된다. 다양한 종류의 다차원 인덱스가 테이블 형태의 데이터를 대상으로 개발되어 있으나, 이들은 데이터의 삽입과 삭제에 유연하게 대처할 수 있도록 하기 위해서 인덱스 공간과 데이터 검색 시간에 약간의 낭비를 초래한다. 본 연구에서는 OLAP 데이터가 주기적으로 갱신되며, 분석에 필요한 집계 데이터도 점진적으로 갱신되기보다 실제로는 새로 생성되고 있다는 점을 고려하여, 읽기 전용 MOLAP 데이터를 위한 인덱스 구조를 제안한다. 데이터는 청크들로 나뉜 후 압축 저장되며, 각 청크는 위치 정보를 유지하면서 비트로 표현되어 인덱스에 저장되도록 하였다. 제안한 비트맵 인덱스는 높은 압축률을 보이며, 범위 질의(range query)를 포함한 OLAP 주요 연산들 처리에 특히 효율적이다.

  • PDF

센서 네트워크에서 동적 영역 분할을 이용한 다차원 범위 질의 인덱스 (A Multi-dimensional Range Query Index using Dynamic Zone Split in Sensor Networks)

  • 강홍구;김정준;홍동숙;한기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (D)
    • /
    • pp.52-54
    • /
    • 2006
  • 최근 데이타 중심 저장 방식의 센서 네트워크에서 다차원 범위 질의를 위한 인덱스들이 제시되고 있다. 기존에 제시된 다차원 범위 질의 인덱스는 일반적으로 다차원 속성 도메인과 센서 노드의 공간 도메인을 직접 매핑하여 데이타를 관리하는 구조로 되어있다. 그러나, 이러한 구조는 센서 노드의 공간 도메인을 정적으로 분할하기 때문에 센서 노드를 포함하지 않는 영역이 생성되어 데이타 저장 및 질의 처리에서 불필요한 통신이 발생하는 문제가 있다. 본 논문은 이러한 문제를 해결하기 위해 센서 노드의 공간 도메인이 센서 노드를 포함하도록 센서 네트워크 영역을 동적으로 분할하는 다차원 범위 질의 인덱스를 제안한다. 제안하는 인덱스는 센서 노드의 위치에 따라 센서 네트워크 영역을 동적으로 분할하여 데이타 저장 및 질의 처리시 목적 영역으로의 라우팅 경로를 최적화한다. 그리고, 분할된 영역은 모두 센서 노드를 포함함으로 센서 노드에서 발행하는 저장 부하를 분산시켜 전체 네트워크에서 발생하는 전체 통신비용을 줄인다. 실험 결과 제안한 인덱스는 DIM보다 전체 센서 네트워크와 hotspot의 통신비용에서 각각 최대 35%, 60%의 성능 향상을 보였다.

  • PDF

청크 기반 MOLAP 큐브를 위한 비트맵 인덱스 (A Bitmap Index for Chunk-Based MOLAP Cubes)

  • 임윤선;김명
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.225-236
    • /
    • 2003
  • 다차원 온라인 분석처리 (MOLAP, Multidimensional On-line Analytical Processing) 시스템은 데이타를 큐브라고 불리는 다차원 배열에 저장하고 배열 인덱스를 이용하여 데이타를 엑세스한다. 큐브를 디스크에 저장할 때 각 변의 길이가 같은 작은 청크들로 조각내어 저장하게 되면 데이타 클러스터링 효과를 통해 모든 차원에 공평한 질의 처리 성능이 보장되며, 이러한 큐브 저장 방법을 ‘청크기반 MOLAP 큐브’ 저장 방법이라고 부른다. 공간 효율성을 높이기 위해 밀도가 낮은 청크들은 또한 압축되어 저장되는데 이 과정에서 데이타의 상대 위치 정보가 상실되며 원하는 청크들을 신속하게 엑세스하기 위해 인덱스가 필요하게 된다. 본 연구에서는 비트맵을 사용하여 청크기반 MOLAP 큐브를 인덱싱하는 방법을 제시한다. 인덱스는 큐브가 생성될 때 동시에 생성될 수 있으며, 인덱스 수준에서 청크들의 상대 위치 정보를 보존하여 청크들을 상수 시간에 검색할 수 있도록 하였고, 인덱스 블록마다 가능한 많은 청크들의 위치 정보가 포함되도록 하여 범위 질의를 비롯한 OLAP 주요 연산 처리 시에 인덱스 엑세스 회수를 크게 감소시켰다. 인덱스의 시간 공간적 효율성은 다차원 인덱싱 기법인 UB-트리, 그리드 파일과의 비교를 통해 검증하였다.

시계열 데이터베이스에서 DFT-기반 다차원 인덱스를 위한 물리적 데이터베이스 설계 (Physical Database Design for DFT-Based Multidimensional Indexes in Time-Series Databases)

  • 김상욱;김진호;한병일
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1505-1514
    • /
    • 2004
  • 시퀀스 매칭은 시계열 데이터베이스로부터 질의 시퀀스와 변화의 추세가 유사한 데이터 시퀀스들을 검색하는 연산이다. 기존의 대부분의 연구에서는 효과적인 시퀀스 매칭을 위하여 다차원 인덱스를 사용하며, 데이터 시퀀스를 이산 푸리에 변환(Discrete Fourier Transform: DFT)한 후, 단순히 앞의 두 개 내지 세 개의 DFT 계수만을 구성 속성 (organizing attributes)으로 사용함으로써 고차원의 경우 발생하는 차원 저주(dimensionality curse) 문제를 해결한다. 본 논문에서는 기존의 단순한 기법이 가지는 성능 상의 문제점들을 지적하고, 이러한 문제점들을 해결하는 최적의 다차원 인덱스 구성 기법을 제안한다. 제안된 기법은 대상이 되는 시계열 데이터베이스의 특성을 사전에 분석함으로써 변별력이 뛰어난 요소들을 다차원 인덱스의 구성 속성으로 선정하며, 비용 모델(cost model)을 기반으로 한 시퀀스 매칭 비용의 추정을 통하여 다차원 인덱스에 참여하는 최적의 구성 속성의 수를 결정한다. 제안된 기법의 우수성을 규명하기 위하여 실험을 통한기존 기법과의 성능 비교를 수행하였다 실험 결과에 의하면, 제안된 기법은 기존의 기법에 비교하여 매우 큰 성능 개선 효과를 가지는 것으로 나타났다.

  • PDF

지문인식을 위한 다차원공간 인덱스의 설계 (Multidimensional Index for Fingerprint Identification)

  • 김갑영;심현보;박영배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.222-224
    • /
    • 1999
  • 지문은 가장 효율적인 사용자 인증방법으로 이용되어져 왔다. 또한 컴퓨터의 발달과 더불어 자동지문 인식은 더욱 많이 연구되어졌고, 또한 급속도로 발전하였다. 이런 대부분의 연구들은 지문 인식에서 특징점 추출 및 정합부분에 관한 연구가 주류를 이루고 있다. 그런, 대단위 데이터베이스 검색 향상을 위한 방법의 연구는 아직도 미진한 실정이다. 본 연구는 기존의 지문 데이터베이스에 공간 인덱스를 추가시켜 지문을 효과적으로 추출하는 방법을 제시한다. 이 방법으로, 데이터베이스의 지문을 다차원공간 인덱스에 저장시킨다. 그리고, 지문을 검색을 할 때에는, 다차원공간상에서 미지 지문과 유사한 지문들을 추출하여, 후보지문을 만든다. 그리고, 매칭 작업은 이 후보지문들하고만 매칭 하여도 전체를 한 것과 같은 효과를 얻을 수 있다. 이러한 방법으로, 전체 지문 검색 시간을 단축시킬 수 있다.

  • PDF

다중 존 디스크 환경에서 다차원 인덱스 구조의 효율적 저장 기법 (Efficient Storage Techniques for Multidimensional Index Structures in Multi-Zoned Disk Environments)

  • 유병구;김선호;장재영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.315-327
    • /
    • 2007
  • 대용량의 다차원 데이타를 다루는 데이타베이스 응용분야에서는 접근 방법 및 기반 디스크 시스템이 전반적인 성능에 중요한 영향을 미친다. 현재 생산되고 있는 많은 디스크들은 다중의 물리적 존을 갖도록 설계되고 있다. 그러나 기존의 접근 방법에 대한 연구는 단순한 가정의 전통적인 디스크 모델에 기반을 두고 진행되어 왔고, 다중 존 디스크를 고려한 접근 방법에 대한 연구는 현재까지 거의 이루어지지 않고 있다. 본 논문에서는 다중 존 디스크 환경에서 실질적인 데이타 전송률을 향상시키기 위해, 정적 및 동적 환경 모두를 고려한 다차원 인덱스 구조의 디스크 저장 기법을 제안한다. 이를 위해 다차원 인덱스 구조를 다중 존 디스크에 효과적으로 배치하는 알고리즘을 제시하고, 범위 질의에 대해 지역화된 질의 처리 기법을 제안한다. 또한 실험을 통하여 본 논문이 제안한 기술이 질의 성능을 획기적으로 향상시킨다는 것을 증명한다.

다차원 인덱스를 지원하는 4D데이터 제공자 (4D Data Provider Supporting a Multidimensional Index)

  • 이선준;김상호;류근호;이성호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.34-36
    • /
    • 2002
  • 사용자에게 제공되고 있는 대부분의 시간 지리 정보 시스템은 소프트웨어 형태로 패키지화하여 제공되므로 과다한 구축비용과 재사용성의 문제점을 가지고 있다. 그리고 시간 지리 정보 시스템은 복잡하며 대용량인 특성을 가진 시공간 데이터를 처리해야만 한다. 따라서 시공간 데이터의 효율적인 관리 및 재사용성을 위해서 소프트웨어 부품화물 제공하는 컴포넌트 개발 방법론을 사용해야하며 시공간 데이터에 빠르게 접근하기 위한 인덱스 구조가 필요하다. 이 논문에서는 시공간 데이터를 효율적으로 관리하기 위하여 4차원 시공간 객체에 대한 인덱스를 컴포넌트 개발 방법론을 적용하여 설계하였다. 그리고 다차원 인덱스를 이용하는 4D 데이터 제공자를 COM 기반의 OLE DB 인터페이스를 이용하여 구현하고 성능을 평가하였다.

  • PDF

다양한 분포의 데이터를 이용한 시계열 패턴 인덱스의 성능 비교

  • 김영인
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1998년도 공동추계학술대회 경제위기 극복을 위한 정보기술의 효율적 활용
    • /
    • pp.791-805
    • /
    • 1998
  • 음성데이타베이스 이미지 데이터베이스 등과 같은 응용에서 다차원 구조의 시계열 패턴을 효율적으로 처리하기 위한 인덱스 구조가 필요하다. 이러한 인덱스구조로 시계열 패턴 인덱스(9)가 제안되었다. 본 논문에서는 시계열 패턴 인덱스가 실제 응용에 적용가능한가를 판단하기 위하여 , 다양한 분포의 대량 데이터를 이용한 실험을 통한 성능을 비교한다. 성능 실험결과 저장시의 성능은 균일 분포에서 좋은 성능을 나타냈다. 질의 처리시의 성능은 모든 분포에서 좋은 후보 선택의 결과를 나타냈다.

다차원 데이터 처리를 위한 맵리듀스 기반의 그리드 파일 생성기법에 관한 연구 (A Study on The Grid File Construction Method based on MapReduce for Multidimensional Data Processing)

  • 정주혁;이상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.77-80
    • /
    • 2014
  • 최근 컴퓨터와 인터넷 이용의 확산, 스마트폰을 포함한 스마트 기기의 보급과 소셜 네트워크 이용의 확대, 위치 기반의 다양한 서비스 확대 등으로 처리해야 할 데이터 크기가 증가하는 추세이다. 이에 따라 대용량 데이터에 대한 처리가 큰 이슈로 떠오르고 있다. 그로 인해 대용량 데이터 처리를 위한 큰 규모의 분산 컴퓨팅 환경을 지원하는 프레임워크인 하둡이 개발되었으며 많은 기업에서 이를 활용하고 있는 추세이다. 하지만 대용량 데이터 중 영상, 의료, 센서 데이터 등 다차원 데이터 처리에 관한 연구는 미비한 상태이다. 기존의 다차원 데이터 처리를 위해 다양한 다차원 인덱스가 제안되었지만, 대용량 다차원 데이터 처리는 단일머신에서는 비효율적인 단점이 있다. 본 논문에서는 다차원 인덱스 기법인 그리드 파일을 하둡의 분산 병렬 처리 모델인 맵리듀스를 기반으로 생성하는 기법을 제안한다. 또한 앞서 생성된 그리드 파일을 가지고 맵리듀스를 이용한 질의처리 방법을 제안 한다. 이로 인해 단일머신에서의 그리드 파일 생성을 병렬처리 함으로써 생성 시간을 단축시키고 질의 처리 또한 맵리듀스를 이용하여 병렬 처리 함으로써 질의 시간 단축을 예상한다.

메인 메모리 다차원 인덱스를 위한 효율적인 MBR 압축 기법 (An Efficient MBR Compression Technique for Main Memory Multi-dimensional Indexes)

  • 김정준;강홍구;김동오;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제9권2호
    • /
    • pp.13-23
    • /
    • 2007
  • 최근 실시간 서비스의 요구 사항을 갖는 위치 기반 서비스와 텔레매틱스 서비스를 효율적으로 제공하기 위해서 공간 메인 메모리 DBMS에 대한 관심이 급증하고 있다. 이러한 공간 메인 메모리 DBMS에서 기존의 디스크 기반 다차원 인덱스들을 메인 메모리에 최적화하기 위해 엔트리 크기를 줄여 캐시 접근 실패를 최소화한 다차원 인덱스 구조들이 제안되고 있다. 그러나 엔트리 크기를 줄이기 위하여 부모 노드의 MBR을 기준으로 압축하거나 중복된 MBR을 제거하기 때문에 인덱스 갱신 시 MBR 재구성 비용이 증가하고 인덱스 검색 시 효율이 떨어지는 문제점이 있다. 본 논문에서는 MBR 재구성 비용을 줄이기 위하여 넓은 분포의 경우와 좁은 분포의 경우로 나누어 압축 기준점을 다르게 적용하는 RSMBR(Relative-Sized MBR) 압축 기법을 제시하였다. RSMBR 압축 기법은 넓은 분포일 경우 부모 노드 확장 MBR의 좌하점을 기준으로 압축하고, 좁은 분포일 경우 전체 MBR을 일정 크기의 셀로 나누고 각 셀의 좌하점을 기준으로 압축한다. 또한 인덱스 검색 시 검색 비용을 줄이기 위하여 상대 좌표와 크기를 이용하여 MBR을 압축한다. 마지막으로, 본 논문에서는 실제 데이타를 통한 성능 평가를 수행하여 RSMBR 압축 기법의 우수성도 입증하였다.

  • PDF