• 제목/요약/키워드: Bitmap Join Index

검색결과 5건 처리시간 0.018초

A Data Mining Approach for Selecting Bitmap Join Indices

  • Bellatreche, Ladjel;Missaoui, Rokia;Necir, Hamid;Drias, Habiba
    • Journal of Computing Science and Engineering
    • /
    • 제1권2호
    • /
    • pp.177-194
    • /
    • 2007
  • Index selection is one of the most important decisions to take in the physical design of relational data warehouses. Indices reduce significantly the cost of processing complex OLAP queries, but require storage cost and induce maintenance overhead. Two main types of indices are available: mono-attribute indices (e.g., B-tree, bitmap, hash, etc.) and multi-attribute indices (join indices, bitmap join indices). To optimize star join queries characterized by joins between a large fact table and multiple dimension tables and selections on dimension tables, bitmap join indices are well adapted. They require less storage cost due to their binary representation. However, selecting these indices is a difficult task due to the exponential number of candidate attributes to be indexed. Most of approaches for index selection follow two main steps: (1) pruning the search space (i.e., reducing the number of candidate attributes) and (2) selecting indices using the pruned search space. In this paper, we first propose a data mining driven approach to prune the search space of bitmap join index selection problem. As opposed to an existing our technique that only uses frequency of attributes in queries as a pruning metric, our technique uses not only frequencies, but also other parameters such as the size of dimension tables involved in the indexing process, size of each dimension tuple, and page size on disk. We then define a greedy algorithm to select bitmap join indices that minimize processing cost and verify storage constraint. Finally, in order to evaluate the efficiency of our approach, we compare it with some existing techniques.

관계형 데이터 웨어하우스의 복잡한 질의의 처리 효율 향상을 위한 비트맵 조인 인덱스 선택에 관한 연구 (A Study on Selecting Bitmap Join Index to Speed up Complex Queries in Relational Data Warehouses)

  • 안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.1-14
    • /
    • 2012
  • 데이터 웨어하우스는 크기가 방대하기 때문에 인덱스의 선택은 질의어 처리의 효율성에 상대한 영향을 준다. 인덱스는 질의 처리 비용을 줄이지만, 그것이 차지하는 기억 영역과 데이터베이스의 변경에 따른 보수라는 비용이 수반된다. 데이터 웨어하우스에서 하나의 사실 테이블과 여러 개의 차원 테이블 사이의 조인을 행하는 스타 조인 질의어와 차원 테이블의 선택을 최적화하기 위해서 비트맵 조인 인덱스가 잘 적용된다. 비트맵 조인 인덱스는 이진수로 표현되기 때문에 저장 비용은 적게 들지만 인덱스 할 후보 속성들이 많이 생성되기 때문에 그 중에서 인덱스 할 속성들을 선택하는 일은 어려운 과제가 된다. 인덱스 선택은 일단 후보 속성들의 개수를 축소하고, 그 중에서 인덱스를 선택하게 된다. 본 논문에서는 데이터 마이닝 방법을 사용해서 비트 맵 조인 인덱스 선택 문제에서 후보 속성들의 개수를 축소하는 것을 해결한다. 질의어에 있는 속성들의 빈도에 기준해서 후보 속성들의 개수를 감소시키는 기존의 방법에 비해서 본 논문은 속성들의 빈도를 사용함과 동시에 차원 테이블의 크기, 차원 테이블의 튜플 크기, 디스크의 페이지 크기 등을 고려한다. 그리고 데이터마이닝 기법으로 빈발 항목집합을 마이닝하여 후보 속성들의 개수를 효과적으로 줄인다. 후보 속성집합들의 비트 맵 조인 인덱스에 비용함수를 적용해서 최소의 비용과 기억 영역 제한에 적합한 속성집합들의 비트 맵 조인 인덱스를 구한다. 본 논문의 방법의 효율성을 평가하기 위해서 기존의 방법들과 비교 분석을 한다.

클라우드에서 SPARQL 질의 처리를 위한 조인 성능 향상 (Improving Join Performance for SPARQL Query Processing in the Clouds)

  • 최규진;손윤희;이규철
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.700-709
    • /
    • 2016
  • 최근 LOD 데이터의 급격한 증가로 인해 기존의 싱글 머신 시스템을 통한 대량의 LOD 처리는 성능의 한계를 가진다. 이러한 문제를 해결하기 위해 최근 연구들은 분산, 병렬 프레임워크인 맵리듀스를 활용한다. 하지만 맵리듀스를 통해 SPARQL 질의를 처리하기 위해서는 다수의 맵리듀스 잡이 필요하고, 이로 인해 추가적인 비용이 발생하게 된다. 또한, 조인을 위해 불필요한 데이터를 처리해야 하는 문제가 있다. 본 논문에서는 이를 해결하기 위해 SPARQL 질의 처리 시 발생하는 맵리듀스 잡의 개수를 줄이고 Bitmap을 기반으로 조인 인덱스를 작성 후 이용하여 불필요한 데이터 처리를 최소화 하는 방법을 제안한다.

관계형 OLAP 데이터 웨어하우징 환경에서 조인과 집계함수를 포함하는 질의의 효율적인 처리 (Efficient Processin of Queries with Joints and Aggregate Functions in ROLAP Data Warehousing Environment)

  • 김진호;김윤호;김상욱
    • 전자공학회논문지CI
    • /
    • 제39권5호
    • /
    • pp.1-10
    • /
    • 2002
  • 대용량의 데이터가 저장되는 데이터 웨어하우징 환경에서 조인이나 집계 함수와 같은 고비용의 연산의 효율적인 처리는 매우 중요하다. 본 논문에서는 집계 함수(aggregate function)와 조인(join)이 모두 포함된 질의를 처리하는 새로운 기법을 제안한다. 제안하는 기법은 먼저 차원 테이블(dimension table)을 미리 그루핑한 후, 비트맵 조인 인덱스(bitmap join index)를 이용하여 조인을 처리하는 방식을 사용한다. 이 결과, 사실 테이블(fact table)만을 접근하여 집계 함수를 처리함으로써 기존 기법이 가지는 성능 저하의 문제점을 해결할 수 있다. 기존 기법과 제안하는 기법에 대한 비용 모델(cost model)을 정립하고, TPC-H 벤치마크를 기반으로 하는 다양한 시뮬레이션을 수행함으로써 제안된 기법의 우수성을 규명한다.

데이터 웨어하우징 환경에서 질의 처리를 위한 새로운 기법 (A New Method for Processing Queries in Data Warehouse Environment)

  • 김윤호;김진호;감상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.121-123
    • /
    • 2001
  • 대용량의 데이터가 저장되는 데이터 웨어하우징 환경에서는 조인이나 집계 함수와 같은 고비용의 연산의 효율적인 처리는 매우 중요하다. 본 논문에서는 집계 함수(aggregate function)와 조인이 모두 포함된 질의를 처리하는 새로운 기법을 제안한다. 제안하는 기법은 먼저 차원 테이블(dimension table)을 미리 그룹핑한 후, 비트맵 조인 인덱스(bitmap join index)를 이용하여 조인을 처리하는 방식을 사용한다. 이 결과, 사실 테이블만을 접근하여 집계 함수를 처리함으로써 기존 기법이 가지는 성능 저하의 문제점을 해결할 수 있다. 기존 기법과 제안하는 기법에 대한 비용 모델(cost model)을 정립하고, 이를 기반으로 시뮬레이션을 수행함으로써 제안된 기법의 우수성을 규명한다.

  • PDF