• 제목/요약/키워드: Hash Join Algorithm

검색결과 18건 처리시간 0.024초

Performance Study of the Index-based Parallel Join

  • Jeong, Byeong-Soo;Edward Omiecinski
    • 정보기술과데이타베이스저널
    • /
    • 제2권2호
    • /
    • pp.87-109
    • /
    • 1995
  • The index file has been used a access database records effectively. The join operation in a relational database system requires a large execution time, especially in the case of handling large size tables. If the indexes are available on the joining attributes for both relations involved in the join and the join selectivity is relatively small, we can improve the execution time of the join operation. In this paper. we investigate the performance trade-offs of parallel index-based join algorithms where different indexing schemes are used. We also present a comparison of our index-based parallel join algorithms with the hash-based parallel join algorithm.

  • PDF

A Data Mining Approach for Selecting Bitmap Join Indices

  • Bellatreche, Ladjel;Missaoui, Rokia;Necir, Hamid;Drias, Habiba
    • Journal of Computing Science and Engineering
    • /
    • 제1권2호
    • /
    • pp.177-194
    • /
    • 2007
  • Index selection is one of the most important decisions to take in the physical design of relational data warehouses. Indices reduce significantly the cost of processing complex OLAP queries, but require storage cost and induce maintenance overhead. Two main types of indices are available: mono-attribute indices (e.g., B-tree, bitmap, hash, etc.) and multi-attribute indices (join indices, bitmap join indices). To optimize star join queries characterized by joins between a large fact table and multiple dimension tables and selections on dimension tables, bitmap join indices are well adapted. They require less storage cost due to their binary representation. However, selecting these indices is a difficult task due to the exponential number of candidate attributes to be indexed. Most of approaches for index selection follow two main steps: (1) pruning the search space (i.e., reducing the number of candidate attributes) and (2) selecting indices using the pruned search space. In this paper, we first propose a data mining driven approach to prune the search space of bitmap join index selection problem. As opposed to an existing our technique that only uses frequency of attributes in queries as a pruning metric, our technique uses not only frequencies, but also other parameters such as the size of dimension tables involved in the indexing process, size of each dimension tuple, and page size on disk. We then define a greedy algorithm to select bitmap join indices that minimize processing cost and verify storage constraint. Finally, in order to evaluate the efficiency of our approach, we compare it with some existing techniques.

융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화 (Join Query Performance Optimization Based on Convergence Indexing Method)

  • 짜오티엔이;이용주
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.109-116
    • /
    • 2021
  • RDF(Resource Description Framework) 데이터 구조는 그래프로 모델링하기 때문에, 관계형 데이터베이스와 XML 기술의 기존 솔루션은 RDF 모델에 바로 적용하기 어렵다. 우리는 링크 데이터를 더욱 효과적으로 저장하고, 인덱스하고, 검색하기 위해 융합 인덱싱 방법을 제안한다. 이 방법은 HDD(Hard Disk Drive) 와 SSD(Solid State Drive) 디바이스에 기반한 하이브리드 스토리지 시스템을 사용하고, 불필요한 데이터를 필터하고 중간 결과를 정제하기 위해 분리된 필터 및 정제 인덱스 구조를 사용한다. 우리는 3개의 표준 조인 검색알고리즘에 대한 성능 비교를 수행했는데, 실험 결과 제안된 방법이 Quad와 Darq와 같은 다른 기존 방법들에 비해 뛰어난 성능을 보인다.

한정된 프로세서 환경에서 체이지 실행시간 동기화를 이용한 효율적인 다중 결합 (Efficient Multiple Joins using the Synchronization of Page Execution Time in Limited Processors Environments)

  • 이규옥;원영선;홍만표
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.732-741
    • /
    • 2001
  • 관계형 데이타베이스 시스템에서 결합 연산자는 데이타 베이스 절의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합 연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 수개되었다. 그 중 다중 해쉬 결합 질의의 처리를 위해 할당트리를 이용한 방법이 가장 우수한 것으로 알려져 와싸. 그러나 이 방법은 할당 트리의 각 노트에서 필연적인 지연이 발생되는데 이는 루플 실험단계에서 외부 릴레이션을 디스트로부터 페이지 단위로 읽는 비용과 이미 읽는 페이지에 대한 해쉬 결합 비용간의 실행시간 차이에 의해 발생하게 된다. 이는 페이지 실행시간 동기화 기법을 이용하여 할당 트라 한 노드에서의 실행시간을 줄일 수 있었다. 본 논문에서는 한 노드에서의 성능 개선 효과를 할당 트리 전체로 확장하여 전체 다중 해쉬 결합의 성능 분석을 수행하였으며 한정된 프로세서 환경 하에서 입력 릴레이션 수와 할당된 프로세서 수와의 관게에 따른 효율적인 다중 해쉬 결합 알고리즘을 제안하였다. 그리고 분석적 비용 모형을 세워 기존 방식과의 다양한 성늘 분석을 통해 비용 모형의 타당성을 입증하였다.

  • PDF

다중 윈도우 조인을 위한 튜플의 도착 순서에 기반한 효과적인 부하 감소 기법 (Effective Load Shedding for Multi-Way windowed Joins Based on the Arrival Order of Tuples on Data Streams)

  • 권태형;이기용;손진현;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권1호
    • /
    • pp.1-11
    • /
    • 2010
  • 최근 다중 데이터 스트림에 대한 연속 질의 처리에 관한 연구가 활발하게 진행되고 있다. 데이터 스트림에서 튜플들의 도착 속도가 폭증하여 시스템의 메모리 용량을 초과하는 경우, 일부 튜플을 버림으로써 시스템이 과부하 상태가 되지 않도록 하는 기법을 부하 감소(load shedding)라 한다. 본 논문에서는 다중 데이터 스트림에 대한 다중 윈도우 조인을 위한 효과적인 부하 감소 기법을 제안한다. 기존의 부하 감소 기법들은 버릴 튜플을 선택하기 위해 튜플들의 조인 키 값을 이용하여 각 튜플이 생성할 조인 결자 개수(생산성)를 예측하고, 생산성이 최소가 되는 튜플을 버린다. 그러나 이러한 방법들은 조인 키 값이 다시 나타나지 않거나, 조인 키 값의 분포가 일정하게 유지되지 않는 경우 튜플들의 생산성을 올바르게 예측하기 어렵다. 본 논문은 이러한 경우를 위해 튜플들의 조인 키 값 대신, 튜플의 데이터 스트림에 대한 도착 순서를 사용하여 튜플들의 생산성을 예측하는 방법을 사용한다. 제안하는 방법은 조인 키 값으로 튜플들의 생산성을 예측하가 어려운 상황에서 튜플의 도착 순서를 통해 각 튜플의 생산성을 효과적으로 예측할 수 있도록 해준다. 다양한 실험과 분석을 통해 제안하는 새로운 부하 감소 기법이 기존 기법에 비해 더욱 효과적이고 효율적으로 부하를 감소시킬 수 있음을 보인다.

NUMA 구조 기반의 효율적인 해시 조인 알고리즘 (An efficient algorithm for hash-join on NUMA architecture)

  • 최성준;김홍연;민준기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.300-303
    • /
    • 2018
  • 최근, 불균일 기억 장치 접근 (NUMA) 구조가 부각됨에 따라 NUMA 구조 기반의 관계 연산 기법들이 제안되고 있다. 본 논문에서는 NUMA 구조 기반의 효율적인 해시 조인 기법을 제안한다. NUMA 구조에서 조인 속성 값의 분포가 편중된 릴레이션들 간의 조인은 NUMA 노드들 간의 부하 불균형과 과도한 원격 메모리 접근을 발생시킬 수 있다. 제안 기법에서는 근사 히스토그램을 이용하여 조인 속성 값의 분포를 파악하고, 이를 기반으로 원격 메모리 접근을 줄이는 전달 방안을 제안한다. 실험에서는 입력 릴레이션들에 대해 조인 속성 값의 분포를 변화시키면서 제안 기법에 대한 성능을 평가한다.

동적 프로세서 할당 기법을 이용한 파이프라인 해쉬 결합 알고리즘 (A Pipelined Hash Join Algorithm using Dynamic Processor Allocation)

  • 원영선;이동련;이규옥;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권1_2호
    • /
    • pp.1-10
    • /
    • 2001
  • 본 논문에서는 부쉬 트리를 할당 트리로 변환한 후 결합 연산을 수행하면서 실제 실행시간을 동적으로 계산하고 그 결과에 의해 실시간에 프로세서를 할당하는 동적 프로세서 할당 기법을 이용한 파이프라인 해쉬 결합 알고리즘을 제안하였다. 프로세서를 할당하는 과정에서 초기 릴레이션의 기본 정보만을 이용하여 미리 프로세서를 할당하는 기존의 정적 프로세서 할당 기법은 정확한 실행시간을 예측할 수 없었다. 따라서 본 논문에서는 할당 트리 각 노드의 실행결과를 포함한 결합 과정 중의 정보를 다음 노드의 실행시간에 충분히 반영하는 동적 프로세서 할당 기법을 제안하였으며, 이로써 프로세서를 효율적으로 분배하고 전체적인 실행시간을 최소화하였다. 또한 전체적인 질의 실행시간을 줄이기 위하여 결합 가능성이 없는 튜플들을 제거한 후 결합 연산을 수행할 수 있도록 해쉬 필터 기법을 이용하였다. 결합 연산을 수행하기에 앞서 모든 결합 속성 값에 대해 해쉬 필터를 생성하는 정적 필터 기법은 모든 결합 연산의 중간 결과로 발생할 수 있으나 최종 결과 릴레이션의 튜플이 될 수 없는 튜플들까지도 모두 추출이 가능하다. 따라서 각각의 결합 연산 직전에 해쉬 필터를 생성하는 동적 필터 기법에 비해 결합 가능성이 없는 튜플을 최대한 제거할 수 있으며 이로써 결합 연산의 실행비용을 크게 줄일 수 있었다.

  • PDF

소비자 프라이버시 보호에 관한 다항식 기반 연구 (A Polynomial-based Study on the Protection of Consumer Privacy)

  • 박연희;김민지
    • 한국IT서비스학회지
    • /
    • 제19권1호
    • /
    • pp.145-158
    • /
    • 2020
  • With the development and widespread application of online shopping, the number of online consumers has increased. With one click of a mouse, people can buy anything they want without going out and have it sent right to the doors. As consumers benefit from online shopping, people are becoming more concerned about protecting their privacy. In the group buying scenario described in our paper, online shopping was regarded as intra-group communication. To protect the sensitive information of consumers, the polynomial-based encryption key sharing method (Piao et al., 2013; Piao and Kim, 2018) can be applied to online shopping communication. In this paper, we analyze security problems by using a polynomial-based scheme in the following ways : First, in Kamal's attack, they said it does not provide perfect forward and backward secrecy when the members leave or join the group because the secret key can be broken in polynomial time. Second, for simultaneous equations, the leaving node will compute the new secret key if it can be confirmed that the updated new polynomial is recomputed. Third, using Newton's method, attackers can successively find better approximations to the roots of a function. Fourth, the Berlekamp Algorithm can factor polynomials over finite fields and solve the root of the polynomial. Fifth, for a brute-force attack, if the key size is small, brute force can be used to find the root of the polynomial, we need to make a key with appropriately large size to prevent brute force attacks. According to these analyses, we finally recommend the use of a relatively reasonable hash-based mechanism that solves all of the possible security problems and is the most suitable mechanism for our application. The study of adequate and suitable protective methods of consumer security will have academic significance and provide the practical implications.