Effective Parallel Hash Join Algorithm Based on Histoftam Equalization in the Presence of Data Skew

데이터 편재 하에서 히스토그램 변환기법에 기초한 효율적인 병렬 해쉬 결합 알고리즘

  • 박웅규 (서원대학교 전자계산학과) ;
  • 최황규 (강원대학교 컴퓨터공학과) ;
  • 김탁곤 (한국과학기술원 전기 및 전자공학과)
  • Published : 1997.02.01

Abstract

In this pater, we first propose a data distribution framework to resolve load imbalance and bucket oerflow in parallel hash join.Using the histogram equalization technique, the framework transforms a histogram of skewed data to the desired uniform distribution that corresponds to the relative computing power of node processors in the system.Next we propose an effcient parallel hash join algorithm for handing skwed data based on the proposed data distribution methodology.For performance comparison of our algorithm with other hash join algorithms.we perform similation experiments and actual exeution on COREDB database computer with 8-node hyperube architecture. In these experiments, skwed data distebution of the join atteibute is modeled using a Zipf-like distribution.The perfomance studies undicate that our algorithm outperforms other algorithms in the skewed cases.

본 논문은 병렬 해쉬 결합 연산에서 데이터 분산 시에 나타나는 부하의 불균형과 버켓 오버플로우를 해결하기 위한 새로운 데이터 분산 방법을 제안한다. 제안된 데이터 분산 방법은 편재된 분포를 갖는 데이터들을 히스토프로그램 변환 기법에 의하여 각 노드의 성능에 따라 균일하게 분산 시킨다. 또한 본 논문에서는 이 분산 방법을 병렬 해쉬 결합 연산에 적용하여 데이터 편재에 따른 성능 저하를 해결할 수 있는 알고리즘을 제안하고, 기존의 병렬 결합 알고리즘들과의 성능 비교를 위하여 모의 실험결과COREDB 병렬 데이터베이스 컴퓨터 상에서의 실험을 통하여 편재된 분포를 갖는 데이터에 대하여 성능 분석을 수행한다. 실험 결과에서 편재된 데이터에 대하여 기존의 다른 결합 연산 알고리즘보다 제안된 알고리즘이 우수한 성능을 나타냄을 보인다.

Keywords