• Title/Summary/Keyword: 해시조인

Search Result 19, Processing Time 0.037 seconds

Block Allocation Method for Efficiently Managing Temporary Files of Hash Joins on SSDs (SSD상에서 해시조인 임시 파일의 효과적인 관리를 위한 블록 할당 방법)

  • Joontae, Kim;Sangwon, Lee
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.11 no.12
    • /
    • pp.429-436
    • /
    • 2022
  • Temporary files are generated when the Hash Join is performed on tables larger than the memory. During the join process, each temporary file is deleted sequentially after it completes the I/O operations. This paper reveals for that the fallocate system call and file deletion-related trim options significantly impact the hash join performance when temporary files are managed on SSDs rather than hard disks. The experiment was conducted on various commercial and research SSDs using PostgreSQL, a representative open-source database. We find that it is possible to improve the join performance up to 3 to 5 times compared to the default combination depending on whether fallocate and trim options are used for temporary files. In addition, we investigate the write amplification and trim command overhead in the SSD according to the combination of the two options for temporary files.

Hash Join Performance on Flash SSD in OLTP Environment (OLTP 환경에서의 플래시 SSD 기반 해시 조인 성능에 대한 고찰)

  • Koo, Dong-Hyun;Sim, Jun-Hyeon;Kim, Kang-Nyeon;Lee, Sang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1291-1293
    • /
    • 2011
  • OLTP(online transaction processing) 환경은 다수의 사용자의 질의 및 요청을 처리하기 위한 데이터베이스 환경으로서 신속하고 정확한 질의 처리가 요구된다. 조인 연산은 이러한 데이터베이스 관리 시스템에서 자주 처리하게 되는 질의 가운데 하나이며, 그 중에서도 해시 조인은 현재 가장 좋은 성능을 보인다고 알려진 조인 알고리즘이다. 이 논문에서는 직접 해시 조인을 구현하여 읽기 및 쓰기 버퍼의 크기가 제한되었을 때 SSD와 하드디스크에서 해시 조인의 성능을 비교하고, 나아가 다수의 사용자가 동시에 여러 개의 조인 연산을 요청했을 때의 상황을 시뮬레이션 하여 SSD에서의 최적화 방안을 생각해본다.

An Efficient M-way Stream Join Algorithm Exploiting a Bit-vector Hash Table (비트-벡터 해시 테이블을 이용한 효율적인 다중 스트림 조인 알고리즘)

  • Kwon, Tae-Hyung;Kim, Hyeon-Gyu;Lee, Yu-Won;Kim, Myoung-Ho
    • Journal of KIISE:Databases
    • /
    • v.35 no.4
    • /
    • pp.297-306
    • /
    • 2008
  • MJoin is proposed as an algorithm to join multiple data streams efficiently, whose characteristics are unpredictably changed. It extends a symmetric hash join to handle multiple data streams. Whenever a tuple arrives from a remote stream source, MJoin checks whether all of hash tables have matching tuples. However, when a join involves many data streams with low join selectivity, the performance of this checking process is significantly influenced by the checking order of hash tables. In this paper, we propose a BiHT-Join algorithm which extends MJoin to conduct this checking in a constant time regardless of a join order. BiHT-Join maintains a bit-vector which represents the existence of tuples in streams and decides a successful/unsuccessful join through comparing a bit-vector. Based on the bit-vector comparison, BiHT-Join can conduct a hash join only for successful joining tuples based on this decision. Our experimental results show that the proposed BiHT-Join provides better performance than MJoin in the processing of multiple streams.

A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join (다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법)

  • Mun, Jin-Gyu;Jin, Seong-Il;Jo, Seong-Hyeon
    • Journal of KIISE:Databases
    • /
    • v.29 no.3
    • /
    • pp.180-192
    • /
    • 2002
  • We investigate the effect of the data skew of join attributes on the performance of a pipelined multi-way hash join method, and propose two new harsh join methods in the shared-nothing multiprocessor environment. The first proposed method allocates buckets statically by round-robin fashion, and the second one allocates buckets dynamically via a frequency distribution. Using harsh-based joins, multiple joins can be pipelined to that the early results from a join, before the whole join is completed, are sent to the next join processing without staying in disks. Shared nothing multiprocessor architecture is known to be more scalable to support very large databases. However, this hardware structure is very sensitive to the data skew. Unless the pipelining execution of multiple hash joins includes some dynamic load balancing mechanism, the skew effect can severely deteriorate the system performance. In this parer, we derive an execution model of the pipeline segment and a cost model, and develop a simulator for the study. As shown by our simulation with a wide range of parameters, join selectivities and sizes of relations deteriorate the system performance as the degree of data skew is larger. But the proposed method using a large number of buckets and a tuning technique can offer substantial robustness against a wide range of skew conditions.

Implementing Hash Join through Prefetching on Mulit-core Architecture (멀티코어 아키텍처에서 프리페칭 기법을 통한 해시조인 구현)

  • Shin, Jae-Hyun;Kim, Jae-Myung;Lee, Sang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.1109-1112
    • /
    • 2012
  • 해시 조인 알고리즘 성능 개선에 관한 연구는 이미 많은 연구자에 의해 수행된 바 있다. 새로운 알고리즘을 추가하는 연구에서부터 컴퓨팅 환경에 맞는 최적화 솔루션을 제시하는 연구에 이르기까지 해시 조인의 성능을 향상시키는 연구는 다양하게 찾아 볼 수 있었다. 이 논문에서는 2004년 ICDA에서 발표한 [1]의 연구를 최신의 컴퓨팅 환경에서도 똑같이 작동하는지 확인해 보고자 한다.

A Pipelined Hash Join Method for Load Balancing (부하 균형 유지를 고려한 파이프라인 해시 조인 방법)

  • Moon, Jin-Gue;Park, No-Sang;Kim, Pyeong-Jung;Jin, Seong-Il
    • The KIPS Transactions:PartD
    • /
    • v.9D no.5
    • /
    • pp.755-768
    • /
    • 2002
  • We investigate the effect of the data skew of join attributes on the performance of a pipelined multi-way hash join method, and propose two new hash join methods with load balancing capabilities. The first proposed method allocates buckets statically by round-robin fashion, and the second one allocates buckets adaptively via a frequency distribution. Using hash-based joins, multiple joins can be pipelined so that the early results from a join, before the whole join is completed, are sent to the next join processing without staying on disks. Unless the pipelining execution of multiple hash joins includes some load balancing mechanisms, the skew effect can severely deteriorate system performance. In this paper, we derive an execution model of the pipeline segment and a cost model, and develop a simulator for the study. As shown by our simulation with a wide range of parameters, join selectivities and sizes of relations deteriorate the system performance as the degree of data skew is larger. But the proposed method using a large number of buckets and a tuning technique can offer substantial robustness against a wide range of skew conditions.

Join processing using Hash Index based on Ring Queue Buffer in DSMS (DSMS 에서 환형 큐 버퍼 기반의 해시 색인을 이용한 조인 기법)

  • Sang-Ki Kim;Yan Li;Sung-Ha Baek;Dong-Wook Lee;Gyoung-Bae Kim;Hae-Young Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.389-392
    • /
    • 2008
  • 유비쿼터스 환경에서 센서 데이터는 빠르고 연속적인 데이터 스트림 형태로 전송된다. 이러한 개별적인 데이터 스트림 정보를 연관되어 처리하기 위해 조인 연산이 필요하다. LWO, SWF 와 같은 기존 기법들은 Nested Loop Join 을 이용해 데이터 스트림 환경에서 조인 알고리즘을 제시하였다. 하지만 Nested Loop Join 을 사용하기 때문에 슬라이딩 윈도우의 크기에 따라 처리 속도가 영향을 많이 받고 XJoin 은 디스크 I/O 추가 비용이 필요하다. 제안 기법은 환형 큐 버퍼 기반의 해시 색인을 이용한 조인 기법은 환형 큐를 이용하여 데이터의 삽입, 삭제를 관리하고 해시 색인을 이용해 조인 연산을 처리 하여 제안 기법은 기존의 기법 보다 조인 연산을 보다 효율적으로 처리 할 수 있다.

A Join Processing Technique using Sorted Index Scan (정렬 인덱스 스캔을 이용한 조인기법)

  • Lee, Jong-Baek;Kang, Woon-Hak;Lee, Sang-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.16-18
    • /
    • 2012
  • 플래시메모리는 빠른 성능 및 저전력 등 여러 가지 장점 덕분에 저장장치 시장에서 최근 빠른 속도로 하드디스크를 대체해 가고 있다. 특히, 엔터프라이즈 데이터베이스 분야에서 가격 대비 성능 면에서 효과가 높기 때문에 더 주목을 받고 있다. 데이터베이스 분야에서 조인은 가장 자주 사용되는 연산으로 그 성능 개선이 중요한데, 본 논문에서는 플래시메모리를 위한 새로운 조인 처리의 한 방법으로 정렬 인덱스 스캔 방식을 활용하는 방안은 제시한다. 정렬 인덱스 스캔은 최근 플래시메모리 상에서 테이블에 대한 접근 방식의 하나로, 조인결과의 정렬을 고려할 경우, 기존의 전체 테이블 스캔에 기반을 둔 해시조인이나 정렬합병조인과 비교했을 때 상당한 성능 개선을 보장한다.

An efficient algorithm for hash-join on NUMA architecture (NUMA 구조 기반의 효율적인 해시 조인 알고리즘)

  • Choe, Seongjun;Kim, Hongyeon;Min, Jun-Ki
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.300-303
    • /
    • 2018
  • 최근, 불균일 기억 장치 접근 (NUMA) 구조가 부각됨에 따라 NUMA 구조 기반의 관계 연산 기법들이 제안되고 있다. 본 논문에서는 NUMA 구조 기반의 효율적인 해시 조인 기법을 제안한다. NUMA 구조에서 조인 속성 값의 분포가 편중된 릴레이션들 간의 조인은 NUMA 노드들 간의 부하 불균형과 과도한 원격 메모리 접근을 발생시킬 수 있다. 제안 기법에서는 근사 히스토그램을 이용하여 조인 속성 값의 분포를 파악하고, 이를 기반으로 원격 메모리 접근을 줄이는 전달 방안을 제안한다. 실험에서는 입력 릴레이션들에 대해 조인 속성 값의 분포를 변화시키면서 제안 기법에 대한 성능을 평가한다.

Virtual Directory Extendible Hash index: An Economic Hash Index Using New Directory Structure (가상 디렉토리 확장 해시 색인: 확장 해싱에서의 새로운 디렉토리 구조를 이용한 저비용 해시 색인)

  • Park, Sang-Keun;Park, Soon-Young;Kim, Myung-Keun;Bae, Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1493-1496
    • /
    • 2003
  • 데이터베이스 관계 연산자 중 프로젝션(projection)과 집단 연산(aggregate function)시 사용되는 GROUP BY절, 그리고 동등 조인(equi join)에 대한 질의 처리는 중복된 튜플 중복된 GROUP BY 필드, 조인 중 발생하는 임시결과에 대한 제거나 집단 연산, 임시 결과의 저장을 위해 정렬이나 해싱 기반 알고리즘을 적용하고 있다. 이 중 해싱 기반 알고리즘은 데이터에 대한 직접적인 접근 방법과 정렬비용이 없다는 장점으로 인해 자주 사용하게 된다. 그러나 이러한 해싱(extendible hashing)[1] 기반 알고리즘은 키 값이 저장되는 버켓(bucket) 페이지의 넘침(overflow)으로 인해 분할(split)이 발생하는 경우, 분할을 야기시킨 버켓 페이지에 대한 정보를 제외한 동일한 내용의 기존 디렉토리 구조를 배로 확장해야 하는 공간 확장과, 확장된 디렉토리 구조의 유지를 위해 많은 비용을 소모하게 된다. 본 논문에서는 다량의 데이터에 대한 접근 기법과 디렉토리 구조의 저장공간, 유지 비용 절감 및 중복 해시 값을 지니는 데이터를 처리하기위한 해시 색인인 가상 디렉토리 확장 해시 색인을 제안한다. 가상 디렉토리 확장 해시 색인은 디렉토리 구조를 다단계 구조로 유지함으로써, 넓은 저장 공간을 필요로 하는 다량의 데이터에 대한 접근경로 문제를 해결하였고, 가상 디렉토리 레벨이라는 새로운 구조를 통해, 기존 디렉토리 구조의 공간 낭비 및 유지 비용을 최소화 시켰으며, 버켓 페이지를 리스트(list) 구조로 유지함으로써 중복 해시 값에 의한 디렉토리 구조의 연쇄적 분할 문제를 해결하였다.

  • PDF