• Title/Summary/Keyword: 해시조인

Search Result 19, Processing Time 0.041 seconds

Efficient Binary Join Processing for Large Data Streams (대용량 데이터 스트림을 처리하기 위한 효율적 이진 조인 처리 기법)

  • Park, Hong-Kyu;Lee, Won-Suk
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2008.06a
    • /
    • pp.189-192
    • /
    • 2008
  • 최근에 제한된 데이터 셋보다 센서 데이터 처리, 웹 서버 로그나 전화 기록과 같은 다양한 트랜잭션 로그 분석등과 관련된 대용량 데이터 스트림을 실시간으로 처리하는 것에 많은 관심이 집중되고 있으며, 특히 데이터 스트림의 조인 처리에 대한 관심이 증가하고 있다. 본 논문에서는 조인 연산을 빠르게 처리하기 위한 효율적인 해시 구조와 조인 방법에 대해서 연구하고 다양한 환경에서 제안 방법을 검증한다.

  • PDF

A Comparative Study of PRAM-based Join Algorithms (PRAM 기반의 조인 알고리즘 성능 비교 연구)

  • Choi, Yongsung;On, Byung-Won;Choi, Gyu Sang;Lee, Ingyu
    • Journal of KIISE
    • /
    • v.42 no.3
    • /
    • pp.379-389
    • /
    • 2015
  • With the advent of non-volatile memories such as Phase Change Memory (PCM or PRAM) and Magneto Resistive RAM (MRAM), active studies have been carried out on how to replace Dynamic Random-Access Memory (DRAM) with PRAM. In this paper, we study both endurance and performance issues of existing join algorithms that are based on PRAM-based computer systems and have been widely used until now: Block Nested Loop Join, Sort-Merge Join, Grace Hash Join, and Hybrid Hash Join. Our experimental results show that the existing join algorithms need to be redesigned to improve both the endurance and performance of PRAMs. To the best of our knowledge, this is the first research to scientifically study the results of the four join algorithms running on PRAM-based systems. In this work, our main contribution is the modeling and implementation of a PRAM-based simulator for a comparative study of the existing join algorithms.

Adaptive Spatial Join Method in Distributed Spatial Database System (분산 공간 데이터베이스 시스템에서의 적응적 공간 조인 기법)

  • 이재훈;김호석;이재동;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.169-171
    • /
    • 2003
  • 네트워크의 빠른 발전으로 인해 분산된 공간 데이터의 질의 처리 연구가 활발히 진행되었다. 하지만 이런 질의 처리 환경에서는 질의 처리의 최적화를 위한 정확한 정보를 수집하기 어렵고 네트워크 상태의 불확실성으로 인해 데이터의 전송 상태를 예측하기가 힘들다. 이런 동적인 환경에 적응하기 위해서는 기존의 공간 조인 기법을 수정할 필요가 생겼다. 특히 기존의 공간 조인 기법은 처리 방식이 비대칭적(asymmetric)이기 때문에 데이터 전송의 지연으로 인해 처리가 잠시 중단되거나 빠른 응답 시간을 보장할 수 없다. 본 논문에서는 분산 공간 데이터베이스에서의 공간 조인의 문제점을 해결하기 위해서 대칭적인 해시 공간 조인을 사용하는 적응적 공간 조인 기법을 제안한다. 제안된 기법은 초기의 전송된 데이터들을 조인하여 조인 결과를 빠르게 보여주며 데이터 전송의 지연 시에는 이미 전송된 데이터 중 조인되지 않은 객체들을 조인함으로써 지속적으로 조인을 수행한다.

  • PDF

Reducing Cache Misses in Hash Join Probing Phase By Pre-sorting Strategy (정렬을 통한 해시 조인 탐색 단계에서의 캐시미스 감소 기법)

  • Oh, Gi Hwan;Kim, Jae Myung;Kang, Woon Hak;Lee, Sang Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.1131-1133
    • /
    • 2012
  • 메모리 가격이 저렴해 짐에 따라 대용량의 데이터베이스 연산이 메모리 안에서 처리될 수 있다. 그에 반해 메모리의 접근속도는 과거에 비해 크게 향상되지 않았기 때문에, 효율적인 캐시 활용이 전체 성능을 결정하는 중요한 요소가 된다. 멀티코어 환경에서 효율적 캐시와 높은 동시성을 모두 만족시키기는 쉽지 않다. 이 논문에서는 알려진 메모리 기반 해시 알고리즘을 비교하고, 각각에 대해 탐색 단계에서 조인 키를 기준으로 정렬 알고리즘을 적용하여 수행 시간과 캐시 미스 감소를 비교한다.

An Improved Kademlia Protocol considering Available Bandwidth and Physical Distance in the Real-Time Environment (실시간 환경에서 가용 대역폭과 거리를 고려한 개선된 Kademlia 프로토콜)

  • Park, Jae-Wan;Maeng, Ju-Hyun;Lee, Dong-Hyuk;Joe, In-Whee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.56-59
    • /
    • 2019
  • 분산 해시 테이블은 {Key-Value} 형태의 해시 테이블을 시스템 내 노드들이 나누어 가지는 분산 시스템이다. 분산 해시 테이블 중 Kademlia는 Binary Tree 구조를 통해 노드 확장성을 가지고 XOR Metric을 이용하여 빠른 노드 탐색으로 다양한 분야에서 활용되고 있다. 하지만 노드 탐색 시 실제 상황을 배제하고 논리적인 거리만을 고려하여 라우팅 경로를 설정한다는 문제점을 가진다. 본 연구에서는 이 문제를 해결하기 위해 노드 탐색 시 노드 간의 대역폭과 물리적 거리를 고려하여 라우팅 테이블을 생성하는 Kademlia의 효율적인 노드 탐색 기법을 제안한다. 기존의 Kademlia와 유사한 수치의 Lookup Success Ratio와 Lookup Overhead Rates를 보이지만, End-to-End Delay가 감소한 것을 시뮬레이션을 통해 확인하였다.

Join Operation of Parallel Database System with Large Main Memory (대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산)

  • Park, Young-Kyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.12 no.3
    • /
    • pp.51-58
    • /
    • 2007
  • The shared-nothing multiprocessor architecture has advantages in scalability, this architecture has been adopted in many multiprocessor database system. But, if the data are not uniformly distributed across the processors, load will be unbalanced. Therefore, the whole system performance will deteriorate. This is the data skew problem, which usually occurs in processing parallel hash join. Balancing the load before performing join will resolve this problem efficiently and the whole system performance can be improved. In this paper, we will present an algorithm using merit of very large memory to reduce disk access overhead in performing load balancing and to efficiently solve the data skew problem. Also, we will present analytical model of our new algorithm and present the result of some performance study we made comparing our algorithm with the other algorithms in handling data skew.

  • PDF

Join Query Performance Optimization Based on Convergence Indexing Method (융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화)

  • Zhao, Tianyi;Lee, Yong-Ju
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.1
    • /
    • pp.109-116
    • /
    • 2021
  • Since RDF (Resource Description Framework) triples are modeled as graph, we cannot directly adopt existing solutions in relational databases and XML technology. In order to store, index, and query Linked Data more efficiently, we propose a convergence indexing method combined R*-tree and K-dimensional trees. This method uses a hybrid storage system based on HDD (Hard Disk Drive) and SSD (Solid State Drive) devices, and a separated filter and refinement index structure to filter unnecessary data and further refine the immediate result. We perform performance comparisons based on three standard join retrieval algorithms. The experimental results demonstrate that our method has achieved remarkable performance compared to other existing methods such as Quad and Darq.

Effective Load Shedding for Multi-Way windowed Joins Based on the Arrival Order of Tuples on Data Streams (다중 윈도우 조인을 위한 튜플의 도착 순서에 기반한 효과적인 부하 감소 기법)

  • Kwon, Tae-Hyung;Lee, Ki-Yong;Son, Jin-Hyun;Kim, Myoung-Ho
    • Journal of KIISE:Databases
    • /
    • v.37 no.1
    • /
    • pp.1-11
    • /
    • 2010
  • Recently, there has been a growing interest in the processing of continuous queries over multiple data streams. When the arrival rates of tuples exceed the memory capacity of the system, a load shedding technique is used to avoid the system becoming overloaded by dropping some subset of input tuples. In this paper, we propose an effective load shedding algorithm for multi-way windowed joins over multiple data streams. Most previous load shedding algorithms estimate the productivity of each tuple, i.e., the number of join output tuples produced by the tuple, based on its "join attribute value" and drop tuples with the lowest productivity. However, the productivity of a tuple cannot be accurately estimated from its join attribute value when the join attribute values are unique and do not repeat, or the distribution of the join attribute values changes over time. For these cases, we estimate the productivity of a tuple based on its "arrival order" on data streams, rather than its join attribute value. The proposed method can effectively estimate the productivity of a tuple even when the productivity of a tuple cannot be accurately estimated from its join attribute value. Through extensive experiments and analysis, we show that our proposed method outperforms the previous methods in terms of effectiveness and efficiency.

A VRF-based Hashgraph Scheme for Next Generation Blockchains (차세대 블록체인을 위한 VRF 기반의 해시그래프 기법)

  • Kim, Min-Seop;Kang, Jin-Yeong;Joe, In-Whee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.52-55
    • /
    • 2019
  • 최근 여러 블록체인 플랫폼에서 잇따라 51% 공격에 대한 소식이 들려 옴에 따라 새로운 블록체인의 필요성이 부각되고 있다. 그중 Hashgraph 는 기존의 블록체인과 다르게 블록단위가 아닌 이벤트 즉, 블록에 기록되는 트랜잭션 그 자체로 체인이 구성되는 메커니즘을 가지고 있기 때문에 차세대 블록체인으로 대두되고 있다. 그러나 트랜잭션 단위로 Hash 또는 Hash 검증을 수행하기 때문에 연산 량이 기하급수적으로 늘어나며, 검증 또는 합의에 소요되는 시간이 상당하다. 본 논문에서는 이를 해소하기 위해 Verifiable Random Function 을 이용하여, Hash 에 대한 검증 절차와 연산 량을 감소하여 최종적으로 합의에 소요되는 시간을 단축하는 방법에 대해 제시한다.