• 제목/요약/키워드: 해시조인

검색결과 19건 처리시간 0.095초

대용량 데이터 스트림을 처리하기 위한 효율적 이진 조인 처리 기법 (Efficient Binary Join Processing for Large Data Streams)

  • 박홍규;이원석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제38차 하계학술발표논문집 16권1호
    • /
    • pp.189-192
    • /
    • 2008
  • 최근에 제한된 데이터 셋보다 센서 데이터 처리, 웹 서버 로그나 전화 기록과 같은 다양한 트랜잭션 로그 분석등과 관련된 대용량 데이터 스트림을 실시간으로 처리하는 것에 많은 관심이 집중되고 있으며, 특히 데이터 스트림의 조인 처리에 대한 관심이 증가하고 있다. 본 논문에서는 조인 연산을 빠르게 처리하기 위한 효율적인 해시 구조와 조인 방법에 대해서 연구하고 다양한 환경에서 제안 방법을 검증한다.

  • PDF

PRAM 기반의 조인 알고리즘 성능 비교 연구 (A Comparative Study of PRAM-based Join Algorithms)

  • 최용성;온병원;최규상;이인규
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.379-389
    • /
    • 2015
  • Phase Change Memory (PCM 또는 PRAM), Magneto Resistive RAM (MRAM)과 같은 차세대 비휘발성 메모리가 등장하면서, Dynamic Random-Access Memory (DRAM)을 PRAM으로 대체하는 연구가 활발히 진행되고 있다. 본 논문에서는 PRAM을 메인 메모리로 사용하는 시스템에서 지금까지 널리 사용되고 있는 기존의 조인 알고리즘(블록 네스티드 조인, 소트-머지 조인, 그레이스 해시 조인, 하이브리드 해시 조인)들을 사용했을 때 발생하는 내구성과 성능 문제를 비교, 분석한다. 본 연구의 실험결과에 의하면 기존의 조인 알고리즘들을 PRAM에 맞게 재설계해야 하는 필요성이 제기되었다. 특히, 본 연구는 조인 알고리즘들을 PRAM에 적용했을 때 발생하는 이슈들을 과학적으로 규명한 첫 시도이다. 그리고 기존의 조인 알고리즘들을 PRAM에 적용했을 때 발생하는 내구성과 성능을 비교하기 위한 PRAM 기반의 시스템을 모델링하고 시뮬레이터를 구현한 것에 연구의 의의를 둘 수 있다.

분산 공간 데이터베이스 시스템에서의 적응적 공간 조인 기법 (Adaptive Spatial Join Method in Distributed Spatial Database System)

  • 이재훈;김호석;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.169-171
    • /
    • 2003
  • 네트워크의 빠른 발전으로 인해 분산된 공간 데이터의 질의 처리 연구가 활발히 진행되었다. 하지만 이런 질의 처리 환경에서는 질의 처리의 최적화를 위한 정확한 정보를 수집하기 어렵고 네트워크 상태의 불확실성으로 인해 데이터의 전송 상태를 예측하기가 힘들다. 이런 동적인 환경에 적응하기 위해서는 기존의 공간 조인 기법을 수정할 필요가 생겼다. 특히 기존의 공간 조인 기법은 처리 방식이 비대칭적(asymmetric)이기 때문에 데이터 전송의 지연으로 인해 처리가 잠시 중단되거나 빠른 응답 시간을 보장할 수 없다. 본 논문에서는 분산 공간 데이터베이스에서의 공간 조인의 문제점을 해결하기 위해서 대칭적인 해시 공간 조인을 사용하는 적응적 공간 조인 기법을 제안한다. 제안된 기법은 초기의 전송된 데이터들을 조인하여 조인 결과를 빠르게 보여주며 데이터 전송의 지연 시에는 이미 전송된 데이터 중 조인되지 않은 객체들을 조인함으로써 지속적으로 조인을 수행한다.

  • PDF

정렬을 통한 해시 조인 탐색 단계에서의 캐시미스 감소 기법 (Reducing Cache Misses in Hash Join Probing Phase By Pre-sorting Strategy)

  • 오기환;김재병;강운학;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1131-1133
    • /
    • 2012
  • 메모리 가격이 저렴해 짐에 따라 대용량의 데이터베이스 연산이 메모리 안에서 처리될 수 있다. 그에 반해 메모리의 접근속도는 과거에 비해 크게 향상되지 않았기 때문에, 효율적인 캐시 활용이 전체 성능을 결정하는 중요한 요소가 된다. 멀티코어 환경에서 효율적 캐시와 높은 동시성을 모두 만족시키기는 쉽지 않다. 이 논문에서는 알려진 메모리 기반 해시 알고리즘을 비교하고, 각각에 대해 탐색 단계에서 조인 키를 기준으로 정렬 알고리즘을 적용하여 수행 시간과 캐시 미스 감소를 비교한다.

실시간 환경에서 가용 대역폭과 거리를 고려한 개선된 Kademlia 프로토콜 (An Improved Kademlia Protocol considering Available Bandwidth and Physical Distance in the Real-Time Environment)

  • 박재완;맹주현;이동혁;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.56-59
    • /
    • 2019
  • 분산 해시 테이블은 {Key-Value} 형태의 해시 테이블을 시스템 내 노드들이 나누어 가지는 분산 시스템이다. 분산 해시 테이블 중 Kademlia는 Binary Tree 구조를 통해 노드 확장성을 가지고 XOR Metric을 이용하여 빠른 노드 탐색으로 다양한 분야에서 활용되고 있다. 하지만 노드 탐색 시 실제 상황을 배제하고 논리적인 거리만을 고려하여 라우팅 경로를 설정한다는 문제점을 가진다. 본 연구에서는 이 문제를 해결하기 위해 노드 탐색 시 노드 간의 대역폭과 물리적 거리를 고려하여 라우팅 테이블을 생성하는 Kademlia의 효율적인 노드 탐색 기법을 제안한다. 기존의 Kademlia와 유사한 수치의 Lookup Success Ratio와 Lookup Overhead Rates를 보이지만, End-to-End Delay가 감소한 것을 시뮬레이션을 통해 확인하였다.

대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산 (Join Operation of Parallel Database System with Large Main Memory)

  • 박영규
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.51-58
    • /
    • 2007
  • 확장성에서 장점을 가지고 있는 비공유 병렬 프로세서 구조는 병렬 데이터베이스 시스템에서 많이 적용되고 있는 구조이다. 그러나 비공유 병렬 프로세서 구조는 데이터의 분포가 전체 프로세서에게 균일하게 분포되어 있지 않을 경우에는 일부 프로세서에게 부하가 집중되고 이로 인한 성능의 감소가 불가피하게 되는 단점이 있다. 특히 부하의 불균형 정도가 심한 경우에 조인 연산을 수행할 때 이런 성능 감소의 단점은 두드러진다. 본 논문은 비공유 병렬 프로세서 구조에서 부하의 불균형 정도가 심한 경우에도, 조인 연산을 실시하기 전에 부하 불균형을 고려함으로써 성능 감소를 최소화하고, 메모리의 대용량화를 이용하여 성능을 높인 조인 알고리즘을 제시한다. 또한 알고리즘의 성능 분석을 위한 분석 모델을 제시하며, 분석 모델을 통하여 데이터 불균형 문제를 해결하기 위한 다른 알고리즘과의 성능을 비교한다.

  • PDF

융합 인덱싱 방법에 의한 조인 쿼리 성능 최적화 (Join Query Performance Optimization Based on Convergence Indexing Method)

  • 짜오티엔이;이용주
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.109-116
    • /
    • 2021
  • RDF(Resource Description Framework) 데이터 구조는 그래프로 모델링하기 때문에, 관계형 데이터베이스와 XML 기술의 기존 솔루션은 RDF 모델에 바로 적용하기 어렵다. 우리는 링크 데이터를 더욱 효과적으로 저장하고, 인덱스하고, 검색하기 위해 융합 인덱싱 방법을 제안한다. 이 방법은 HDD(Hard Disk Drive) 와 SSD(Solid State Drive) 디바이스에 기반한 하이브리드 스토리지 시스템을 사용하고, 불필요한 데이터를 필터하고 중간 결과를 정제하기 위해 분리된 필터 및 정제 인덱스 구조를 사용한다. 우리는 3개의 표준 조인 검색알고리즘에 대한 성능 비교를 수행했는데, 실험 결과 제안된 방법이 Quad와 Darq와 같은 다른 기존 방법들에 비해 뛰어난 성능을 보인다.

다중 윈도우 조인을 위한 튜플의 도착 순서에 기반한 효과적인 부하 감소 기법 (Effective Load Shedding for Multi-Way windowed Joins Based on the Arrival Order of Tuples on Data Streams)

  • 권태형;이기용;손진현;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권1호
    • /
    • pp.1-11
    • /
    • 2010
  • 최근 다중 데이터 스트림에 대한 연속 질의 처리에 관한 연구가 활발하게 진행되고 있다. 데이터 스트림에서 튜플들의 도착 속도가 폭증하여 시스템의 메모리 용량을 초과하는 경우, 일부 튜플을 버림으로써 시스템이 과부하 상태가 되지 않도록 하는 기법을 부하 감소(load shedding)라 한다. 본 논문에서는 다중 데이터 스트림에 대한 다중 윈도우 조인을 위한 효과적인 부하 감소 기법을 제안한다. 기존의 부하 감소 기법들은 버릴 튜플을 선택하기 위해 튜플들의 조인 키 값을 이용하여 각 튜플이 생성할 조인 결자 개수(생산성)를 예측하고, 생산성이 최소가 되는 튜플을 버린다. 그러나 이러한 방법들은 조인 키 값이 다시 나타나지 않거나, 조인 키 값의 분포가 일정하게 유지되지 않는 경우 튜플들의 생산성을 올바르게 예측하기 어렵다. 본 논문은 이러한 경우를 위해 튜플들의 조인 키 값 대신, 튜플의 데이터 스트림에 대한 도착 순서를 사용하여 튜플들의 생산성을 예측하는 방법을 사용한다. 제안하는 방법은 조인 키 값으로 튜플들의 생산성을 예측하가 어려운 상황에서 튜플의 도착 순서를 통해 각 튜플의 생산성을 효과적으로 예측할 수 있도록 해준다. 다양한 실험과 분석을 통해 제안하는 새로운 부하 감소 기법이 기존 기법에 비해 더욱 효과적이고 효율적으로 부하를 감소시킬 수 있음을 보인다.

차세대 블록체인을 위한 VRF 기반의 해시그래프 기법 (A VRF-based Hashgraph Scheme for Next Generation Blockchains)

  • 김민섭;강진영;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.52-55
    • /
    • 2019
  • 최근 여러 블록체인 플랫폼에서 잇따라 51% 공격에 대한 소식이 들려 옴에 따라 새로운 블록체인의 필요성이 부각되고 있다. 그중 Hashgraph 는 기존의 블록체인과 다르게 블록단위가 아닌 이벤트 즉, 블록에 기록되는 트랜잭션 그 자체로 체인이 구성되는 메커니즘을 가지고 있기 때문에 차세대 블록체인으로 대두되고 있다. 그러나 트랜잭션 단위로 Hash 또는 Hash 검증을 수행하기 때문에 연산 량이 기하급수적으로 늘어나며, 검증 또는 합의에 소요되는 시간이 상당하다. 본 논문에서는 이를 해소하기 위해 Verifiable Random Function 을 이용하여, Hash 에 대한 검증 절차와 연산 량을 감소하여 최종적으로 합의에 소요되는 시간을 단축하는 방법에 대해 제시한다.