• 제목/요약/키워드: 해쉬 조인

검색결과 21건 처리시간 0.031초

효율적인 버킷 분할과 조인 방법을 이용한 공간 해쉬 스트립 조인 알고리즘 설계 (Design of a Spatial Hash Strip Join Algorithm using Efficient Bucket Partitioning and Joining Methods)

  • 심영복;이종연;정순기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1367-1370
    • /
    • 2003
  • 본 논문에서는 인덱스가 존재하지 않는 두 개의 입력 릴레이션에 대해서도 최적의 조인 연산을 수행할 수 있는 공간 해쉬 조인 알고리즘을 제안한다. 인덱스가 존재하지 않는 릴레이션의 처리에 사용하는 기존의 공간 해쉬 조인(SHJ: Spatial Hash Join)과 Scalable Sweeping-Rased Spatial Join(SSSJ) 알고리즘을 결합하여 SHJ 알고리즘의 단점으로 지적되고 있는 편향된(skewed) 데이터에 대한 조인 연산의 성능저하 문제를 개선한 수 있는 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. SHJ에서 편향된 데이터의 경우 해쉬 버킷의 오버플로우 처리를 위해 버킷 재분할 방법을 사용하고 있는데 반하여 본 논문에서 제안한 SHSJ 알괴리즘에서는 버킷의 재분할 처리 대신에 버킷에 데이터를 삽입하고, 조인 연산과정에서 오버플로우가 발생한 버킷에 대하여 SSSJ 알고리즘을 사용함으로써 편향된 입력 릴레이션의 처리 성능을 제고시킬 수 있도록 한다.

  • PDF

데이타베이스 공유 시스템에서 병렬 해쉬 조인 알고리즘의 구현 (Implementation of Parallel Hash Join Algorithms in a Database sharing System)

  • 김창현;조행래
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.43-45
    • /
    • 2002
  • 기존에 제안된 대부분의 병렬 조인 알고리즘들은 데이타베이스가 여러 처리 노드에 분할되어 저장되는 데이타베이스 분할 시스템을 가정하였다. 데이타베이스 분할 시스템은 다수의 노드들을 연결할 수 있으며 지리적으로 분산된 환경도 지원할수 있다는 장점을 갖지만, 데이타베이스 공유 시스템에 비해 부하 분산이나 시스템 가용성이 떨어진다는 단점을 갖는다. 본 논문에서는 데이타베이스 공유 시스템에서 병렬 질의 처리기를 위한 병렬 해쉬 조인 알고리즘을 구현한다. 이를 위하여, 데이타베이스 공유 시스템에 적용 가능하도륵 병렬 질의 처리기를 구성하고 병렬 해쉬 조인 알고리즘의 처리 과정에 대해 설명 한다.

  • PDF

플래쉬 메모리 SSD 기반 해쉬 조인 알고리즘의 성능 평가 (Performance Evaluation of Hash Join Algorithm on Flash Memory SSDs)

  • 박장우;박상신;이상원;박찬익
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권11호
    • /
    • pp.1031-1040
    • /
    • 2010
  • 데이터베이스 관리 시스템의 핵심 알고리즘인 해쉬 조인은 해싱을 위한 메모리가 부족한 경우(즉, 해쉬 테이블 오버플로우) 디스크 입출력를 유발하게 된다 하드디스크를 임시 저장공간으로 사용할 경우, 해쉬 조인의 probing 단계에서 과도한 임의 읽기로 인해 I/O 시간이 성능을 저하시키게 된다. 한편, 플래시메모리 SSD가 저장장치로 각광을 받고 있으며, 머지않아 엔터프라이즈 환경에서 하드디스크를 대체할 것으로 예상 된다 하드디스크와 달리, 기계적인 동작 장치가 없는 플래시메모리 SSD의 경우 임의 읽기에서 빠른 성능을 보이기 때문에 해쉬 조인의 성능을 크게 향상시킬 수 있다. 본 논문에서는 플래시 메모리 SSD를 해쉬 조인을 위한 임시 저장공간으로 사용할 경우의 몇 가지 중요하고 현실적인 이슈들을 다룬다. 우선, 해쉬 조인의 I/O 패턴을 자세히 설명하고, 하드디스크에 비해 플래시메모리 SSD가 수십 배에 가까운 성능 향상을 보이는 이유를 설명한다. 다음으로, 클러스터 크기(즉, 해쉬 조인 알고리즘에서 사용하는 I/O 단위)가 성능에 미치는 영향을 제시하고 분석한다. 마지막으로, 하드디스크의 경우, DBMS의 질의 최적화기가 산출하는 비용이 실 수행시간과 편차가 클 수 있는데 반해, 플래시메모리 SSD의 경우 비용 산출을 정확히 하게 됨을 실험적으로 보인다. 결론적으로, 플래시메모리 SSD를 해쉬 조인을 위한 임시 저장공간으로 사용할 경우, 빠른 성능과 더불어 질의 최적화기의 비용 산출이 훨씬 더 신뢰할 수 있음을 보인다.

데이터 공유 시스템에서 동적 부하분산을 지원하는 해쉬 기반 병렬 조인 처리 기법 (Hash-based Parallel Join Schemes Supporting Dynamic Load Balancing in Data Sharing Systems)

  • 문애경;조행래
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.249-251
    • /
    • 1999
  • 해싱 함수를 이용하여 작업을 여러 노드에 분할해서 실행하는 해쉬 기반 병렬 조인 기법에서 Data Skew는 특정 노드에 부하를 집중시키므로 시스템의 성능을 떨어뜨린다. 본 논문에서는 기본적인 해쉬 기반 조인 기법을 데이터 공유시스템에 적용하고, Data Skew를 해결하기 위하여 동적 작업 할당과 부하가 집중된 노드의 작업을 다른 노드로 재할당하는 작업 재배치 방법을 제안한다. 제안된 기법들의 성능을 분석하기 위하여 모의 실험을 수행하였으며, 모든 노드에서 데이터베이스가 저장된 디스크를 공유하는 데이터 공유 시스템의 겨우 동적 작업 할당과 작업 재배치 방법이 효과적임을 알 수 있었다.

  • PDF

해쉬 기반의 다중 공간 조인 기법 (Hash based Multi-way Spatial Join Method)

  • 박준용;김명근;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.93-96
    • /
    • 2004
  • 최근 공간 데이터베이스 시스템은 공간 데이터 마이닝, 공간 그리드, LBS 등과 같은 환경의 여러 분야로 그 응용이 확대되고 있으며, 사용자들의 다양한 공간 질의 처리 요구에 부응하는 효율적인 공간질의 처리의 필요성이 대두되었다. 특히 다중 공간 조인 질의와 같은 고비용의 공간 조인에 대한 효율적인 공간 질의 처리를 위해서는 단일 공간 조인 보다 더욱 많은 기하 계산과 공간 데이터의 특성을 이용한 다중 공간 조인 처리 방법이 필요하게 되었다. 본 논문은 고비용의 다중 공간 조인을 효율적으로 수행하기 위해 다중 공간 조인 연산을 효율적으로 처리하기 위하여 병렬적인 질의 수행을 위해 해쉬 기반의 다중 공간 조인 기법을 제안한다. 제안하는 기법은 기존 조인 대상이 되는 두 데이터 집합에만 공간 해쉬 조인을 수행하는 것을 확장하여 다중 공간 데이터 집합에 대해서도 조인이 수행 가능한 방법을 제안함으로써 최적의 조인 후보를 획득하여 효율적인 질의 처리를 수행하는 것을 보장한다.

  • PDF

데이타베이스 공유 시스템에서 동적 부하분산을 지원하는 해쉬 조인 알고리즘들의 성능 평가 (Performance Evaluation of Hash Join Algorithms Supporting Dynamic Load Balancing for a Database Sharing System)

  • 문애경;조행래
    • 한국정보처리학회논문지
    • /
    • 제6권12호
    • /
    • pp.3456-3468
    • /
    • 1999
  • 기존에 제안된 대부분의 병렬 조인 알고리즘들은 데이타베이스가 여러 처리 노드에 분할되어 저장되는 데이타베이스 분할 시스템을 가정하였다. 데이타베이스 분할 시스템은 다수의 노드들을 연결할 수 있으며 지리적으로 분산된 환경도 지원할 수 있다는 장점을 갖지만, 데이타베이스 공유 시스템에 비해 부하 분산이나 시스템 가용성이 떨어진다는 단점을 갖는다. 본 논문에서는 데이타베이스 공유 시스템의 특성을 이용한 동적 부하분산 기법을 제안하고, 제안한 동적 부하분산 기법을 이용하여 기존의 해쉬 조인 알고리즘들을 데이타베이스 공유 시스템에 확장한다. 그리고, 다양한 시스템 구성 및 데이터베이스 부하 환경에서 모의 실험을 수행함으로써 데이타베이스 공유 시스템에서 동적 부하분산 기법의 효과 및 해쉬 알고리즘들의 성능 차이를 정량적으로 분석한다.

  • PDF

공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법 (A Skewed Data Handling Method using Spatial Hash Join Algorithm)

  • 심영복;이종연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.19-21
    • /
    • 2004
  • 이 논문은 인덱스가 존재하지 않는 두 입력 테이블의 공간 조인 연산 과정 중 여과 단계 처리에 중점을 둔다. 관련 연구는 Spatial Hash Join(SHJ)과 Scalable Sweeping-Based Spatial Join(SSSJ) 알고리즘이 대표적이다. 하지만 조인을 위한 입력 테이블의 객체들이 편중 분포할 경우 성능이 급격히 저하되는 문제를 가지고 있다. 따라서, 이 논문에서는 이러한 문제를 해결하기 위해 기존 SHJ 알고리즘과 SSSJ 알고리즘의 특성을 이용한 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. 기존 SHJ 알고리즘과의 차이점은 입력 데이터 집합을 버킷에 할당할 때 버킷 용량에 제한을 두지 않는다는 점과 버킷의 조인 단계에서 I/O 성능의 향상을 위해 우수한 SSSJ 알고리즘을 사용한다는 것이다. 끝으로 이 논문에서 제안한 SHSJ 알고리즘의 성능은 실제 Tiger/line 데이터를 이용하여 실험한 결과 기존의 SHJ와 SSSJ 알고리즘 보다 편중된 입력 테이블의 조인 연산에 대해 월등히 우수함이 검증되었다.

  • PDF

SVM을 적용한 선박 스트림 데이터 처리 기법 (Ship Stream Data Processing Techniques To Which The SVM)

  • 양진호;프라시스 포우델;시리 크리스나 아차레;서군 수베디;정민아;이성로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1202-1204
    • /
    • 2015
  • 디지털 선박에서는 선박 내의 각종 센서로부터 측정된 디지털 데이터에 대한 정확하고 에너지 효율적인 관리가 필요하다. 본 논문에서는 디지털 선박 내에 다수 개의 센서(온도, 습도, 조도, 음성 센서)를 배치하고 효율적인 입력 스트림 처리를 위해서 슬라이딩 윈도우 기반으로 다중 Support Vector Machine(SVM) 알고리즘을 이용하여 사전 분류(pre-clustering)한 후 요약된 정보를 해쉬 테이블로 관리하는 효율적인 처리 기법을 제안한다. 해쉬 테이블을 이용하여 다차원 스트림 데이터의 저장될 레코드 순서를 빠르게 찾아 저장 및 검색함으로서 처리 속도가 향상되고 메모리에 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 35,912개의 데이터 집함을 사용하여 실험한 결과 제안 기법의 정확도와 처리 성능이 향상되었다.

전산 정수론의 방법들을 이용하는 암호와 프로토콜에 대한 연구

  • 김철
    • 정보보호학회지
    • /
    • 제9권3호
    • /
    • pp.97-104
    • /
    • 1999
  • 전산 정수론의 몇 몇 이론들과 그 계산 방법들은 최근 컴퓨터 및 네트웍의 발달로 그 유용성을 한층 증대 시키고 있다. 본 연구는 이들 전산 정수론의 방법들중에서 정수들의 집합 위에서의 다항식 계산의 복잡도를 이용하여 암호화 프로토콜에 응용하는 연구를 수행 하여 그것을 암호학의 제 분야에서 활발히 활용되는 해쉬 알고리즘을 구성하였다. 또한 이 러한해쉬 알고리즘을 이용하여 암호화 프로토콜의 하나인 인증프로토콜을 연구하였다. 먼저 group SL2(F2n)에 기초한 해쉬 함수에 대해 알아본다. 행력의 각 entry는 characteristic이 인 finite field의 원소로 이루어져 있기 때문에 연산 속도도 매우 빠르며 메시지의 작은 변 조도 쉽게 감지할수 있다는 장점이 있다. 하지만 SL2(F2n)에 generator를 finite field의 원 로표현하고 finite field F2n 상에서 discrete logarithm을 계산하면 충돌하는 메시지쌍이 존 하는 것을 알수는 있으나 이는 계산적으로 계산불가능함을 증명하였다.

  • PDF

클러스터링 해쉬 테이블을 이용한 다차원 선박 USN 스트림 데이터의 효율적인 처리 (Efficient Processing of Multidimensional Vessel USN Stream Data using Clustering Hash Table)

  • 송병호;오일환;이성로
    • 대한전자공학회논문지SP
    • /
    • 제47권6호
    • /
    • pp.137-145
    • /
    • 2010
  • 디지털 선박에서는 선박 내의 각종 센서로부터 측정된 디지털 데이터에 대한 정확하고 에너지 효율적인 관리가 필요하다. 그러나, 센서 네트워크에서 대용량 스트림 데이터를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이터를 전송하고 분석하는 것은 어렵고 효율적이지 못하다. 그러므로, 연속적으로 입력되는 데이터를 사전에 분류하여 특성에 따라 선택적으로 데이터를 처리하는 데이터 분류 기법이 요구된다. 본 논문에서는 디지털 선박 내에 다수 개의 센서(온도, 습도, 조도, 음성 센서)를 배치하고 효율적인 입력 스트림 처리를 위해서 슬라이딩 윈도우 기반으로 다중 Support Vector Machine(SVM) 알고리즘을 이용하여 사전 분류(pre-clustering)한 후 요약된 정보를 해쉬 테이블로 관리하는 효율적인 처리 기법을 제안한다. 해쉬테이블을 이용하여 다차원 스트림 데이터의 저장될 레코드 순서를 빠르게 찾아 저장 및 검색함으로서 처리 속도가 향상되고 메모리에 해쉬 테이블 만을 유지하면 되므로 메모리 사용량이 감소한다. 35,912개의 데이터 집합을 사용하여 실험한 결과 제안 기법의 정확도와 처리 성능이 향상되었다.