• 제목/요약/키워드: 병렬 질의 처리

검색결과 144건 처리시간 0.058초

오디세우스/Parallel-OOSQL: 오디세우스 정보검색용 밀결합 DBMS를 사용한 병렬 정보 검색 엔진 (Odysseus/Parallel-OOSQL: A Parallel Search Engine using the Odysseus DBMS Tightly-Coupled with IR Capability)

  • 류재준;황규영;이재길;권혁윤;김이른;허준석;이기훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.412-429
    • /
    • 2008
  • 최근 들어 인터넷의 성장으로 인하여 문서의 양이 기하급수적으로 증가함에 따라, 대용량의 문서를 마르게 검색 할 수 있는 병렬 정보 검색 엔진에 대한 중요성이 더욱 대두되고 있다. 병렬 정보 검색 엔진을 구현하기 위하여서는 역 색인을 분할하고, 분할된 역 색인을 통하여 병렬적으로 검색하는 것이 필요하다. 역 색인을 분할하는 기존 방법으로는 1) 문서 식별자 분할 방법과 2) 식별자 분할 방법이 있다. 그러나 각 분할 방법은 다음과 같은 단점들을 가지고 있다. 문서 식별자 분할 방법은 문서의 추가가 용이하고 처리량(throughput)이 높은 반면에 top-k 질의 처리 성능이 좋지 않다. 그리고 식별자 분할 방법은 top-k 질의 처리 성능이 좋은 반면에 문서의 추가가 어렵고 처리량이 낮다. 본 논문에서는 이러한 단점들을 해결하기 위하여 혼합 분할 방법을 제안하고 이를 정보 검색 기능과 밀결합된 DBMS인 오디세우스에 실현한 병렬 정보 검색 엔진을 설계하고 구현한다. 먼저, 제안된 병렬 정보 검색 엔진인 오디세우스/parallel-OOSQL의 아키텍쳐를 설명한다. 그리고 체계적인 실험을 통하여 제안된 시스템의 유용성을 보인다. 실험 결과, 문서 식별자 분할 방법은 질의 처리 시간이 역 색인 분할의 블록의 개수에 근사적으로 역 비례함을 보였으며, 키워드 식별자 분할 방법은 top-k 질의 처리에 좋은 성능을 보였다. 본 논문에서 제안된 병렬 정보 검색 엔진은 세 가지 분할 방법을 모두 제공하기 때문에 응용 환경에 따라 분할 방법을 커스터마이즈함으로써 항상 좋은 성능을 낼 수 있다. 오디세우스/parallel-OOSQL 병렬 정보 검색 엔진은 각 슬레이브 노드 당 1억 건의 웹 문서를, 시스템 전체로는 수십억 건의 웹 문서를 인덱스하여 저장하고 질의를 처리할 수 있다.

해쉬 기반의 다중 공간 조인 기법 (Hash based Multi-way Spatial Join Method)

  • 박준용;김명근;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.93-96
    • /
    • 2004
  • 최근 공간 데이터베이스 시스템은 공간 데이터 마이닝, 공간 그리드, LBS 등과 같은 환경의 여러 분야로 그 응용이 확대되고 있으며, 사용자들의 다양한 공간 질의 처리 요구에 부응하는 효율적인 공간질의 처리의 필요성이 대두되었다. 특히 다중 공간 조인 질의와 같은 고비용의 공간 조인에 대한 효율적인 공간 질의 처리를 위해서는 단일 공간 조인 보다 더욱 많은 기하 계산과 공간 데이터의 특성을 이용한 다중 공간 조인 처리 방법이 필요하게 되었다. 본 논문은 고비용의 다중 공간 조인을 효율적으로 수행하기 위해 다중 공간 조인 연산을 효율적으로 처리하기 위하여 병렬적인 질의 수행을 위해 해쉬 기반의 다중 공간 조인 기법을 제안한다. 제안하는 기법은 기존 조인 대상이 되는 두 데이터 집합에만 공간 해쉬 조인을 수행하는 것을 확장하여 다중 공간 데이터 집합에 대해서도 조인이 수행 가능한 방법을 제안함으로써 최적의 조인 후보를 획득하여 효율적인 질의 처리를 수행하는 것을 보장한다.

  • PDF

데이터 스트림 연속 처리 태스크의 병렬 처리 방법 (The Parallel Processing Method of the Continuous Data Stream Processing Tasks)

  • 양경아;이대우;김기헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.214-215
    • /
    • 2015
  • 데이터 스트림 환경에서 연속 질의를 처리하기 위한 데이터 스트림 처리 시스템이 개발되었다. 데이터 스트림 처리 시스템에서 질의를 처리하는 태스크에 과도한 데이터가 발생할 경우 일반적으로 데이터 스트림을 선별적으로 버리는 load shedding 방법을 이용하지만 이러한 방법은 처리 결과의 정확도가 저하될 수 있다. 따라서, 본 논문은 이를 해결하는 방법으로 분산 데이터 스트림 처리 시스템에서 데이터 스트림 분할을 통한 데이터 스트림 연속 처리 태스크의 병렬 처리 방법을 제시한다. 이를 위해 분산 데이터 스트림을 처리하기 위한 기준을 제시 및 데이터 분할 방법에 대해서 언급한다.

XML 데이타베이스에서 경로-지향 질의처리를 위한 병렬 매치 방법 (A Parallel Match Method for Path-oriented Query Processing in iW- Databases)

  • 박희숙;조우현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권5호
    • /
    • pp.558-566
    • /
    • 2005
  • XML은 인터넷상에서 데이타를 표현하고 교환하기 위한 새로운 표준이다. 본 논문에서는, XML문서에 대한 경로-지향 질의어의 평가를 위한 새로운 접근법에 대하여 기술한다. 본 논문의 접근법에서는, 경로-지향 질의어의 평가속도를 개선하기 위해 경로서명을 이용하는 병렬 매치 인덱싱 구조의 제안과 함께 데이타베이스 안에 저장된 엘리먼트들의 경로서명들과 입력된 질의어의 경로서명 사이에 매치작업을 수행하기 위한 병렬 매치 알고리즘을 설계한다. 먼저, 병렬 매치 구조를 형성하기 위해서는 XML 문서상의 모든 경로서명들에 대한 이진 트라이를 구성한 다음 이들을 병렬 매치 인덱싱 구조로 변환한다. 경로-지향 질의어의 검색 연산을 수행하기 위해 병렬 매치 인덱싱 구조와 병렬 매치 알고리즘을 사용한다. 본 논문에서 제안한 방법에서 알고리즘의 시간 복잡도는 XML 문서내의 경로서명의 수에 대하여 로그값에 비례한다.

병렬처리 공간색인구조 (A Study on Parallel Spatial Index Structure)

  • 방갑산
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1207-1210
    • /
    • 2011
  • 본 논문에서는 PAR-트리라는 공간색인구조를 제안한다. PAR-트리는 object distribution heuristic(객체분할법)으로 absolute crowd index(절대 복잡도)를 사용하여 공간 데이터 객체를 여러 개의 데이터 공간에 균일하게 배치함으로써 질의처리 속도를 향상시킨다. PAR-트리는 MXR-트리에 비해 높은 공간활용도와 빠른 질의 반응시간을 보임으로써 다차원 데이터베이스를 위한 효율적인 색인구조로 사용이 될 것으로 기대된다.

분산 CUBIRD 상에서 세타 조인 및 중첩 SQL 병렬 질의처리를 지원하는 질의 재구성 기법 (Query Reorganization Scheme supporting Parallel Query Processing of Theta Join and Nested SQL on Distributed CUBRID)

  • 양현식;김형진;장재우
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.37-38
    • /
    • 2014
  • 최근 SNS의 발전으로 인해 데이터의 양이 급격히 증가하였으며, 이에 따라 빅데이터 처리를 위한 분산 DBMS 기반 질의 처리 연구가 활발히 진행되고 있다. 이를 위해 CUBRID는 CUBRID Shard 서비스를 통해 데이터베이스를 shard 단위로 수평 분할하여 각기 다른 물리 노드에 데이터를 분산 저장하도록 지원한다. 그러나 CUBRID Shard는 shard간 데이터가 독립적으로 관리되기 때문에 세타 조인 및 중첩 질의와 같이 다수 서버에서의 테이블 참조가 필요한 질의는 처리가 불가능하다. 따라서 본 논문에서는 분산 CUBRID 상에서 세타 조인 및 중첩 SQL를 지원하는 질의 재구성 기법을 제안한다.

  • PDF

디클러스터된 공간 데이터베이스에서 다중 질의의 병렬 처리 (Parallel Processing of Multiple Queries in a Declustered Spatial Database)

  • 서영덕;박영민;전봉기;홍봉희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권1호
    • /
    • pp.44-57
    • /
    • 2002
  • 다중 공간 질의는 동시에 2개 이상 수행되는 영역 질의로 정의되며 인터넷 기반 지도 보기 응용의 주요 연산이 되므로, 질의 처리 속도의 개선을 위해서 병렬로 처리되어야 하고 질의 처리 비용 중 큰 비중을 차지하는 디스크 입출력 시간을 최대한 줄일 필요가 있다. 그런데 다중 CPU/다중 디스크 구조상에서 디클러스터링을 수행하더라고, 다중 공간 질의를 처리하는 도중 질의 간 임의 탐색이 발생하여 디스크 입출력 시간이 증가하는 문제점이 있다. 이 논문에서는 디클러스터된 공간 데이터베이스에서 다중 공간 질의를 처리할 때 발생하는 문제점인 질의 간 임의 탐색을 분석하고, 해결 방안으로 질의 스케줄링 기법을 제시하였다. 질의 스케줄링 기법은 질의 간 관련성을 이용해서 질의 우선 순위를 조정해서 질의 간 임의 탐색을 해결하는 방법으로써, 질의간의 공간 및 시간 관련성 부여를 위해 질의 간 위치 관련성과 질의 대기 시간을 이용하였다. 실험 결과, 질의 스케줄링을 수행하면 디스크 캐쉬의 적중률이 최대 34% 향상되어 디스크 입출력 비용을 최대 6%까지 줄일 수 있어 다중 공간 질의 처리 시의 성능을 개선할 수 있는 것으로 나타났다.

맵리듀스를 이용한 효율적인 k-NN 조인 질의처리 알고리즘 (Efficient k-Nearest Neighbor Join Query Processing Algorithm using MapReduce)

  • 윤들녁;장미영;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.767-770
    • /
    • 2014
  • 대용량 데이터를 분석하기 위한 맵리듀스 기반 k-NN 조인 질의처리 알고리즘은 최근 데이터 마이닝 및 분석을 기반으로 하는 응용 분야에서 매우 중요하게 활용되고 있다. 그러나, 대표적인 연구인 보로노이 기반 k-NN 조인 질의처리 알고리즘은 보로노이 인덱스 구축 비용이 매우 크기 때문에 대용량 데이터에 적합하지 못하다. 아울러 보로노이 셀 정보를 저장하기 위해 사용하는 R-트리는 맵리듀스 환경의 분산 병렬 처리에 적합하지 않다. 따라서 본 논문에서는 새로운 그리드 인덱스 기반의 k-NN 조인 질의 처리 알고리즘을 제안한다. 첫째, 높은 인덱스 구축 비용 문제를 해결하기 위해, 데이터 분포를 고려한 동적 그리드 인덱스 생성 기법을 제안한다. 둘째, 맵리듀스 환경에서 효율적으로 k-NN 조인 질의를 수행하기 위해, 인접셀 정보를 시그니처로 활용하는 후보영역 탐색 및 필터링 알고리즘을 제안한다. 마지막으로 성능 평가를 통해 제안하는 기법이 질의 처리 시간 측면에서 기존 기법에 비해 최대 3배 높은 질의 처리 성능을 나타냄을 보인다.

병렬처리 대용량 공간자료구조의 연구 (A Study on Parallel Spatial Index Structure Development for Large Data)

  • 방갑산
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.769-772
    • /
    • 2007
  • 공간 데이터의 효율적인 처리는 현대의 멀티미디어 데이터베이스에 있어서 대단히 중요한 역할을 하고 있다. 많은 응용분야에서 방대한 양의 공간 데이터는 보조기억장치(예: disk)에 저장이 되어 사용이 되고 공간 색인구조의 처리는 I/O에 대한 의존도가 크므로, I/O 연산의 병렬처리는 공간 색인구조의 질의반응시간을 현저하게 줄일 수 있다. 본 논문에서는 PR-tree라는 병렬형 공간 색인구조를 제안한다. PR-tree는 MXR-tree에 비해 높은 공간활용도와 빠른 처리시간을 보임으로써 공간 데이터베이스를 위한 효율적인 색인구조로 사용이 될 것으로 기대된다.

샷 경계 탐지 알고리즘의 병렬 설계와 구현 (Parallel Design and Implementation of Shot Boundary Detection Algorithm)

  • 이준구;김승현;유병문;황두성
    • 전자공학회논문지
    • /
    • 제51권2호
    • /
    • pp.76-84
    • /
    • 2014
  • 최근 고화질 영상의 증가와 더불어 대용량 영상 데이터의 처리는 높은 연산이 요구되어 병렬 처리 설계가 선택되고 있다. 영상 처리에서 나타나는 많은 단순 연산이 병렬처리 가능한 경우, CPU 기반 병렬처리보다는 GPU 기반 병렬처리를 적용하는 것이 계산문제의 시간과 공간 계산 복잡도를 줄일 수 있다. 본 논문은 영상에서 샷 경계 탐지 알고리즘의 병렬 설계와 구현을 연구하였다. 제안하는 샷 경계 탐지 알고리즘은 프레임 간 지역 화소 밝기 비교와 전역 히스토그램 정보를 이용하는데, 이들 데이터의 계산은 대량의 데이터에 대한 높은 병렬성을 갖는다. 이들 연산의 병렬처리를 최대화하기 위해 화소 밝기와 히스토그램의 계산을 NVIDIA GPU에서 병렬 설계 하였다. GPU 기반 샷 탐지 방법은 국가기록원에서 선택된 10개의 비디오 데이터에 대한 성능 테스트를 수행하였다. 테스트에서 GPU 기반 알고리즘의 탐지율은 CPU 기반 알고리즘과 유사하였으나 약 10배의 연산 속도가 개선되었다.