• 제목/요약/키워드: 분산질의처리

검색결과 260건 처리시간 0.023초

분산 환경에서 통합 XQuery 질의 처리를 위한 조인과 통신비용에 대한 연구 (A Study of Join and Communication Cost for processing Integrated XQuery queries over Distributed Environment)

  • 최성일;박종현;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.59-63
    • /
    • 2007
  • XML은 웹 상에서 정보교환의 표준이며, 이종의 데이터를 보유하고 있는 지역 시스템들은 XML View를 이용하여 정보를 공개한다. 사용자는 XML을 위한 표준 질의어인 XQuery를 사용하여 분산된 XML View들을 대상으로 통합 XQuery질의를 생성할 수 있다. 이렇게 생성된 통합 XQuery질의는 자연스럽게 다른 지역시스템들 사이의 조인을 포함 할 수 있다. 조인은 비용이 많이 드는 연산자이므로 조인을 효율적으로 처리하는 것은 전체 질의의 성능에 큰 영향을 준다. 그러므로 조인을 효율적으로 처리하기 위한 비용을 결정하는 연구가 중요하다고 할 수 있다. SQL에서는 이와 같은 연구들이 많이 존재하며, 분산 환경에서의 조인을 효율적으로 처리하기 위해 크게 두 가지 비용을 고려한다. 그 중 하나는 지역시스템 내에서 조인을 처리하는 조인비용이며, 나머지 하나는 조인을 수행하기 위하여 다른 지역시스템으로 데이터를 전송하는 통신비용이다. 이 두 비용은 분산 조인을 처리하기 위한 중요한 요소이므로[6,7,8] 이를 측정하는 것은 통합 질의 처리를 위해서 필요한 연구라 할 수 있다. 그러나 테이블 구조의 데이터를 검색하기 위한 SQL 의 방법들을 구조적인 XML 데이터를 검색하기 위한 XQuery질의를 위해서 그대로 사용하는 것은 어려운 일이다. 본 논문에서는 분산 환경에서 통합 XQuery질의의 조인을 효율적으로 처리하기 위해 조인비용과 통신비용을 측정하는 방법을 제안한다. 본 논문의 기여는 앞서 기술한 문제점을 해결하여, XQuery 질의의 조인을 효율적으로 처리하기 위한 비용을 측정할 수 있도록 한다.

  • PDF

분산 컴퓨팅 환경에서 효율적인 유사 조인 질의 처리를 위한 행렬 기반 필터링 및 부하 분산 알고리즘 (Matrix-based Filtering and Load-balancing Algorithm for Efficient Similarity Join Query Processing in Distributed Computing Environment)

  • 양현식;장미영;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.667-680
    • /
    • 2016
  • 하둡 맵리듀스와 같은 분산 컴퓨팅 플랫폼이 개발됨에 따라, 기존 단일 컴퓨터 상에서 수행되는 질의 처리 기법을 분산 컴퓨팅 환경에서 효율적으로 수행하는 것이 필요하다. 특히, 주어진 두 데이터 집합에서 유사도가 높은 모든 데이터 쌍을 탐색하는 유사 조인 질의를 분산 컴퓨팅 환경에서 수행하려는 연구가 있어 왔다. 그러나 분산 병렬 환경에서의 기존 유사 조인 질의처리 기법은 데이터 전송 비용만을 고려하기 때문에 클러스터 간에 비균등 연산 부하 분산의 문제점이 존재한다. 본 논문에서는 분산 컴퓨팅 환경에서 효율적인 유사 조인 처리를 위한 행렬 기반 부하 분산 알고리즘을 제안한다. 제안하는 알고리즘은 클러스터의 균등 부하 분산을 위해 행렬을 이용하여 예상되는 연산 부하를 측정하고 이에 따라 파티션을 생성한다. 아울러, 클러스터에서 질의 처리에 사용되지 않는 데이터를 필터링함으로서 연산 부하를 감소시킨다. 마지막으로 성능 평가를 통해 제안하는 알고리즘이 기존 기법에 비해 질의 처리 성능 측면에서 우수함을 보인다.

SparQLing : SparkSQL 기반 대용량 트리플 데이터를 위한 SPARQL 질의 시스템 구축 (SPARQL Query Processing System over Scalable Triple Data using SparkSQL Framework)

  • 전명중;홍진영;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.450-459
    • /
    • 2016
  • 매년 RDFS 데이터는 대용량화 되어 가며, 빠른 질의를 위한 SPARQL 처리방식에 대한 변화가 필요하게 되었다. 이를 위해 대용량 분산 처리 프레임워크를 활용한 SPARQL의 질의 처리방식이 많이 연구되고 있다. 기존의 연구 중 대용량 분산 처리 프레임워크인 Hadoop(MapReduce) 기반 질의 엔진은 반복적인 작업으로 인한 잦은 I/O 발생으로 실시간 질의 처리가 불가능하며, 인메모리 기반 분산 질의 엔진 역시 낮은 단계의 언어 수준에서 분산 구조를 고려한 구현이 필요하기 때문에 질의 엔진 구축이 어렵다. 본 논문에서는 인메모리 기반 분산 질의 처리 프레임워크인 SparkSQL을 활용하여 대용량 트리플 데이터에 대한 SPARQL 질의문 처리 속도를 향상시킬 수 있는 질의 처리 엔진 구축 방법을 제안한다. SparkSQL 은 Spark 기반의 고수준 분산 질의 엔진으로서 기존의 SQL문을 활용한 질의가 가능하다. 따라서 SPARQL 질의문을 처리하기 위해서는 Jena를 이용하여 Algebra Tree를 생성한 후 이를 Spark 시스템에 적용하기 위한 Spark Algebra Tree로 변환해야 한다. 그리고 이를 이용하여 SparkSQL 질의문을 생성하는 시스템을 구축하였다. 또한 Spark 인메모리 시스템에서 보다 효율적인 질의 처리를 위한 DataFrame기반의 트리플 Property 테이블 설계를 제안하고 SparkSQL 프레임워크에 활용하였다. 마지막으로 기존의 분산처리 프레임워크를 사용한 질의 엔진과 비교 평가를 통하여 연구의 타당성을 검증한다.

분산 이동객체 데이터베이스를 위한 k-NN질의 처리 (k-NN Query Process ing for Distributed Moving Object Dat abases)

  • 한종형;이준우;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.261-266
    • /
    • 2006
  • GIS분야와 유비쿼터스 환경의 진보로 언제 어디서나 유무선으로 정보를 주고 받는 환경의 계선에 대한 발전이 계속 되어 왔다. 이런 환경에서 이동객체의 이용도가 증대됨에 따라 대용량의 객체 처리를 위해 분산 처리방식이 적용 되었다. 기존 연구의 k-NN질의는 단일 노드에서 질의 처리 비용의 절감에 중점을 두어 분할된 노드에서의 질의처리에 관련된 연구가 부족하였다. 분할된 노드에서 질의를 처리하기 위해서 고비용이 요구되는 k-NN질의를 위하여 본 논문에서는 Hybrid k-NN질의처리 방식을 제안한다. 제안방식은 k-NN질의와 범위질의 특성을 결합한 형태로 분할된 노드에 질의처리를 가능하게 하고, 질의처리 시 k-NN질의와 범위질의의 혼합으로 k-NN질의의 고비용을 절감하는 방법이다. 이 방법은 GALIS 프로토타입의 SLDS의 질의 처리 부분을 개선에 활용할 수 있다.

  • PDF

그리드 데이터베이스에서 질의 처리를 위한 캐쉬 관리 기반의 부하분산 기법 (Load Balancing Method for Query Processing Based on Cache Management in the Grid Database)

  • 신숭선;백성하;어상훈;이동욱;김경배;정원일;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제11권7호
    • /
    • pp.914-927
    • /
    • 2008
  • 그리드 컴퓨팅 환경에서 대용량 데이터의 처리와 가용성 향상, 데이터 통합을 위해 그리드 데이터베이스 관리 시스템이 사용된다. 그리드 데이터베이스 관리 시스템은 효율저인 질의처리를 위해 여러 노드로 질의를 분산하여 처리한다. 하지만 질의 처리가 임의의 노드에 집중되어 처리 성능이 감소되고, 작업 부하의 불균형이 발생한다. 본 논문에서는 그리드 데이터베이스에서 질의 처리를 위한 캐쉬 관리 기반의 부하분산 기법을 제안한다. 제안 기법에서는 여러 노드에 있는 캐쉬들을 관리하기 위해 캐쉬 관리자를 사용하며, 캐쉬 관리자는 노드를 지역별 그룹으로 연결하고 자신의 그룹 안에 있는 노드의 캐싱된 메타 정보를 관리한다. 노드는 캐쉬 관리자를 통해 질의를 전달 할 최적의 메타 정보를 캐싱한다. 노드에서 캐싱된 메타 정보를 통해 질의를 전달하여 노드의 부하를 분산한다. 제안 기법은 캐쉬 기반으로 부하가 적은 노드에서 질의를 처리하여 노드들의 부하를 분산하여 질의 처리시에 향상된 성능을 보인다.

  • PDF

통합 XQuery 질의의 병렬처리와 순차처리 성능분석 (Analysis of Parallel and Sequential processing for integrated XQuery query)

  • 강순종;박종현;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.214-217
    • /
    • 2006
  • XML 문서의 검색을 위한 질의 언어인 XQuery는 다양한 데이터 소스로부터 가져온 고유한 구조를 가진 질의 결과로 구성할 수 있도록 설계되어 XML질의 언어의 표준이 되었다. XQuery를 이용해 특별히, 분산 환경에서 다중 XML문서 를 대상으로 하는 통합 질의의 경우, 질의 처리 계획을 결정하는 것은 처리 효율과 직결된다. 따라서 질의 처리 계획을 결정하는 요소 중 하나인 조인 처리 방법의 연구는 중요하다. 그러나 통합 질의에서 조인구조를 기준으로 단일 XML문서에 대한 질의 처리방법을 결정하는 것은 쉽지 않다. 본 논문에서는 분산환경에서 다중 XML문서를 대상으로 하는 조인을 포함한 다양한 통합 질의를 대상으로 실험을 통해 병렬처리 방법과 순차처리 방법 그리고 두 가지 처리방법을 조합한 하이브리드 방법을 적용하여 처리 시간을 비교 분석하고, 다중 문서에 대한 효율적인 조인방법과 순서를 모색한다.

  • PDF

분산 CUBIRD 상에서 세타 조인 및 중첩 SQL 병렬 질의처리를 지원하는 질의 재구성 기법 (Query Reorganization Scheme supporting Parallel Query Processing of Theta Join and Nested SQL on Distributed CUBRID)

  • 양현식;김형진;장재우
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.37-38
    • /
    • 2014
  • 최근 SNS의 발전으로 인해 데이터의 양이 급격히 증가하였으며, 이에 따라 빅데이터 처리를 위한 분산 DBMS 기반 질의 처리 연구가 활발히 진행되고 있다. 이를 위해 CUBRID는 CUBRID Shard 서비스를 통해 데이터베이스를 shard 단위로 수평 분할하여 각기 다른 물리 노드에 데이터를 분산 저장하도록 지원한다. 그러나 CUBRID Shard는 shard간 데이터가 독립적으로 관리되기 때문에 세타 조인 및 중첩 질의와 같이 다수 서버에서의 테이블 참조가 필요한 질의는 처리가 불가능하다. 따라서 본 논문에서는 분산 CUBRID 상에서 세타 조인 및 중첩 SQL를 지원하는 질의 재구성 기법을 제안한다.

  • PDF

분산 객체 관계 데이터베이스 시스템을 이용한 분산 XML 문서 저장 시스템과 분산 XPath 질의 처리기 설계 및 구현 (Design and Implementation of Distributed XML Storage System and Distributed XPath Query Processor using Distributed ORDBMSs)

  • 이창주;홍의경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.235-239
    • /
    • 2006
  • 최근 컴퓨팅 환경은 인터넷 환경의 웹을 기반으로 한 분산 컴퓨팅 환경으로 변화하고 있다. 그에 따라 XML 문서의 사용과 XML 문서의 양이 급속하게 증가하였으며, 언제라도 쉽게 필요한 XML 문서에 접근할 수 있어야 한다. XML 문서에서 정보를 검색하기 위하여 XPath 질의어가 널리 사용 중이며, XML 저장 기법과 XPath를 이용한 질의 처리에 대한 연구가 활발히 진행되고 있다. 본 연구에서는 분산 객체 관계 데이터베이스 시스템을 이용하여 XML 문서를 저장하고 관리하는 시스템을 설계하였으며 분산된 XML 데이터를 접근할 수 있도록 하기 위해 XPath를 분산 SQL로 변환하여 실행하는 분산 XPath 질의 처리기를 설계 및 구현하였다.

  • PDF

분산된 준구조적 데이터 검색을 위한 경로 질의 처리 기법 (A Path Query Processing Scheme for Distributed Semi-structured Data Retrieval)

  • 이재형;정연돈;김덕현;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권1호
    • /
    • pp.95-103
    • /
    • 2001
  • 본 논문에서는 분산된 준구조적 데이터에 대한 질의 처리 문제를 다룬다. 분산된 준구조적 데이터는 루트가 있고 간선에 레이블이 있는 그래프 모델로 표현될 수 있으며, 그래프의 조드들은 한 사이트 또는 여러 사이트들에 위치할 수 있다. 분산된 준구조적 데이터의 효율적인 검색을 위해 ‘질의 단축 및 확산’ 방법에 기반을 둔 질의 처리 모델을 제안한다. 이 방법은 사용자 질의가 사이트 내부에서 단축되고 다른 사이트로 분산되는 과정을 통해 데이터를 검색한다. 또한, 제안된 모델에 필요한 알고리즘들을 제시하고 정확성을 증명한다.

  • PDF

지역 질의 생성기반 전역 XQuery 질의 처리 기법 (A Global XQuery Query Processing based on Local XQuery Query Generation)

  • 박종현;박원익;김영국;강지훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권11호
    • /
    • pp.11-20
    • /
    • 2010
  • XML 뷰는 분산 환경에서 이종 데이터들을 XML 데이터처럼 바라보며 XML로 통합하기 위한 방법으로 제안되었으며, 전역 XML 뷰는 분산되어 있는 다양한 형태의 이종 데이터들을 단일의 XML 데이터처럼 바라보며 질의할 수 있도록한다. 이때사용자가 사용하는표준질의어는 XQuery이며, 전역XML 뷰를대상으로 작성된 질의가 바로 전역XQuery 질의이다. 그러므로이를효과적으로 처리하기위한방법은분산 환경에서이종데이터들사이의 통합 및 검색을 위한 연구의 주제이다. 기존 SQL 질의 처리에서 알 수 있는 것처럼, 분산 질의 처리를 위한 방법들 가운데 가장 범용적으로 사용되는 방법 중 하나는 전역 질의를 지역 질의로 분할하여 분할된 지역 질의들을 처리하고, 그 결과를 취하여 전역 질의의 결과로 재구성하는 것이다. 그러나 XQuery는 FOR 절과 같은 SQL 질의어에서는 찾아볼 수 없는 복잡한 구조적 특성을 갖는다. 그러므로 전역 XQuery 질의의 처리를 위해 지역 질의를 생성하기 위해서는 고려해야 할 사항들이 존재한다. 본 논문에서는 전역 SQL 질의 처리를 위한 지역 질의 생성 기법을 전역 XQuery 질의의 처리를 위해 적용할 때 발생하는 문제점을 정의하고 이를 해결하기 위한 방법을 제안한다. 또한, 제안한 방법을 기반으로 하는 전역 XQuery 질의 처리기를 구현하여 그 효율성을 보인다.