DOI QR코드

DOI QR Code

A Distributed SPARQL Query Processing Scheme Considering Data Locality and Query Execution Path

데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법

  • 김병훈 (충북대학교 빅데이터 협동과정) ;
  • 김대윤 (충북대학교 빅데이터 협동과정) ;
  • 고건식 (충북대학교 빅데이터 협동과정) ;
  • 노연우 (충북대학교 정보통신공학부) ;
  • 임종태 (충북대학교 정보통신공학부) ;
  • 복경수 (충북대학교 정보통신공학부) ;
  • 이병엽 (배재대학교 사이버보안학과) ;
  • 유재수 (충북대학교 정보통신공학부)
  • Received : 2016.10.26
  • Accepted : 2017.01.17
  • Published : 2017.05.15

Abstract

A large amount of RDF data has been generated along with the increase of semantic web services. Various distributed storage and query processing schemes have been studied to efficiently use the massive amounts of RDF data. In this paper, we propose a distributed SPARQL query processing scheme that considers the data locality and query execution path of large RDF data. The proposed scheme considers the data locality and query execution path in order to reduce join and communication costs. In a distributed environment, when processing a SPARQL query, it is divided into several sub-queries according to the conditions of the WHERE clause by considering the data locality. The proposed scheme reduces data communication costs by grouping and processing the sub-queries through the index based on associated nodes. In addition, in order to reduce unnecessary joins and latency when processing the query, it creates an efficient query execution path considering data parsing cost, the amount of each node's data communication, and latency. It is shown through various performance evaluations that the proposed scheme outperforms the existing scheme.

시맨틱 웹 서비스의 증가로 인해 RDF 데이터가 대용량화되고 있다. 대용량 RDF 데이터를 효율적으로 활용하기 위하여 다양한 분산 저장 및 질의 처리기법들이 연구되고 있다. 본 논문에서는 대용량 RDF 데이터의 데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법을 제안한다. 제안하는 기법은 질의 처리 시의 조인 비용 및 통신비용을 감소시키기 위해 분산 저장된 RDF 데이터의 지역성 및 질의 수행 경로를 고려한다. 분산 환경에서 SPARQL 질의를 처리할 때 데이터 지역성을 고려하여 WHERE절을 기준으로 해당 질의를 여러 개의 서브 질의로 분할한다. 제안하는 기법은 분할된 서브 질의들을 인덱스를 통해 연관 노드들끼리 그룹화 하여 처리함으로써 데이터 통신비용을 감소시킬 수 있다. 또한 그룹 화된 서브 질의 처리 시 불필요한 조인 및 대기 시간을 감소시키기 위해 데이터 파싱 비용, 노드별 데이터 통신량 및 대기 시간 등을 고려한 효율적인 질의 수행 경로를 생성한다. 다양한 성능평가를 통해 제안하는 기법이 기존 기법보다 우수함을 보인다.

Keywords

Acknowledgement

Supported by : 정보통신기술진흥센터, 한국연구재단

References

  1. Ontology, [Online]. Available: https://www.w3.org/standards/semanticweb/ontology
  2. SPARQL, [Online]. Available: https://www.w3.org/TR/rdf-sparql-query/, 2008.
  3. B. Quilitz and U. Leser, "Querying Distributed RDF Data Source with SPARQL," Proc. of European Semantic Web Conference, pp. 524-538, 2008.
  4. RDF, [Online]. Available: https://www.w3.org/TR/rdf11-new/, 2014.
  5. K. Zeng, J. Yang, H. Wang, B. Shao, and Z. Wang, "A distributed graph engine for web scale RDF data," Proc. of the VLDB Endowment, Vol. 6, No. 4, pp. 265-276, 2013. https://doi.org/10.14778/2535570.2488333
  6. M. Leida and A. Chu, "Distributed SPARQL query answering over RDF data streams," Proc. of IEEE International Congress on Big Data, pp. 369-378, 2013.
  7. J. Zhou, G. von Bochmann, and Z. Shi, "Distributed Query Processing in an Ad-Hoc Semantic Web Data Sharing System," Proc. of IEEE International Symposium on Parallel & Distributed Processing, Workshops and Phd Forum, pp. 687-695, 2013.
  8. M. Hammoud, D. A. Rabbou, R. Nouri, S. Beheshti, and S. Sakr, "DREAM: Distributed RDF Engine with Adaptive Query Planner and Minimal Communication," Proc. of the VLDB Endowment, Vol. 8, No. 6, pp. 654-665, 2015. https://doi.org/10.14778/2735703.2735705
  9. The LUBM Benchmark, [Online]. Available: http://swat.cse.lehigh.edu/projects/lubm/