DRAZ: SPARQL Query Engine for heterogeneous metadata sources

DRAZ : 이기종 메타 데이터 소스를 위한 SPARQL 쿼리 엔진

  • Received : 2018.11.14
  • Accepted : 2018.12.11
  • Published : 2018.12.31

Abstract

Many researches proposed federated query engines to perform query on several homogeneous or heterogeneous datasets simultaneously that significantly improve the quality of query results. The existing techniques allow querying only over a few heterogeneous datasets considering the static binding using the non-standard query. However, we observe that a simultaneous system considering the integration of heterogeneous metadata standards can offer better opportunity to generalize the query over any homogeneous and heterogeneous datasets. In this paper, we propose a transparent federated engine (DRAZ) to query over multiple data sources using SPARQL. In our system, we first develop the ontology for a non-RDF metadata standard based on the metadata kernel dictionary elements, which are standardized by the metadata provider. For a given SPARQL query, we translate any triple pattern into an API call to access the dataset of corresponding non-RDF metadata standard. We convert the results of every API call to N-triples and summarize the final results considering all triple patterns. We evaluated our proposed DRAZ using modified Fedbench benchmark queries over heterogeneous metadata standards, such as DCAT and DOI. We observed that DRAZ can achieve 70 to 100 percent correctness of the results despite the unavailability of the JOIN operations.

최근 DCAT, CKAN 같은 동종 데이터 집합에 대해 질의를 동시에 수행하여 쿼리 결과의 품질을 크게 향상하는 페더레이션 쿼리 엔진이 활발하게 연구되고 있다. 하지만 기존 연구는 비표준 쿼리를 사용하며 정적 바인딩을 적용한 몇 가지 이기종 데이터 집합 또는 동종 데이터 집합에 대해서만 질의 할 수 있다. 본 논문에서는 SPARQL을 사용하여 여러 데이터 소스에 질의하는 페더레이티드 엔진 (DRAZ)을 제안한다. 제안하는 시스템에서는 주어진 SPARQL 쿼리의 모든 트리플 패턴을 API 호출로 변환하여 해당 데이터셋에 접근한다. 마지막으로 모든 API 호출 결과를 N-트리플로 변환하고 모든 트리플 패턴을 고려한 최종 결과를 요약한다. 우리는 제안하는 DRAZ를 DCAT 및 DOI와 같은 이기종 메타 데이터 표준을 고려하여 수정된 Fedbench 벤치 마크 질의를 사용하여 평가하였다. 제안하는 시스템인 DRAZ가 JOIN 작업을 사용할 수 없음에도 불구하고 결과의 70-100 % 정확도를 달성 할 수 있음을 실험을 통해 확인하였다.

Keywords

Acknowledgement

Grant : 국제표준기반 오픈 데이터 유통 플랫폼 확장 기술개발

Supported by : 정보통신기술진흥센터

References

  1. Chamanara, Javad and Konig-Ries, Birgitta and Jagadish, H. V., "QUIS: In-situ Heterogeneous Data Source Querying", Proc. VLDB Endow, vol. 10, no. 12, pp. 1877--1880, 2017.
  2. Charalambidis, Angelos and Troumpoukis, Antonis and Konstantopoulos, Stasinos, "SemaGrow: Optimizing Federated SPARQL Queries", ACM SEMANTICS '15, pp. 121--128, 2015.
  3. Gorlitz, Olaf and Staab, Steffen, "SPLENDID: SPARQL Endpoint Federation Exploiting VOID Descriptions", Proceedings of the Second International Conference on Consuming Linked Data-Volume 782, 2018.
  4. Schwarte, Andreas and Haase, Peter and Hose, Katja and Schenkel, Ralf and Schmidt, Michael, "Fedx: Optimization techniques for federated query processing on linked data", Springer Berlin Heidelberg International Semantic Web Conference, vol. 34, pp. 601--616, 2011.
  5. Horrocks, Ian, "Semantic Web: The Story So Far", ACM SIGMOD Record, vol. 225, pp. 34-41, 2007.
  6. P. K. Seedah, Dan and Choubassi, Carine and Leite, Fernanda, "Ontology for Querying Heterogeneous Data Sources in Freight Transportation", Journal of Computing in Civil Engineering, vol. 30, 2015, doi: 10.1061/(ASCE)CP.1943-5487.0000548.
  7. Saleem, Muhammad and Khan, Yasar and Hasnain, Ali and Ermilov, Ivan and Ngonga Ngomo, Axel-Cyrille, "A fine-grained evaluation of SPARQL endpoint federation systems", Semantic Web Journal, vol. 7, no. 5, pp. 493--518, 2016. https://doi.org/10.3233/SW-150186
  8. Saleema, Muhammad and Potockia, Alexander and Sorua, Tommaso and Hartigc, Olaf and Ngomob, Axel-Cyrille Ngonga, "Costfed: Cost-based query optimization for sparql endpoint federation", SEMANTICS, 2018.
  9. M. Schmidt, O. Gorlitz, P. Haase, G. Ladwig, A. Schwarte, e. L. Tran, Thanh", C. Welty, H. Alani, J. Taylor, A. Bernstein, L. Kagal, N. Noy, and E. Blomqvist, "FedBench: A Benchmark Suite for Federated Semantic Data Query Processing", Springer Berlin Heidelberg ISWC, pp. 585--600, 2011.
  10. Data catalog Vocabulary, Metadata Standards: https://www.w3.org/TR/vocab-dcat/
  11. Digital Object Identifier, Metadata Standard: https://www.doi.org/