DOI QR코드

DOI QR Code

분산 클러스터 메모리 기반 대용량 OWL Horst Lite 온톨로지 추론 기법

A Scalable OWL Horst Lite Ontology Reasoning Approach based on Distributed Cluster Memories

  • 김제민 (명지대학교 방목기초교육대학) ;
  • 박영택 (숭실대학교 컴퓨터학부)
  • 투고 : 2014.07.10
  • 심사 : 2014.12.10
  • 발행 : 2015.03.15

초록

현재 대용량 온톨로지를 추론하기 위해 하둡 기반의 분산 클러스터 환경을 구축한 후, 맵-리듀스 알고리즘을 기반으로 추론을 수행하는 방식이 활발히 연구되고 있다. 그러나 본 논문에서는 분산 클러스터의 메모리 환경에서 대용량 OWL Horst Lite 온톨로지 추론을 위한 기법을 제안한다. 대용량 온톨로지 추론에 사용되는 규칙 기반 추론 방식은 데이터가 더 이상 추론 되지 않을 때까지 트리플 형식으로 표현된 온톨로지에 추론 규칙을 반복적으로 수행한다. 따라서 컴퓨터 디스크에 적재된 대용량의 온톨로지를 대상으로 추론을 수행하면 추론 시스템의 성능이 상당히 저하된다. 이러한 단점을 극복하기 위해서 본 논문에서는 메모리 기반의 분산 클러스터 프레임워크인 Spark를 기반으로 온톨로지를 메모리에 적재한 후, 추론을 수행하는 기법을 제안한다. Spark에 적합한 OWL Horst Lite 온톨로지 추론 시스템을 구현하기 위해서 대용량 온톨로지를 적절한 크기의 블록으로 분할한 후, 각각의 블록을 분산 클러스터를 구성하는 각 노드의 메모리에 분산 적재하여 작업을 수행하는 방법론을 제안하였다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험하였다. 대표적인 맵-리듀스 기반 온톨로지 추론 엔진인 WebPIE와 비교 실험한 결과, LUBM8000(11억개 트리플, 155GB)에 대해서 WebPIE의 추론 처리량이 19k/초보다 3.2배 개선된 62k/초의 성능 향상이 있었다.

Current ontology studies use the Hadoop distributed storage framework to perform map-reduce algorithm-based reasoning for scalable ontologies. In this paper, however, we propose a novel approach for scalable Web Ontology Language (OWL) Horst Lite ontology reasoning, based on distributed cluster memories. Rule-based reasoning, which is frequently used for scalable ontologies, iteratively executes triple-format ontology rules, until the inferred data no longer exists. Therefore, when the scalable ontology reasoning is performed on computer hard drives, the ontology reasoner suffers from performance limitations. In order to overcome this drawback, we propose an approach that loads the ontologies into distributed cluster memories, using Spark (a memory-based distributed computing framework), which executes the ontology reasoning. In order to implement an appropriate OWL Horst Lite ontology reasoning system on Spark, our method divides the scalable ontologies into blocks, loads each block into the cluster nodes, and subsequently handles the data in the distributed memories. We used the Lehigh University Benchmark, which is used to evaluate ontology inference and search speed, to experimentally evaluate the methods suggested in this paper, which we applied to LUBM8000 (1.1 billion triples, 155 gigabytes). When compared with WebPIE, a representative mapreduce algorithm-based scalable ontology reasoner, the proposed approach showed a throughput improvement of 320% (62k/s) over WebPIE (19k/s).

키워드

과제정보

연구 과제번호 : WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발

연구 과제 주관 기관 : 한국산업기술평가관리원

참고문헌

  1. J. Urbani, "RDFS/OWL reasoning using the Map-Reduce framework," Master thesis. 2009.
  2. B. Jagvaral, J.-M. Kim, and Y.-T. Park, "An Efficient Approach for Scalable RDFS Reasoning Using Logical Programming," Journal of KIISE : Software and Applications, Vol. 41, No. 10, pp. 762-773, Oct. 2014. (in Korean) https://doi.org/10.5626/JOK.2014.41.10.762
  3. W.-G. Lee, J.-M. Kim, and Y.-T. Park, "Distributed Table Join for Scalable RDFS Reasoning on Cloud Computing Environment," Journal of KIISE : Software and Applications, Vol. 41, No. 9, pp. 674-685, Dec. 2014. (in Korean) https://doi.org/10.5626/JOK.2014.41.9.674
  4. B. Motik, R. Shearer, and I. Horrocks, "Hypertableau Reasoning for Description Logics," Journal of Artificial Intelligence Research, Vol. 36, No. 1, pp. 165-228, 2009.
  5. D. Tsarkov, and I. Horrocks, "FaCT++ Description Logic Reasoner: System Description," Journal of LNAI, Vol. 4130, pp. 292-297, 2006.
  6. E. Sirin, B. Parsia, B. C. Grau, A. Kalyanpur, and Y. Katz, "Pellet: A Practical OWL-DL Reasoner," Journal of Web Semantics, Vol. 31, No. 2, pp. 51-53, 2007.
  7. U. Hustadt, B. Motik, and U. Sattler, "Reasoning in Description Logics with a Concrete Domain in the Framework of Resolution," Proc. of the 16th European Conference on Artificial Intelligence, pp. 353-357, 2004.
  8. W. W. Chang, and B. Miller, "AllegroGraph RDF - Triplestore Evaluation," Technical Report, Joint Study with Adobe Advanced Technology Labs, 2009.
  9. D. Thakker, T. Osman, S. Gohil, and P. Lakin, "A Pragmatic Approach to Semantic Repositories Ben-chmarking," Proc. of the ESWC (7th Extended Semantic Web conference 2010), pp. 379-393, 2010.
  10. A. Thusoo, "Hive: a warehousing solution over a map-reduce framework," Proc. of the VLDB Endowment 2.2, pp. 1626-1629, 2009.
  11. M. Kornacker, and J. Erickson, (2012). Cloudera Impala: real-time queries in Apache Hadoop, for real [online]. Available: http://blog.cloudera.com/blog/2012/10/cloudera-impalareal-time-queries-in-apache-hadoop-for-real (downloaded 2012)
  12. M. Zaharia, M. Chowdhury, M. J. Franklin, S. Shenker, and I. Stoica, "Spark: Cluster Computing with Working Sets," Proc. of the HotCloud 2010, pp. 10-16, Jun. 2010.
  13. M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. J. Franklin, S. Shenker, and I. Stoica, "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing," Proc. of the 9th USENIX conference on Networked Systems Design and Implementation, 2012.