DOI QR코드

DOI QR Code

Spark 프레임워크를 적용한 대용량 SHIF 온톨로지 추론 기법

An Approach of Scalable SHIF Ontology Reasoning using Spark Framework

  • 김제민 (명지대학교 방목기초교육대학) ;
  • 박영택 (숭실대학교 컴퓨터학부)
  • 투고 : 2015.01.05
  • 심사 : 2015.07.23
  • 발행 : 2015.10.15

초록

지식 관리 시스템을 운영하기 위해서는 대량의 지식 정보를 자동으로 추론 및 관리하는 기술이 필요하다. 현재, 이러한 시스템의 대다수는 컴퓨터간의 지식 정보를 자동으로 교환하고 스스로 새로운 지식을 추론하기 위해 온톨로지를 적용하고 있다. 따라서 대용량의 온톨로지를 대상으로 새로운 정보를 추론하는 효율적인 기술이 요구되고 있다. 본 논문은 분산 클러스터의 메모리상에서 MapReduce와 유사한 작업을 수행하는 Spark 프레임워크를 적용하여, SHIF 수준으로 작성된 대용량의 온톨로지를 규칙 기반으로 추론하는 기술에 대해서 제안한다. 이에 본 논문은 다음 3 가지에 초점을 맞추어 설명을 한다. 클러스터내의 분산된 메모리상에서 대용량 추론을 실시하기 위해서, 먼저 각 추론 규칙에 따라 대용량의 온톨로지 트리플을 효과적으로 분류하여 적재하기 위한 자료구조, 두 번째 규칙간의 종속 관계와 상호 연관성에 따른 규칙 실행 순서와 반복 조건 정의, 마지막으로 규칙 실행에 필요한 명령을 정의하고 이러한 명령어를 실행하여 추론을 수행하는 알고리즘에 대해 설명한다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험을 수행하였다. 대표적인 분산클러스터 기반 대용량 온톨로지 추론 엔진인 WebPie와 비교 실험한 결과, LUBM에 대해서 WebPie의 추론 처리량이 553 트리플/초 인데 비해 284배 개선된 157k 트리플/초의 성능 향상이 있었다.

For the management of a knowledge system, systems that automatically infer and manage scalable knowledge are required. Most of these systems use ontologies in order to exchange knowledge between machines and infer new knowledge. Therefore, approaches are needed that infer new knowledge for scalable ontology. In this paper, we propose an approach to perform rule based reasoning for scalable SHIF ontologies in a spark framework which works similarly to MapReduce in distributed memories on a cluster. For performing efficient reasoning in distributed memories, we focus on three areas. First, we define a data structure for splitting scalable ontology triples into small sets according to each reasoning rule and loading these triple sets in distributed memories. Second, a rule execution order and iteration conditions based on dependencies and correlations among the SHIF rules are defined. Finally, we explain the operations that are adapted to execute the rules, and these operations are based on reasoning algorithms. In order to evaluate the suggested methods in this paper, we perform an experiment with WebPie, which is a representative ontology reasoner based on a cluster using the LUBM set, which is formal data used to evaluate ontology inference and search speed. Consequently, the proposed approach shows that the throughput is improved by 28,400% (157k/sec) from WebPie(553/sec) with LUBM.

키워드

과제정보

연구 과제번호 : WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발

연구 과제 주관 기관 : 정보통신기술진흥센터

참고문헌

  1. J. Urbani, "RDFS/OWL reasoning using the Map-Reduce framework," Master thesis, 2009.
  2. B. Motik, R. Shearer, and I. Horrocks, "Hypertableau Reasoning for Description Logics," Journal of Artificial Intelligence Research, Vol. 36, No. 1, pp. 165-228, 2009.
  3. D. Tsarkov and I. Horrocks, "FaCT++ Description Logic Reasoner: System Description," Lecture Notes in Artificial Intelligence, Vol. 4130, pp. 292-297, 2006.
  4. E. Sirin, B. Parsia, B. C. Grau, A. Kalyanpur and Y. Katz, "Pellet: A Practical OWL-DL Reasoner," Journal of Web Semantics, Vol. 31, No. 2, pp. 51-53, 2007.
  5. U. Hustadt, B. Motik, and U. Sattler, "Reasoning in Description Logics with a Concrete Domain in the Framework of Resolution," Proc. of the 16th European Conference on Artificial Intelligence, pp. 353-357, 2004.
  6. W. W. Chang and B. Miller, "AllegroGraph RDF -Triplestore Evaluation," Technical Report, Joint Study with Adobe Advanced Technology Labs, 2009.
  7. D. Thakker, S. Gohil, T. Osman, and P. Lakin, "Pragmatic Approach to Semantic Repositories Benchmarking," Proc. of of the ESWC (7th Extended Semantic Web conference 2010), pp. 379-393, 2010.
  8. W. G. Lee, J. M. Kim, and Y. T. Park, "Distributed Table Join for Scalable RDFS Reasoning on Cloud Computing Environment," Journal of KIISE : Software and Applications, Vol. 41, No. 9, pp. 674-685, Sep. 2014. (in Korean) https://doi.org/10.5626/JOK.2014.41.9.674
  9. J. M. Kim and Y. T. Park, "A Scalable OWL Horst Lite Ontology Reasoning Approach based on Distributed Cluster Memories," Journal of KIISE : Software and Applications, Vol. 42, No. 3, pp. 307-319, Mar. 2015. (in Korean) https://doi.org/10.5626/JOK.2015.42.3.307
  10. Spark Overview. [Online]. Available: http://spark.apache.org/docs/latest/
  11. M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M.J. Franklin, S. Shenker and I. Stoica, "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing," Proc. of the 9th USENIX conference on Networked Systems Design and Implementation, 2012.
  12. G.D. Giacomo, and M. Lenzerini, "TBox and ABox reasoning in expressive description logics," KR 96, pp. 316-327, 1996.