DOI QR코드

DOI QR Code

신뢰값 기반 대용량 트리플 처리를 위한 스파크 환경에서의 RDFS 온톨로지 추론

Spark based Scalable RDFS Ontology Reasoning over Big Triples with Confidence Values

  • 투고 : 2015.08.18
  • 심사 : 2015.10.27
  • 발행 : 2016.01.15

초록

최근 인터넷과 디바이스의 발전으로 지식 정보의 양이 방대해 지면서 대용량 온톨로지를 이용한 추론 연구가 활발히 진행되고 있다. 일반적으로 트리플로 표현되는 빅데이터는 기계학습 프로그램이나 지식 공학자가 각 트리플의 신뢰도를 측정하여 제공한다. 하지만 수집된 데이터는 불확실한 데이터를 포함하고 있으며, 이러한 데이터를 추론하는 것은 불확실성을 내포한 추론 결과를 초래할 수 있다. 본 논문에서는 불확실성 문제를 해결하기 위해 수집된 데이터에 대한 신뢰의 정도를 나타내는 신뢰값(Confidence Value)를 이용한 RDFS 규칙 추론 방법에 대하여 설명하고, 메모리 기반의 분산 클러스터 프레임워크인 스파크(Spark)를 기반으로 데이터의 불확실성에 대한 고려를 하지 않는 기존의 추론 방법과 달리 신뢰값 계산에 대한 방법을 응용하여 RDFS 규칙을 통해 추론되는 새로운 데이터의 신뢰값을 계산하며, 계산된 신뢰값은 추론된 데이터에 대한 불확실성을 나타낸다. 제안하는 추론 방법의 성능을 검증하기 위해 온톨로지 추론과 검색 속도를 평가할 때 활용되는 공식 데이터인 LUBM을 대상으로 신뢰값을 추가하여 실험을 수행하였으며, 가장 큰 데이터인 LUBM3000을 수행하였을 때 1179초의 추론시간이 소요되었고, 초당 350K 트리플을 처리할 수 있는 성능을 보였다.

Recently, due to the development of the Internet and electronic devices, there has been an enormous increase in the amount of available knowledge and information. As this growth has proceeded, studies on large-scale ontological reasoning have been actively carried out. In general, a machine learning program or knowledge engineer measures and provides a degree of confidence for each triple in a large ontology. Yet, the collected ontology data contains specific uncertainty and reasoning such data can cause vagueness in reasoning results. In order to solve the uncertainty issue, we propose an RDFS reasoning approach that utilizes confidence values indicating degrees of uncertainty in the collected data. Unlike conventional reasoning approaches that have not taken into account data uncertainty, by using the in-memory based cluster computing framework Spark, our approach computes confidence values in the data inferred through RDFS-based reasoning by applying methods for uncertainty estimating. As a result, the computed confidence values represent the uncertainty in the inferred data. To evaluate our approach, ontology reasoning was carried out over the LUBM standard benchmark data set with addition arbitrary confidence values to ontology triples. Experimental results indicated that the proposed system is capable of running over the largest data set LUBM3000 in 1179 seconds inferring 350K triples.

키워드

과제정보

연구 과제번호 : WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발

연구 과제 주관 기관 : 정보통신기술진흥센터

참고문헌

  1. Patric Hayes and Brian McBride, RDF Semantics, Technical report, W3C Recommendation, 2004.
  2. Brickley, Dan, and Ramanathan V. Guha, "{RDF vocabulary description language 1.0: RDF schema," 2004.
  3. M. Zaharia, M. Chowdhury, M. J. Franklin, S. Shenker, and I. Stoica, "Spark: Cluster Computing with Working Sets," Proc. of the HotCloud 2010, pp. 10-16, Jun. 2010.
  4. M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. J. Franklin, S. Shenker, and I. Stoica, "Resilient Distributed Datasets: A Fault- Tolerant Abstraction for In-Memory Cluster Computing," Proc. of the 9th USENIX conference on Networked Systems Design and Implementation, 2012.
  5. J. Urbani, "RDFS/OWL reasoning using the Map- Reduce framework," Master thesis. 2009.
  6. Urbani, Jacopo, et al., "WebPIE: a web-scale parallel inference engine," Third IEEE International Scalable Computing Challenge (SCALE2010), Held in Conjunction with the 10th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid 2010), Melbourne, Australia, 2010.
  7. Liu, Chang, et al., "Fuzzy reasoning over RDF data using OWL vocabulary," Proc. of the 2011 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology-Volume 01. IEEE Computer Society, 2011.
  8. Liu, Chang, et al., "Large scale fuzzy pd* reasoning using mapreduce," The Semantic Web-ISWC 2011, Springer Berlin Heidelberg, 405-420, 2011.
  9. Stoilos, Giorgos, and Giorgos Stamou, "Reasoning with fuzzy extensions of OWL and OWL 2," Knowledge and information systems 40.1 (2014): 205-242. https://doi.org/10.1007/s10115-013-0641-y
  10. Mazzieri, Mauro, Aldo Franco Dragoni, and U. P. D. Marche, "A Fuzzy Semantics for Semantic Web Languages," ISWC-URSW. 2005.
  11. Adams, J. Barclay, "Probabilistic reasoning and certainty factors," Rule-Based Expert Systems (1984): 263-271.
  12. Heckerman, David E., and Edward H. Shortliffe, "From certainty factors to belief networks," Artificial Intelligence in Medicine 4.1 (1992): 35-52. https://doi.org/10.1016/0933-3657(92)90036-O
  13. Y. Chai, L. Jia, Z. Zhang, "Mamdani Model based Adaptive Neural Fuzzy Inference System and its Application," International Journal of Information and Mathematical Sciences, pp. 22-29, 2009.
  14. Toth-Laufer, Edit, Marta Takacs, and Imre J. Rudas, "Conjunction and disjunction operators in neuro-fuzzy risk calculation model simplification," Computational Intelligence and Informatics (CINTI), 2012 IEEE 13th International Symposium on. IEEE, 2012.
  15. Jagvaral, Batselem, et al., "Scalable RDFS Reasoning using Logic Programming Approach in a Single Machine," Journal of KIISE 41.10 (2014): 762-773. (in Korean) https://doi.org/10.5626/JOK.2014.41.10.762
  16. Jagvaral, Batselem, and Young-Tack Park. "Distributed scalable RDFS reasoning," Big Data and Smart Computing (BigComp), 2015 International Conference on. IEEE, 2015.