Abstract
It is an important issue to find out the difference between RDF documents, because RDF documents are changed frequently. When RDF documents contain blank nodes, we need a matching technique for blank nodes in the change detection. Blank nodes have a nested form and they are used in most RDF documents. A RDF document can be modeled as a graph and it will contain many subtrees. We can consider a change detection problem as a minimum cost tree matching problem. In this paper, we propose a change detection technique for RDF documents using the labeling scheme for blank nodes. We also propose a method for improving the efficiency of general triple matching, which used predicate grouping and partitioning. In experiments, we showed that our approach was more accurate and faster than the previous approaches.
RDF 문서들은 빈번히 갱신이 발생하므로 RDF 문서간의 변경부분을 찾아내는 것은 중요한 관심사가 된다. RDF 문서 내에 공노드가 존재할 경우 변경부분을 탐지해내려면 공노드간의 매칭을 지원하는 기법이 필요하다. RDF 문서에서 공노드는 내포된 형태로 존재하며 실제 사용되는 RDF 문서 대부분이 공노드를 포함하고 있다. RDF 문서를 그래프로 모델링하면 하나의 문서는 여러 개의 트리로 나누어진다. 따라서 문서간의 변경탐지는 동일한 루트를 가지는 트리간의 최소 비용 매칭 문제로 생각할 수 있다. 본 논문에서는 공노드에 대한 레이블링 기법을 기용하여 내포된 공노드를 포함한 RDF문서의 변경탐지 기법을 제안한다. 또한 공노드가 아닌 일반 트리플들의 비교에 있어서도 효율성을 높이는 술어 그룹화와 분할 기법을 제안한다. 실험을 통해 제안한 기법이 기존의 방법보다 더 정확하며 효율적임을 보였다.