• 제목/요약/키워드: graph query processing

검색결과 48건 처리시간 0.028초

대용량 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법 (Approximate Top-k Subgraph Matching Scheme Considering Data Reuse in Large Graph Stream Environments)

  • 최도진;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제20권8호
    • /
    • pp.42-53
    • /
    • 2020
  • 소셜 네트워크 서비스의 발전과 함께 다양한 응용에서 객체 간의 관계를 표현하기 위한 그래프 자료구조가 자주 활용되고 있다. 최근에는 실시간 그래프 스트림에서 서브 그래프 매칭의 요구가 늘어나고 있다. 따라서 실시간 그래프 스트림에서 높은 응답성을 위한 효율적인 근사 Top-k 매칭 기술이 필요하다. 본 논문에서는 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 대용량 스트림을 효율적으로 처리하기 위해서 기존 분산 스트림 처리 플랫폼인 스톰을 활용하고 스트림 처리 비용을 감소시키기 위한 기존 데이터 재사용 방법을 활용한다. Top-k 결과 생성을 위해서 거리 기반의 요약 색인 기법을 제안한다. 제안하는 요약 색인은 사전에 선택된 정점 간의 거리 값만을 저장하기 때문에 색인의 부하가 적다. 제안하는 요약 색인에서의 근사 Top-k를 수행하여 사용자에게 근사한 k개의 결과를 제공한다. 제안하는 기법의 우수성을 입증하기 위해 다양한 실세계 그래프 데이터 집합에서의 성능 평가를 수행한다.

그래프 데이터에 대한 비-중복적 키워드 검색 방법 (A Method for Non-redundant Keyword Search over Graph Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제16권6호
    • /
    • pp.205-214
    • /
    • 2016
  • 최근 소셜 네트워크, 시맨틱 웹, 바이오 인포매틱스 등 여러 응용 분야에서 그래프 구조를 갖는 대용량 데이터들에 활용됨에 따라 이런 데이터들에 대한 키워드 기반 검색 방법이 많은 관심을 받고 있다. 본 논문에서는 그래프 구조 데이터에 대한 키워드 질의에 대해 질의와 연관성이 높으면서 구조적인 중복성을 갖지 않는 top-k 결과 집합을 효율적으로 검색하는 방법을 제안한다. 키워드 질의에 대한 비-중복적인 결과 트리 구조와 그것의 연관도 척도를 정의하고, 그래프 내에 포함된 유용한 경로 정보들에 대한 효과적인 인덱싱 방법을 제안한다. 그리고 기 생성된 인덱스를 활용하여 주어진 키워드 질의에 대해 비-중복적이면서 연관도가 큰 top-k 결과 집합을 생성하는 효율적인 질의 처리 알고리즘을 제시한다. 실 데이터를 이용한 실험을 통해 제안한 방법의 효과와 성능을 기존 방법과 비교 분석한다.

질의 어휘와의 근접도를 반영한 단어 그래프 기반 질의 확장 (Query Expansion based on Word Graph using Term Proximity)

  • 장계훈;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.37-42
    • /
    • 2012
  • 잠정적 적합성 피드백모델은 초기 검색 결과의 상위에 순위화된 문서를 적합 문서라 가정하고, 상위문서에서 빈도가 높은 어휘를 확장 질의로 선택한다. 빈도수를 이용한 질의 확장 방법의 단점은 문서 안에서 포함된 어휘들 사이의 근접도에 상관없이 각 어휘를 독립적으로 생각한다는 것이다. 본 논문에서는 어휘빈도를 이용한 질의 확장을 대체할 수 있는 어휘 근접도를 반영한 단어 그래프 기반 질의 확장을 제안한다. 질의 어휘 주변에 발생한 어휘들을 노드로 표현하고, 어휘들 사이의 근접도를 에지의 가중치로 하여 단어 그래프를 표현한다. 반복된 연산을 통해 확장 질의를 선택함으로써 성능을 향상시키는 기법을 제안한다. 유효성 검증을 위해 웹문서 집합인 TREC WT10g 테스트 컬렉션에 대한 실험에서 언어모델 보다 MAP 평가 기준에서 6.4% 향상됨을 보였다.

Finding Top-k Answers in Node Proximity Search Using Distribution State Transition Graph

  • Park, Jaehui;Lee, Sang-Goo
    • ETRI Journal
    • /
    • 제38권4호
    • /
    • pp.714-723
    • /
    • 2016
  • Considerable attention has been given to processing graph data in recent years. An efficient method for computing the node proximity is one of the most challenging problems for many applications such as recommendation systems and social networks. Regarding large-scale, mutable datasets and user queries, top-k query processing has gained significant interest. This paper presents a novel method to find top-k answers in a node proximity search based on the well-known measure, Personalized PageRank (PPR). First, we introduce a distribution state transition graph (DSTG) to depict iterative steps for solving the PPR equation. Second, we propose a weight distribution model of a DSTG to capture the states of intermediate PPR scores and their distribution. Using a DSTG, we can selectively follow and compare multiple random paths with different lengths to find the most promising nodes. Moreover, we prove that the results of our method are equivalent to the PPR results. Comparative performance studies using two real datasets clearly show that our method is practical and accurate.

Combining Local and Global Features to Reduce 2-Hop Label Size of Directed Acyclic Graphs

  • Ahn, Jinhyun;Im, Dong-Hyuk
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.201-209
    • /
    • 2020
  • The graph data structure is popular because it can intuitively represent real-world knowledge. Graph databases have attracted attention in academia and industry because they can be used to maintain graph data and allow users to mine knowledge. Mining reachability relationships between two nodes in a graph, termed reachability query processing, is an important functionality of graph databases. Online traversals, such as the breadth-first and depth-first search, are inefficient in processing reachability queries when dealing with large-scale graphs. Labeling schemes have been proposed to overcome these disadvantages. The state-of-the-art is the 2-hop labeling scheme: each node has in and out labels containing reachable node IDs as integers. Unfortunately, existing 2-hop labeling schemes generate huge 2-hop label sizes because they only consider local features, such as degrees. In this paper, we propose a more efficient 2-hop label size reduction approach. We consider the topological sort index, which is a global feature. A linear combination is suggested for utilizing both local and global features. We conduct experiments over real-world and synthetic directed acyclic graph datasets and show that the proposed approach generates smaller labels than existing approaches.

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity)

  • 조승현;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.189-194
    • /
    • 2012
  • 본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

시각 요소와 시각 변수를 통한 시각 객체 질의어(VOQL)의 개선 (Improving Visual Object Query language (VOQL) by Introducing Visual Elements and visual Variables)

  • 이석균
    • 한국정보처리학회논문지
    • /
    • 제6권6호
    • /
    • pp.1447-1457
    • /
    • 1999
  • 최근 제안된 시각 객체 질의어(VOQL)는 시각 질의어로 스키마 정보가 시각적으로 질의 표현에 포함되므로 복잡한 구조의 데이터에 대한 질의를 효과적으로 표현할 수 있는 객체 지향 데이터베이스 질의어이다. VOQL은 귀납적으로 정의된 시맨턱을 갖는 그래프 기반 언어로 다양한 텍스트 경로식들을 그래프로 간결하게 표현 할 뿐 아니라 복잡한 경로식의 시맨틱을 명확하게 전달한다. 그러나 기존의 VOQL은 모든 속성을 다중 값으로 가정하고 있고, 객체변수의 바인딩 개념을 시각화하고 있지 못하고 있다. 이로 인해 VOQL 질의문의 표현이 직관적이지 못할 뿐 아니라 이론적 확장이 쉽지 않다. 본 논문에서는 이러한 문제를 해결하도록 VOQL을 개선하고 한다. 단일 값과 다중 값을 갖는 속성의 결과를 각각 시각 요소와 서브 블랍을 통해 시각화하고, 시각변수를 도입하여 객체 변수의 바인딩을 명시화하여 질의문의 시맨틱을 직관적이고, 명확하게 하고 있다.

  • PDF

스토리지 내 프로세싱 방식을 사용한 그래프 프로세싱의 최적화 방법 (Optimization of Graph Processing based on In-Storage Processing)

  • 송내영;한혁;염헌영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권8호
    • /
    • pp.473-480
    • /
    • 2017
  • 최근 들어 플래시 메모리 Solid State Driver(SSD)와 같은 반도체 기반 저장장치가 고성능으로 발전하면서 저장장치 내부 컨트롤러의 CPU와 메모리 같은 자원을 응용의 요구에 맞추어 최적으로 활용해보고자 하는 움직임이 있었다. 이러한 개념을 스토리지 내 프로세싱 방식(In-Storage Processing, ISP)이라고 한다. ISP의 기능이 탑재된 저장장치에서는 호스트에서 수행하던 연산의 일부를 나누어 처리할 수 있으므로 호스트의 부하가 줄어들고 저장장치 내에서 데이터가 가공되어 처리되기 때문에 호스트까지의 데이터 전달 시간이 줄어든다. 본 논문에서는 이러한 ISP 기능을 활용하여 그래프 질의 처리를 최적화하기 위한 방식을 제안하고, 제안된 최적화 그래프 처리 방식이 graph500 벤치마크의 성능을 최대 20%까지 향상 시켰음을 보여준다.

분산 컴퓨터 시스템에서 파일 할당에 관한 연구 (A Study on the File Allocation in Distributed Computer Systems)

  • 홍진표;임재택
    • 대한전자공학회논문지
    • /
    • 제27권4호
    • /
    • pp.571-579
    • /
    • 1990
  • A dynamic relocation algorithm for non-deterministic process graph in distributed computer systems is proposed. A method is represented for determining the optimal policy for processing a process tree. A general database query request is modelled by a process tree which represent a set of subprocesses together with their precedence relationship. The process allocation model is based on operating cost which is a function fo selection of site for processing operation, data reduction function and file size. By using expected values of parameters for non-deterministic process tree, the process graph and optimal policy that yield minimum operating cost are determined. As process is relocated according to threshold value and new information of parameters after the execution of low level process for non-deterministic process graph, the assigned state that approximate to optiaml solution is obtained. The proposed algorihtm is heuristic By performing algorithm for sample problems, it is shown that the proposed algorithm is good in obtaining optimal solution.

  • PDF

온톨로지 추론 모델에 독립적인 SPARQL 추론 질의 처리를 위한 재작성 알고리즘 (A Rewriting Algorithm for Inferrable SPARQL Query Processing Independent of Ontology Inference Models)

  • 정동원;;백두권
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권6호
    • /
    • pp.505-517
    • /
    • 2008
  • 이 논문에서는 SPARQL로 작성된 OWL-DL 온톨로지 질의에 대한 재작성 알고리즘은 제안한다. 현재 웹 온톨로지 저장소는 주어진 SPARQL 질의의 추론 결과를 얻기 위해 추론 온톨로지 모델을 생성하고 SPARQL 질의와 생성된 추곤 온톨로지 모델과의 일치성을 비교한다. 추론 모델은 베이스 온톨로지 모델에 비해 보다 큰 공간을 필요로 하고 다른 추론 질의론 위해 재사용 될 수 없기 때문에 앞서 언급한 접근 방법은 보다 방대한 크기의 SPARQL 질의 처리에 부적합하다. 이러한 문제점을 해결하기 위해 이 논문에서는 비SPARQL 질의를 재작성하고 이를 기본 베이스 온톨로지 모델에 대해 질의 연산을 수행하여 결과를 획득할 수 있는 SPARQL 재작성 알고리즘을 제안한다. 이러한 목적을 이루기 위해, 먼저 OWL-DL 추론 규칙을 정의하고 이를 질의 그래프 패턴 재작성에 적용한다. 또한 추론 규칙들을 분류하고 이러한 규칙들이 질의 재작성에 미치는 영향에 대하여 기술한다. 제안 알고리즘의 장점을 보이기 위해, Jena 기반의 프로토타입 시스템을 구현한다. 비교 평가론 위해 테스트 질의를 이용하여 실험을 수행하고 제안 방법과 기존 접근 방법을 비교한다. 실험 결과에서, 제안 알고리즘이 완전성 및 정확성의 손실없이 메모리 공간 및 온톨로지 로딩 측면에서 향상된 성능을 보였다.