• 제목/요약/키워드: large graph

검색결과 319건 처리시간 0.027초

Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법 (An Efficient Large Graph Clustering Technique based on Min-Hash)

  • 이석주;민준기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.380-388
    • /
    • 2016
  • 그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.

GOMS: Large-scale ontology management system using graph databases

  • Lee, Chun-Hee;Kang, Dong-oh
    • ETRI Journal
    • /
    • 제44권5호
    • /
    • pp.780-793
    • /
    • 2022
  • Large-scale ontology management is one of the main issues when using ontology data practically. Although many approaches have been proposed in relational database management systems (RDBMSs) or object-oriented DBMSs (OODBMSs) to develop large-scale ontology management systems, they have several limitations because ontology data structures are intrinsically different from traditional data structures in RDBMSs or OODBMSs. In addition, users have difficulty using ontology data because many terminologies (ontology nodes) in large-scale ontology data match with a given string keyword. Therefore, in this study, we propose a (graph database-based ontology management system (GOMS) to efficiently manage large-scale ontology data. GOMS uses a graph DBMS and provides new query templates to help users find key concepts or instances. Furthermore, to run queries with multiple joins and path conditions efficiently, we propose GOMS encoding as a filtering tool and develop hash-based join processing algorithms in the graph DBMS. Finally, we experimentally show that GOMS can process various types of queries efficiently.

한 번의 데이터베이스 탐색에 의한 빈발항목집합 탐색 (Frequent Patterns Mining using only one-time Database Scan)

  • 채덕진;김룡;이용미;황부현;류근호
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.15-22
    • /
    • 2008
  • 본 논문에서는 한 번의 데이터베이스 스캔으로 빈발항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 제안하는 알고리즘은 빈발 항목과 그 빈발항목을 포함하고 있는 트랜잭션과의 관계를 나타내는 이분할 그래프(bipartite graph)를 생성한다. 그리고 생성된 이분할 그래프를 이용하여 후보 항목집합들을 생성하지 않고 빈발 항목집합들을 추출할 수 있다. 이분할 그래프는 빈발항목들을 추출하기위해 대용량의 트랜잭션 데이터베이스를 스캔할 때 생성된다. 이분할 그래프는 빈발항목들과 그들이 속한 트랜잭션들 간의 관계를 엣지(edge)로 연결한 그래프이다. 즉, 본 논문에서의 이분할 그래프는 대용량의 데이터베이스에서 쉽게 발견할 수 없는 빈발항목과 트랜잭션의 관계를 검색하기 쉽게 색인(index)화한 그래프이다. 본 논문에서 제안하는 방법은 한 번의 데이터베이스 스캔만을 수행하고 후보 항목집합들을 생성하지 않기 때문에 기존의 방법들보다 빠른 시간에 빈발 항목집합들을 찾을 수 있다.

Ada 프로그램의 Visibility Graph 생성모델에 관한 연구 (A Study on Visibility Graph Generating Model of Ada Program)

  • 정중영;김희주;윤창섭
    • 한국국방경영분석학회지
    • /
    • 제16권2호
    • /
    • pp.56-74
    • /
    • 1990
  • Programming-in-the-Large refers to software development environment and includes the organization and representation of a system structure, module decomposition, component dependence analysis, seperate compilation, subsystem and composition identification. The most intricate problem in this environment is the mastery of the structural complexity of large software systems. Ada programming language is tailored to the needs for building of large, integrated software systems from many program units. The visibility graph generating model presented in this paper transforms Ada source program into a visibility graph with nodes for program units and edges for visibility relations among program units. The system description in terms of program units and their visibility relations produced by this model can be utilized for some apects of Programming-in-the-Large environment and also assists designeers, programmers, integrators and maintainers in defining, understanding and exploring the structure of evolving software systems. The model designed and implemented in Ada programming language runs on PCs and will remain useful both in practice and as experimental tool.

  • PDF

관계기반 요약그래프에서 효율적인 최단경로 탐색기법 (Efficient Shortest Path Techniques on a Summarized Graph based on the Relationships)

  • 김현욱;서호진;이영구
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.710-718
    • /
    • 2017
  • 그래프 데이터가 대용량화됨에 따라 데이터를 저장 및 유지하기 위한 비용이 지속적으로 증가하고 있다. 이와 같은 대용량 그래프에서 최단경로를 탐색하는 것은 빈번한 디스크 I/O와 그래프의 높은 복잡도로 인해 매우 오랜 수행시간을 요구한다. 최근 그래프의 밀집도가 높은 부분그래프를 하나의 슈퍼노드로 표현하여 그래프 크기와 디스크 I/O를 줄이는 그래프 요약 연구가 수행되고 있다. 이와 같은 요약된 그래프에서 효율적으로 최단경로를 탐색하기 위해서는 요약그래프의 복원을 최소화해야 한다. 본 논문에서는 요약그래프의 복원 성능을 분석하고, 이를 이용하여 오차를 최소화하며 빠르게 최단경로를 탐색하는 근사 기법을 제안한다. 또한 최단경로 탐색과정 중 복원이 요구되는 슈퍼노드가 포함된 경로를 사전에 색인으로 구축하여 정확한 최단경로를 효율적으로 탐색하는 기법을 제안한다. 실세계 데이터를 이용한 실험을 통하여 제안하는 요약그래프에서의 최단거리 탐색기법이 원본 그래프를 고려한 기법들보다 최대 70%로 수행시간이 향상되었음을 보인다.

제한된 메모리를 가진 GPU를 이용한 효율적인 그래프 알고리즘 처리 기법 (An Efficient Graph Algorithm Processing Scheme using GPUs with Limited Memory)

  • 송상호;이현병;최도진;임종태;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권8호
    • /
    • pp.81-93
    • /
    • 2022
  • 최근 대용량 그래프의 반복 처리를 위하여 GPU를 이용하는 연구가 진행되고 있다. 메모리가 제한된 GPU를 이용하여 대용량 그래프를 처리하기 위해서는 그래프를 서브 그래프로 분할한 후 서브 그래프들을 스케줄링해서 처리해야 한다. 그러나 활성 정점에 따라 서브 그래프가 처리되기 때문에 그래프 처리 과정 속에서 불필요한 데이터 전송이 반복된다. 본 논문에서는 메모리가 제한된 GPU 환경에서 효율적인 그래프 알고리즘 처리 기법을 제안하고 성능 평가를 수행한다. 제안하는 기법은 그래프 차등 서브 그래프 스케줄링 방법과 그래프 분할 방법으로 구성된다. 대용량 그래프 분할 방법은 GPU에서 효율적으로 처리할 수 있도록 대용량 그래프를 서브 그래프로 분할할 수 있는 방법을 결정한다. 차등 서브그래프 스케줄링 방법은 GPU에서 처리하는 서브그래프를 스케줄링하여 반복적으로 사용되는 HOST-GPU 간의 데이터 중복 전송을 줄인다. 다양한 그래프 처리 알고리즘들의 성능 평가를 수행함으로써 제안하는 기법은 기존 분할 기법 대비 170%, 기존 처리 기법 대비 268% 향상되었다.

Big Data Astronomy: Large-scale Graph Analyses of Five Different Multiverses

  • Hong, Sungryong
    • 천문학회보
    • /
    • 제43권2호
    • /
    • pp.36.3-37
    • /
    • 2018
  • By utilizing large-scale graph analytic tools in the modern Big Data platform, Apache Spark, we investigate the topological structures of five different multiverses produced by cosmological n-body simulations with various cosmological initial conditions: (1) one standard universe, (2) two different dark energy states, and (3) two different dark matter densities. For the Big Data calculations, we use a custom build of stand-alone Spark cluster at KIAS and Dataproc Compute Engine in Google Cloud Platform with the sample sizes ranging from 7 millions to 200 millions. Among many graph statistics, we find that three simple graph measurements, denoted by (1) $n_\k$, (2) $\tau_\Delta$, and (3) $n_{S\ge5}$, can efficiently discern different topology in discrete point distributions. We denote this set of three graph diagnostics by kT5+. These kT5+ statistics provide a quick look of various orders of n-points correlation functions in a computationally cheap way: (1) $n = 2$ by $n_k$, (2) $n = 3$ by $\tau_\Delta$, and (3) $n \ge 5$ by $n_{S\ge5}$.

  • PDF

관계형 데이타베이스에 기반한 그래프 알고리즘의 표현과 구현 (Representation and Implementation of Graph Algorithms based on Relational Database)

  • 박휴찬
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권5호
    • /
    • pp.347-357
    • /
    • 2002
  • 그래프는 실세계의 많은 문제를 효과적으로 모델링하여 해를 구할 수 있는 강력한 방법을 제공하기 때문에 그래프의 표현 방법과 알고리즘 개발에 다양한 연구가 진행되어 왔다. 하지만, 대부분의 연구가 메인 메모리에 수용 가능한 크기를 갖는 그래프만을 고려하였기 때문에 큰 문제에 적용하기 위해서는 아직도 많은 어려움이 존재한다. 이를 극복하기 위하여 본 논문에서는 관계형 데이타베이스 이론에 기반하여 그래프를 표현하고 그래프 알고리즘을 정의할 수 있는 방법을 제안한다. 이 방법에서 그래프는 릴레이션으로 표현되며 그래프의 각 정점과 간선은 이 릴레이션의 튜플로서 저장된다. 이렇게 저장된 그래프에 대한 알고리즘은 추출, 선택, 죠인과 같은 관계대수 연산을 이용하여 정의되며 SQL과 같은 데이타베이스 언어를 사용하여 구현될 수 있다. 또한, 본 논문은 그래프의 저장 및 관리뿐만 아니라 다양한 응용프로그램 개발에도 사용될 수 있는 기본적인 그래프 함수들을 라이브러리화 하였다. 이와 같은 데이터베이스에 기반한 방법은 메모리에 수용되지 않는 크기의 그래프를 효과적으로 처리할 수 있는 방법을 제공할 뿐만 아니라 다양한 응용프로그램 개발을 용이하게 할 것이다. 또한, 데이타베이스가 제공하는 기본적인 기능인 다중사용자에 의한 동시공용 등과 같은 많은 장점을 가진다.

길이에 따라 감소하는 빈도수 제한조건을 고려한 가중화 그래프 패턴 마이닝 기법 (A Weighted Frequent Graph Pattern Mining Approach considering Length-Decreasing Support Constraints)

  • 윤은일;이강인
    • 인터넷정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.125-132
    • /
    • 2014
  • 대규모의 데이터베이스로부터 숨겨진 유용한 패턴 정보를 찾기 위해 빈발 패턴 마이닝이 제안된 이래로, 다양한 종류의 접근 방법들과 어플리케이션들이 연구되어 왔다. 특히, 빈발 그래프 패턴 마이닝은 계속해서 복잡해져 가는 최근의 데이터들을 효과적으로 다루기 위해 제안되었고, 이와 관련한 다양한 효율적인 알고리즘들이 연구되어 왔다. 그래프 데이터베이스로부터 얻을 수 있는 그래프 패턴들은 이를 구성하는 요소들에 따라 다른 중요도를 가지며 길이에 따라 다른 특성을 갖는다. 하지만, 전통적인 빈발 그래프 패턴 마이닝 접근 방법들은 이러한 문제들을 고려할 수 없다는 한계점을 지닌다. 즉, 기존의 방법들은 마이닝 과정에서 추출되는 그래프 패턴들의 길이에 상관없이 오직 하나의 최소 지지도 임계값만을 고려하고 이들의 가중치 요소들을 사용하지 않기 때문에, 실제적으로 쓸모없는 그래프 패턴들이 상당량 생성될 수 있다. 작은 수의 정점과 간선을 갖는 작은 그래프 패턴들은 이들에 대한 가중화 지지도 값이 상대적으로 높을 때 흥미로운 특성을 갖는 경향이 있는 반면, 많은 정점과 간선을 갖는 큰 그래프 패턴들은 비록 가중화 지지도 값이 상대적으로 낮을지라도 흥미로운 특성을 가질 수 있다. 이러한 이유로, 본 논문에서는 길이에 따라 감소하는 지지도 제한조건을 고려한 가중치 기반의 빈발 그래프 패턴 마이닝 알고리즘을 제안한다. 본 논문에서 제공되는 총체적인 실험 결과들은 제안되는 방법이 기존의 최신 그래프 마이닝 알고리즘과 비교하여 패턴 생성, 수행시간, 그리고 메모리 사용량 측면에서 더욱 뛰어난 성능을 보장함을 보인다.

유향 그래프의 최대 경로 길이를 제한하는 최소 노드 집합을 구하는 알고리즘 (Determining Minimal Set of Vertices Limiting The Maximum Path Length in General Directed Graphs)

  • Lee Dong Ho
    • 전자공학회논문지B
    • /
    • 제32B권1호
    • /
    • pp.11-20
    • /
    • 1995
  • A new graph problem is formulated to limit the maximum path length of a general directed graph when a minimal set of vertices together with their incident edges are removed from the graph. An optimal algorithm and a heuristic algorithm are proposed and the proposed heuristic algorithm is shown to be effective through experiments using a collection of graphs obtained from large sequential circuits. The heuristic algorithm is based on a feedback vertex set algorithm based on graph reduction.

  • PDF