• Title/Summary/Keyword: 그래프 기법

Search Result 731, Processing Time 0.027 seconds

A Path Partitioning Technique for Indexing XML Data (XML 데이타 색인을 위한 경로 분할 기법)

  • 김종익;김형주
    • Journal of KIISE:Databases
    • /
    • v.31 no.3
    • /
    • pp.320-330
    • /
    • 2004
  • Query languages for XML use paths in a data graph to represent queries. Actually, paths in a data graph are used as a basic constructor of an XML query. User can write more expressive Queries by using Patterns (e.g. regular expressions) for paths. There are many identical paths in a data graph because of the feature of semi-structured data. Current researches for indexing XML utilize identical paths in a data graph, but such an index can grow larger than source data graph and cannot guarantee efficient access path. In this paper we propose a partitioning technique that can partition all the paths in a data graph. We develop an index graph that can find appropriate partitions for a path query efficiently. The size of our index graph can be adjusted regardless of the source data. So, we can significantly improve the cost for index graph traversals. In the performance study, we show our index much faster than other graph based indexes.

An Efficient Traversal Algorithm for Large Hypergraphs and its Applications for Graph Analysis (대용량 하이퍼그래프에 대한 효율적인 탐색 기법과 분석에의 응용)

  • Ryu, Chungmo;Seo, Junghyuk;Kim, Myoung Ho
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.8
    • /
    • pp.492-497
    • /
    • 2017
  • A hypergraph consists of a set of nodes and hyperedges that connect an arbitrary number of nodes. We employ graph traversal algorithms such as BFS and DFS to analyze or explore hypergraph data. However, the conventional BFS and DFS do not consider the structural characteristics of hyperedges. In this paper, we propose a method to record visited edges and nodes during the traversal algorithm for data stored in hypergraphDB. In the experiments, we conduct various hypergraph analyses that utilize traversal algorithms and show that our method achieves a fewer number of database accesses and faster processing time than the conventional one.

Implementation of Regular Path Expression for XML Query (XML질의를 위한 정규 경로 표현 구현 기법)

  • 박성희;김대중;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.100-102
    • /
    • 2001
  • XML과 같은 반 구조 데이터는 일반적으로 방향그래프 기반의 데이터 모델을 가지므로 XML에 대한 질의는 이러한 그래프를 탐색하기 위한 패스 표현을 기반으로 한다. 도한 구조가 정형화되지 않고 빠르게 변하기 때문에 질의시 특정한 패턴을 탐색하기 위해 정규 경로 표현이 이용된다. 그러나 이러한 정규 경로 표현은 실행시에 전체 데이터베이스 그래프를 탐색하므로 실행 비용이 매우 높다는 문제점이 있다. 따라서 이 논문에서는 정규 경로 표현 연산자를 효율적으로 실행하기 위해 데이터 그래프에 대한 경로 인덱스와 SQL의 패턴 매치를 이용한 경로 표현 질의 변환기법을 제시한다. 즉, XML-QL 질의언어에 포함된 정규 패스 표현 연산자를 관계형 데이터베이스를 기반으로 효율적으로 실행할수 있는 질의 변환 기법과 경로 인덱스그래프를 이용하여 처리비용이 높은 순환연산을 처리할 수 있는 기법을 구형하여 성능 평가를 실시한 결과를 보여준다.

  • PDF

A Design of Node ID Assignment for 2-Hop Label Size Reduction of DAG (DAG에 대한 2-Hop 레이블 크기를 줄이기 위한 노드 아이디 부여 기법 설계)

  • Ahn, Jinhyun;Im, Dong-Hyuk;Kim, Hong-Gee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.831-832
    • /
    • 2017
  • 링크드오픈데이터를 통해 다양한 분야의 RDF 데이터가 공개되고 있으며 그 양이 지속적으로 증가하고 있다. RDF 데이터는 그래프 형태이기 때문에 대용량 RDF 데이터를 효율적으로 관리하기 위한 그래프 데이터베이스에 대한 연구가 중요하다. 2개의 RDF 리소스가 그래프 상에서 연결됐는지 여부를 알아내는 기능은 RDF 요소간 연관관계를 식별하는 데에 관련이 있기 때문에 그래프 데이터베이스의 중요한 기능 중 하나이다. 대용량 그래프 데이터에 대한 그래프 도달가능성을 빠르게 처리하기 위해서 2-Hop 레이블링 변형들이 제안됐다. 최근에 2-Hop 레이블 크기를 줄이기 위해 2-Hop 레이블링이 진행되기 전에 노드 아이디를 부여하는 방법이 제안됐다. 하지만 그래프의 지역 정보만을 활용하기 때문에 복잡한 형태의 그래프에 대해서는 비효율적이라는 문제점이 있다. 본 논문에서는 그래프의 전역 정보를 반영할 수 있는 Topological Sort를 활용한 노드 아이디 부여 기법에 대한 설계를 제안한다.

Dynamic Block Reassignment for Load Balancing of Block Centric Graph Processing Systems (블록 중심 그래프 처리 시스템의 부하 분산을 위한 동적 블록 재배치 기법)

  • Kim, Yewon;Bae, Minho;Oh, Sangyoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.5
    • /
    • pp.177-188
    • /
    • 2018
  • The scale of graph data has been increased rapidly because of the growth of mobile Internet applications and the proliferation of social network services. This brings upon the imminent necessity of efficient distributed and parallel graph processing approach since the size of these large-scale graphs are easily over a capacity of a single machine. Currently, there are two popular parallel graph processing approaches, vertex-centric graph processing and block centric processing. While a vertex-centric graph processing approach can easily be applied to the parallel processing system, a block-centric graph processing approach is proposed to compensate the drawbacks of the vertex-centric approach. In these systems, the initial quality of graph partition affects to the overall performance significantly. However, it is a very difficult problem to divide the graph into optimal states at the initial phase. Thus, several dynamic load balancing techniques have been studied that suggest the progressive partitioning during the graph processing time. In this paper, we present a load balancing algorithms for the block-centric graph processing approach where most of dynamic load balancing techniques are focused on vertex-centric systems. Our proposed algorithm focus on an improvement of the graph partition quality by dynamically reassigning blocks in runtime, and suggests block split strategy for escaping local optimum solution.

Caching Scheme Considering Access Patterns in Graph Environments (그래프 환경에서 접근 패턴을 고려한 캐싱 기법)

  • Yoo, Seunghun;Kim, Minsoo;Bok, Kyoungsoo;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.19-20
    • /
    • 2017
  • 최근 소셜 미디어와 센서 장비의 기술의 발달로 그래프 데이터의 양이 급격히 증가 하였다. 그래프 데이터의 처리 과정에서 I/O 비용이 발생하여 데이터가 많아지면 병목현상으로 인해 데이터의 처리와 관리에 있어 성능에 한계가 발생한다. 이러한 문제를 해결하기 위해 데이터를 메모리에서 관리하는 캐시 기법에 대한 연구가 이루어 졌다. 본 논문에서는 서브그래프 데이터의 접근 패턴을 고려한 캐싱 기법을 제안한다. 그래프 환경에서 그래프 질의 이력을 통해 패턴을 찾고 질의 관리 테이블과 FP(frequent pattern)-Tree 통해 선별된 데이터를 메모리에 적재시킨다. 또한, 캐시 실패(cache miss)가 발생 하였을 때, 주변의 이웃 정점을 같이 메모리에 적재시킨다. 메모리가 가득 찰 경우 캐시 된 데이터를 퇴출시키는 교체 전략을 제안한다.

  • PDF

News Data Analysis Technique using Graph Mining (그래프 마이닝을 이용한 뉴스 데이터 분석 기법)

  • Lee, ChangJu;Park, Kisung;Han, Yongkoo;Lee, Young-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.730-733
    • /
    • 2015
  • 대용량의 인터넷 뉴스 데이터로부터 유용한 정보를 찾기 위해 연관 키워드, 핫 키워드 분석과 같은 다양한 분석 기술들이 연구되고 있다. 기존의 토픽 모델 기반의 기법은 키워드들간의 연관성을 제대로 표현하지 못하여 마이닝한 연관 키워드와 핫 키워드의 정확도가 낮은 문제점이 있다. 최근, 뉴스 데이터를 뉴스 내의 단어를 버텍스로, 같은 문장내의 단어들을 에지로 연결하는 그래프 기반의 모델링기법이 연구되었다. 이러한 뉴스 그래프 DB에서 그래프 마이닝 기술을 적용하면 연관 키워드, 핫 키워드를 마이닝 할 수 있다. 본 논문은 그래프 마이닝 기술 기반의 효과적인 뉴스 데이터 분석 기술을 제안한다. 실제 뉴스 데이터를 통해 마이닝한 유용한 뉴스 그래프 패턴들을 보이고 뉴스 데이터 분석에 효과적으로 활용될 수 있음을 보인다.

Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding (워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법)

  • Choi, Do-Jin;Oh, Young-Ho;Bok, Kyoung-Soo;Yoo, Jae-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.8
    • /
    • pp.33-43
    • /
    • 2022
  • Labeled graphs are used to represent entities, their relationships, and their structures in real data such as knowledge graphs and protein interactions. With the rapid development of IT and the explosive increase in data, there has been a need for a subgraph matching technology to provide information that the user is interested in. In this paper, we propose an approximate Top-k labeled subgraph matching scheme that considers the semantic similarity of labels and the difference in graph structure. The proposed scheme utilizes a learning model using FastText in order to consider the semantic similarity of a label. In addition, the label similarity graph(LSG) is used for approximate subgraph matching by calculating similarity values between labels in advance. Through the LSG, we can resolve the limitations of the existing schemes that subgraph expansion is possible only if the labels match exactly. It supports structural similarity for a query graph by performing searches up to 2-hop. Based on the similarity value, we provide k subgraph matching results. We conduct various performance evaluations in order to show the superiority of the proposed scheme.

Indexing Mechanism for Efficient Semantic Query Processing (효율적인 시멘틱 질의 처리를 위한 인덱싱 기법)

  • Kim Hak-Soo;Cha Hyun-Seok;Son Jin-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.97-100
    • /
    • 2006
  • RDF 는 트리플의 집합으로서 그래프 데이터 모델로 표현되며, 사용자는 RDF 그래프 모델로부터 정보를 검색하기 위해 시멘틱 질의 언어를 사용한다. 그러나 이러한 접근 방식은 최악의 경우 전체 그래프 데이터 모델을 검색해야 되는 문제점이 발생한다. 이에 따라 최근의 연구에서는 시멘틱 질의를 효율적으로 처리하기 위해서 인덱스를 사용한다. 시멘틱 질의 언어(RDQL, SPARQL)의 핵심은 RDF 트리플에 대한 패턴을 기술함으로써 원하는 트리플 정보를 검색할 수 있게 하는 것이다. 따라서, 기존의 인덱스는 단일 트리플을 효율적으로 검색하는 데 초점을 둔다. 거라나 트리플 패턴의 집합으로 질의가 표현될 경우에는 트리플 패턴 사이의 상관관계 때문에 조인비용이 많이 발생하는 문제점이 있다. 본 논문에서는 조인 비용이 발생되는 문제점을 해결하기 위한 인덱싱 기법을 제안한다. RDF 그래프 모델에서 유지해야 할 정보를 줄이기 위해서 RDF 그래프 모델에 존재하는 유사한 서브 그래프를 하나의 서브 그래프로 병합한다. 병합절차를 마친 여러 서브 그래프에 존재하는 모든 경로를 인덱스에 유지 함으로써 조인 비용을 제거한다.

  • PDF

Extended Multilevel Graph Partitioning Scheme for I/O Efficiency (I/O 효율성을 위해 확장된 Multilevel 그래프 분할 기법)

  • ;R.S. Ramakrishna
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.875-877
    • /
    • 2003
  • 그래프 분할문제에서 대량의 그래프 데이터를 처리하는 것은 계산에서 걸리는 시간보다 파일 입출력을 수행하는 데 걸리는 시간의 비중이 크다. 본 논문은 수행 속도와 분할 성능에 있어서 우수한 그래프 분할 알고리즘 중 하나인 Multilevel Graph Partitioning에 대해 입출력 효율을 높일 수 있도록 확장하는 기법을 제안하고 그 구현에 대해 기술한다. 그래프를 컴퓨터의 가용 메모리를 기준으로 서브 그래프로 나누어 메모리 참조의 지역성이 향상되도록 기존의 Multilevel Graph Partitioning을 확장 하였다. 기존의 방식과 제안된 방식을 테스트 그래프들에 적용하여 그 수행시간을 비교한 결과 그래프 데이터의 크기가 컴퓨터의 주 메모리의 용량에 비해 어느 수준 이상으로 커지면서 제안된 알고리즘이 기존의 방식보다 수행시간에 있어서 좋은 결과를 보인다.

  • PDF