• 제목/요약/키워드: 서브그래프 매칭

검색결과 12건 처리시간 0.024초

그래프 스트림에서 효율적인 근사 Top-k 서브 그래프 매칭 기법 (Efficient Approximate Top-k Subgraph Matching Scheme in Graph Stream)

  • 최도진;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.11-12
    • /
    • 2019
  • IoT 및 SNS의 발달로 인해 관계를 표현하는 그래프 모델링 기법이 활용되고 있다. 실시간 스트림 그래프에서 유사한 모형의 그래프를 탐색하기 위한 근사 Top-k 서브 그래프 매칭에 대한 요구가 증가하고 있다. 본 논문에서는 그래프 스트림에서 간선의 유형 및 구조적 차이를 고려한 효율적인 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 임계값 기반의 필터링과 스트림 환경에 맞는 연속 서브 그래프 매칭 구조를 제안함으로써 그래프 스트림에 적합한 질의 처리를 수행한다.

  • PDF

간선 유형 및 가중치를 고려한 연속 서브 그래프 매칭 기법 (Continuous Subgraph Matching Scheme Considering Edge Types and Weights)

  • 최도진;복경수;이병엽;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.451-452
    • /
    • 2019
  • 논문 검색 서비스 응용에서는 공저자, 출판 정보 등을 표현하기 위해서 다양한 정점 레이블 (논문,저자) 및 간선 정보(주저자, 공저자)를 이용하여 그래프로 표현한다. 이와 함께 다양한 간선 특징 정보를 질의로 입력하는 연속 서브 그래프 매칭에 대한 요구가 존재한다. 본 논문에서는 간선의 다양한 특성을 지원하고 색인의 부하를 감소시킨 연속 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 거리 값과 질의 연관 정보만을 관리하여 간선의 다양한 특성을 지원하는 효율적인 서브 그래프 매칭을 수행한다.

  • PDF

워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법 (Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding)

  • 최도진;오영호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권8호
    • /
    • pp.33-43
    • /
    • 2022
  • 지식 그래프 및 단백질 상호 작용과 같은 실제 데이터에서 개체들과 개체들의 관계 및 구조를 나타내기 위해 레이블 그래프를 사용한다. IT의 급속한 발전과 데이터의 폭발적인 증가로 사용자에게 관심 있는 정보를 제공하기 위한 서브 그래프 매칭 기술이 필요하다. 본 논문은 레이블의 의미적 유사성과 그래프 구조 차이를 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 레이블 의미적 유사도를 고려하기 위하여 FastText을 활용한 학습 모델을 이용한다. 레이블 간 의미적 유사도를 미리 계산한 LSG(Label Similarity Graph)를 통해 처리 속도의 효율을 높인다. LSG를 통해 레이블이 정확하게 일치해야 확장이 가능한 기존 연구의 한계를 해결한다. 2-hop까지 탐색을 수행함으로써 질의 그래프에 대한 구조적 유사성을 지원한다. 매칭된 서브 그래프는 유사도 값 기반으로 Top-k 결과를 제공한다. 제안하는 기법의 우수성을 보이기 위하여 다양한 성능평가를 수행한다.

대용량 그래프 환경에서 스카이라인을 이용한 서브 그래프 유사도 측정 기법 (A Similarity Measurement Scheme using Skyline Queryin Large-scale Graph Environments)

  • 임종태;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.47-48
    • /
    • 2017
  • 최근 각종 실험 장비의 발전에 따라 유사 서브 그래프 매칭에 대한 연구가 활발하게 진행되고 있다. 하지만 유사 서브 그래프 매칭은 다수의 최종 결과들이 반환되었을 경우, 사용자는 어떤 결과가 자신에게 가장 유의미한 결과인지를 판별하기 힘든 문제점이 존재한다. 본 논문에서는 대용량 그래프 환경에서 스카이라인을 이용한 서브 그래프 유사도 측정 기법을 제안한다. 제안하는 기법은 스카이라인 기법과 피드백에 기반한 랭킹을 수행하여 유사 서브 그래프 매칭에서 사용자에게 유의미한 결과를 반환한다.

  • PDF

대용량 그래프에서의 유사 매칭을 위한 그래픽 사용자 인터페이스 기반 서브 그래프 생성 도구에 대한 연구 (A Study on GUI based Subgraph Generation Tool for Similar Matching in Large Capacity Graphs)

  • 송재오;홍승민;이상문
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.349-350
    • /
    • 2018
  • 최근 빅데이터를 비롯한 각종 실험 장비의 발전에 따라 첨단 분야에서의 과학데이터가 급격히 증가하고 있는 가운데, 그래프 매칭은 컴퓨터 네트워크 모니터링, 소셜 네트워크의 진화 분석, 생물학 네트워크에서 모티프(motif) 탐지 등 네트워크 분석 및 데이터 마이닝 분야에서 널리 활용되고 있다. 이와 같이, 폭발적으로 증가하는 데이터에 대한 네트워크 모델링 및 유사 그래프 매칭 분석을 수행하기 위한 연구 및 기반 기술 개발은 필수적인 실정이다. 본 논문에서는 이미 확보된 대용량 그래프에서 유사한 형태의 서브 그래프를 매칭할 수 있는 GUI(Graphic User Interface)기반의 생성 도구를 제안한다.

  • PDF

대용량 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법 (Approximate Top-k Subgraph Matching Scheme Considering Data Reuse in Large Graph Stream Environments)

  • 최도진;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제20권8호
    • /
    • pp.42-53
    • /
    • 2020
  • 소셜 네트워크 서비스의 발전과 함께 다양한 응용에서 객체 간의 관계를 표현하기 위한 그래프 자료구조가 자주 활용되고 있다. 최근에는 실시간 그래프 스트림에서 서브 그래프 매칭의 요구가 늘어나고 있다. 따라서 실시간 그래프 스트림에서 높은 응답성을 위한 효율적인 근사 Top-k 매칭 기술이 필요하다. 본 논문에서는 그래프 스트림 환경에서 데이터 재사용을 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 대용량 스트림을 효율적으로 처리하기 위해서 기존 분산 스트림 처리 플랫폼인 스톰을 활용하고 스트림 처리 비용을 감소시키기 위한 기존 데이터 재사용 방법을 활용한다. Top-k 결과 생성을 위해서 거리 기반의 요약 색인 기법을 제안한다. 제안하는 요약 색인은 사전에 선택된 정점 간의 거리 값만을 저장하기 때문에 색인의 부하가 적다. 제안하는 요약 색인에서의 근사 Top-k를 수행하여 사용자에게 근사한 k개의 결과를 제공한다. 제안하는 기법의 우수성을 입증하기 위해 다양한 실세계 그래프 데이터 집합에서의 성능 평가를 수행한다.

구조적 차이를 고려한 서브 그래프 매칭을 위한 요약 색인 기법 (Summary Indexing Scheme for Subgraph Matching Considering Structural Differences)

  • 최도진;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.447-448
    • /
    • 2019
  • 생명 공학 분야에서는 노이즈가 많고 불완전한 데이터 집합의 사용이 많이 이루어진다. 불완전한 그래프에서 구조적 차이를 고려한 근사 서브 그래프 매칭에 대한 활용이 이루어지고 있다. 본 논문에서는 기존 기법에서 모든 데이터 및 경우의 수를 색인하는 과도한 색인 문제와 계산 비용 감소를 위한 요약 색인 기법을 제안한다. 구조적 차이 정보를 저장하기 위해서 특정 정점간의 최단 거리 값을 관리하고, 색인 부하 감소 및 일관성을 위해 요약 색인에 대한 간결화 작업을 수행한다.

  • PDF

그래프 기반의 이상 행위 탐지 시스템: 설계 및 이슈 (Graph-based Fraud Detection System: Design and Issue Review)

  • 이정훈;김동원;채송이
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.820-821
    • /
    • 2017
  • 최근 전자상거래의 활성화로 인해 전자금융거래에서 불법/이상 행위로 인한 피해규모가 증가하고 그 수법이 다양해지고 있다. 본 논문에서는 동적 그래프 처리 기술인 스트리밍 그래프 데이터에 대한 서브그래프 매칭 기술과 그래프 가시화 기술을 활용하여 불법/이상 행위를 탐지하는 클라이언트-서버 아키텍처 기반의 프레임워크를 설계한다. 그리고 불법/이상 행위를 탐지하는데 활용될 수 있는 기반 기술인 동적 그래프 매칭 기술과 그래프 가시화 기술의 최신 동향을 리뷰하고 최신 기술이 가진 한계 및 이슈를 제시한다.

시계열 데이터베이스에서 순위를 지원하는 서브시퀀스 매칭 방법을 위한 시각화 툴 (A Visualization Tool for Ranked Subsequence Matching in Time-Series Databases)

  • 이성진;이진수;조훈;한욱신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.787-788
    • /
    • 2009
  • 시계열 데이터(time-series data)는 연속적인 데이터를 고정된 시간 간격으로 샘플링한 실수 값들의 연속을 의미한다. 시계열 데이터의 예로는, 음악 및 동영상 데이터, 심전도 데이터, 주식 그래프 등의 데이터가 있다. 시계열 데이터는 다시 데이터베이스에 저장 되어있는 데이터 시퀀스(data sequence)와, 사용자에 의해 주어지는 질의 시퀀스(query sequence)로 분류된다. 시계열 데이터베이스(time-series database)에서 순위를 지원하는 서브시퀀스 매칭 방법(ranked subsequence matching)은 데이터 시퀀스와 질의 시퀀스가 주어졌을 때, 질의 시퀀스의 길이와 같은 데이터 시퀀스의 서브시퀀스(subsequence)들 중에서 질의 시퀀스와 가장 유사한 상위 k개의 서브시퀀스들을 찾는 것이다. 본 논문의 목적은 사용자가 매칭 방법에 대한 인식과 이해가 부족하더라도 기존의 콘솔 기반의 매칭 프로그램을 보다 쉽게 사용할 수 있도록 이용성을 향상시키기 위하여 시각화 툴을 개발하는 것이다. 구체적으로, 5가지 시각화(visualization) 기능을 제공하는 사용자 인터페이스를 구현하였다. 구현된 사용자 인터페이스를 통해 사용자가 기존의 매칭 프로그램을 보다 쉽고 간편하게 사용할 수 있도록 기여한다.

분산 환경에서 경로 질의 기반 서브 그래프 탐색 기법 (Subgraph Searching Scheme Based on Path Queries in Distributed Environments)

  • 김민영;최도진;박재열;김연동;임종태;복경수;최한석;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제19권1호
    • /
    • pp.141-151
    • /
    • 2019
  • 개체 간의 상호 작용을 나타내기 위해 그래프 데이터 형태의 네트워크가 많은 애플리케이션에서 사용되고 있다. 최근에는 빅데이터 기술의 발달로 처리해야할 네트워크의 크기가 점점 커짐에 따라 하나의 서버에서 이를 처리하기 어려워졌기 때문에 분산 처리의 필요성 또한 증가하고 있다. 본 논문에서는 이러한 그래프 데이터가 분산 저장되어있는 환경에서 서브 그래프 탐색을 효율적으로 수행하기 위한 분산 처리시스템을 제안한다. 불필요한 탐색을 줄이기 위해 데이터의 통계정보를 활용해 확률적인 스코어링을 통해 탐색 순서를 정한다. 그래프 네트워크의 정점과 차수의 관계는 데이터의 종류에 따라 다른 특성을 보일 수 있기 때문에 여러 분포적 특성을 갖는 그래프에 대해 다른 스코어링 방법을 통해 불필요한 탐색을 줄이기 위한 스코어를 계산하여 탐색 순서를 결정한다. 결정된 순서에 따라 그래프가 분산 저장된 서버에서 순차적으로 탐색한다. 성능평가에서는 제안하는 기법의 우수성을 입증하기 위해 기존 기법과의 비교를 수행하였으며, 그 결과 기존 기법보다 탐색 시간이 약 3~10% 향상됨을 보였다.