• 제목/요약/키워드: 그래프 마이닝

검색결과 71건 처리시간 0.029초

그래프 마이닝에서 그래프 동형판단연산의 향상기법 (Improved approach of calculating the same shape in graph mining)

  • 노영상;윤은일;김명준
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.251-258
    • /
    • 2009
  • 그래프마이닝에서 그래프패턴의 동형판단문제는 지수함수적 계산시간을 요구하기 때문에 그래프마이닝의 전체수행시간에서 동형판단 연산이 차지하는 비율이 매우 높다. 그러므로 그래프마이닝 알고리즘은 그래프동형판단을 최대한 효율적으로 할 필요가 있다. 본 논문은 그래프마이닝에서 빠른 수행시간을 보이는 gaston 알고리즘의 동형판단효율성을 증가시켜 수행시간을 평가해 보았으며, 제시한 방법으로 인해 더욱 향상된 성능을 보인다.

그래프 마이닝을 이용한 뉴스 데이터 분석 기법 (News Data Analysis Technique using Graph Mining)

  • 이창주;박기성;한용구;이영구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.730-733
    • /
    • 2015
  • 대용량의 인터넷 뉴스 데이터로부터 유용한 정보를 찾기 위해 연관 키워드, 핫 키워드 분석과 같은 다양한 분석 기술들이 연구되고 있다. 기존의 토픽 모델 기반의 기법은 키워드들간의 연관성을 제대로 표현하지 못하여 마이닝한 연관 키워드와 핫 키워드의 정확도가 낮은 문제점이 있다. 최근, 뉴스 데이터를 뉴스 내의 단어를 버텍스로, 같은 문장내의 단어들을 에지로 연결하는 그래프 기반의 모델링기법이 연구되었다. 이러한 뉴스 그래프 DB에서 그래프 마이닝 기술을 적용하면 연관 키워드, 핫 키워드를 마이닝 할 수 있다. 본 논문은 그래프 마이닝 기술 기반의 효과적인 뉴스 데이터 분석 기술을 제안한다. 실제 뉴스 데이터를 통해 마이닝한 유용한 뉴스 그래프 패턴들을 보이고 뉴스 데이터 분석에 효과적으로 활용될 수 있음을 보인다.

순환 그래프 마이닝에서 중복된 그래프 패턴의 확장을 피하는 효율적인 기법 (An efficient approach of avoiding extensions of duplicated graph patterns in cyclic graph mining)

  • 노영상;윤은일;편광범;양흥모;이강인;류근호;이경민
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.33-41
    • /
    • 2011
  • 그래프 마이닝에서 복잡한 그래프 구조로 인해, 중복된 확장 연산이 수행되며 이로인해 낮은 효율성을 가지게 된다. 본 논문에서는 순환그래프에서 중복된 그래프 패턴으로의 확장을 최소화하기위해 중복 판단을 효율적으로 하는 그래프 마이닝 알고리즘을 제안한다. 제안하는 기법에서는 순환간선의 우선순위를 고려하여 우선순위가 낮은 간선을 먼저 확장하게 함으로써 중복확장을 줄이도록 하였다. 이 기법의 성능을 평가하기 위해, 알고리즘을 구현하고 그래프 마이닝의 대표 알고리즘인 가스톤 알고리즘과 성능 평가를 하였으며, 제안하는 알고리즘이 복잡한 그래프 구조에서 반복되어 발생하는 연산중 하나인 순환 그래프에서 패턴 확장 시에 필요한 연산을 효율적으로 줄이도록하여 전체 마이닝의 성능이 향상됨을 보인다.

길이에 따라 감소하는 빈도수 제한조건을 고려한 가중화 그래프 패턴 마이닝 기법 (A Weighted Frequent Graph Pattern Mining Approach considering Length-Decreasing Support Constraints)

  • 윤은일;이강인
    • 인터넷정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.125-132
    • /
    • 2014
  • 대규모의 데이터베이스로부터 숨겨진 유용한 패턴 정보를 찾기 위해 빈발 패턴 마이닝이 제안된 이래로, 다양한 종류의 접근 방법들과 어플리케이션들이 연구되어 왔다. 특히, 빈발 그래프 패턴 마이닝은 계속해서 복잡해져 가는 최근의 데이터들을 효과적으로 다루기 위해 제안되었고, 이와 관련한 다양한 효율적인 알고리즘들이 연구되어 왔다. 그래프 데이터베이스로부터 얻을 수 있는 그래프 패턴들은 이를 구성하는 요소들에 따라 다른 중요도를 가지며 길이에 따라 다른 특성을 갖는다. 하지만, 전통적인 빈발 그래프 패턴 마이닝 접근 방법들은 이러한 문제들을 고려할 수 없다는 한계점을 지닌다. 즉, 기존의 방법들은 마이닝 과정에서 추출되는 그래프 패턴들의 길이에 상관없이 오직 하나의 최소 지지도 임계값만을 고려하고 이들의 가중치 요소들을 사용하지 않기 때문에, 실제적으로 쓸모없는 그래프 패턴들이 상당량 생성될 수 있다. 작은 수의 정점과 간선을 갖는 작은 그래프 패턴들은 이들에 대한 가중화 지지도 값이 상대적으로 높을 때 흥미로운 특성을 갖는 경향이 있는 반면, 많은 정점과 간선을 갖는 큰 그래프 패턴들은 비록 가중화 지지도 값이 상대적으로 낮을지라도 흥미로운 특성을 가질 수 있다. 이러한 이유로, 본 논문에서는 길이에 따라 감소하는 지지도 제한조건을 고려한 가중치 기반의 빈발 그래프 패턴 마이닝 알고리즘을 제안한다. 본 논문에서 제공되는 총체적인 실험 결과들은 제안되는 방법이 기존의 최신 그래프 마이닝 알고리즘과 비교하여 패턴 생성, 수행시간, 그리고 메모리 사용량 측면에서 더욱 뛰어난 성능을 보장함을 보인다.

소셜 네트워크 서비스에서의 그래프 마이닝 기법에 관한 조사 (A Survey on Graph Mining in Social Network Service)

  • 이지현;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1270-1271
    • /
    • 2011
  • 소셜 네트워크 서비스는 가트너에서 2011년에 이어 2012년에도 각광받을 기술의 하나로 선정된 만큼 미래 인터넷의 핵심 키워드 중 하나로도 뽑히며, 엔터테인먼트, 검색, 방송, 커머스 등의 여러 가지 서비스와 직접 연결된다. 이러한 소셜 네트워크 서비스 가운데 하이브리드형 서비스는 사용자의 정보를 관리 및 파악하여 사용자가 원하는 제품을 예측하고 추천해주고 있으며, 이를 위해 그래프 마이닝 기술을 적용하고 있다. 하지만 그래프 마이닝 기술은 아직 복잡한 그래프 구조의 데이터에서 정보를 추출하기에 제약사항들이 발생하므로 이에 대하여 많은 연구가 활발히 이루어지고 있다. 이러한 그래프 마이닝 기술을 나아가 더 발전시켜 활용하면 기존의 하이브리드형 서비스에서 사용자의 정보를 파악하여 충성도를 높여줄 뿐 아니라 기업에서의 타켓 마케팅과 원투원 마케팅을 가능하게 해주고 기존 사용자에 대한 교차 판매와 격상판매의 전략들을 도출할 수 있을 것이다.

그래프 기반 텍스트 마이닝의 연구 동향 (Research Trends of Graph-Based Text Mining)

  • 장재영;한종빈;좌태빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1074-1077
    • /
    • 2013
  • 텍스트 마이닝은 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 주제별로 제시한다.

자유트리 기반의 그래프마이닝 기법 분석 (Analysis of Graph Mining based on Free-Tree)

  • 노영상;윤은일;류근호;김명준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.275-278
    • /
    • 2008
  • 데이터마이닝은 현재 매우 각광 받고 있는 분야다. 연관규칙탐사는 트랜잭션 데이터베이스에서 일정빈도 이상의 패턴을 찾아내는 작업을 말한다. 그중 빈발서브그래프패턴 마이닝은 최근 관심이 늘어나고 있으며, 그 활용도 또한 매우 높다. 그래프마이닝은 아이템셋마이닝보다 훨씬 더 많은 계산을 필요로 한다. 중복을 최소화 하는 방법이 필요하며, 그중 가장 좋은 성능을 보이는 GASTON 알고리즘을 분석한다.

텍스트 마이닝을 위한 그래프 기반 텍스트 표현 모델의 연구 동향 (A Study on Research Trends of Graph-Based Text Representations for Text Mining)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.37-47
    • /
    • 2013
  • 텍스트 마이닝은 비정형화된 텍스트를 분석하여 그 안에 내재된 패턴, 추세, 분포 등의 고급정보들을 추출하는 분야이다. 텍스트 마이닝은 기본적으로 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 기술한다. 또한 그래프 기반 텍스트 마이닝의 향후 발전방향에 대해서도 논한다.

시간 세그먼트 기반 행위 패턴 그래프 모델링 기법 (A Method for Time Segment based Activity Pattern Graph Modeling)

  • 박기성;한용구;김진승;이영구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.183-185
    • /
    • 2012
  • 행위 DB로부터 행위패턴 분석 및 마이닝을 위해서는 정교한 행위패턴 모델링 기술이 수반되어야 한다. 기존의 그래프기반 행위 패턴 모델링 방법은 하루 행위 시퀀스들의 동일한 행위 시퀀스 세그먼트를 찾아 하나의 행위 시퀀스로 결합시켜 행위 그래프를 생성하였다. 이 방법은 서로 다른 시간에 발생한 행위 시퀀스 세그먼트들이 하나의 행위 시퀀스로 결합되는 문제가 발생한다. 본 논문에서는 하루의 행위 시퀀스를 시간 세그먼트 단위로 분할하고, 각 시간 세그먼트별로 행위 그래프를 생성하여 정교한 행위 그래프 모델을 수립하는 방법을 제안한다. 그래프 마이닝 기법들을 활용한 실험을 통하여 제안하는 행위패턴 모델링 기법이 기존의 행위 그래프 모델 기법보다 더 유용함을 보인다.

대용량 그래프 압축과 마이닝을 위한 그래프 정점 재배치 분산 알고리즘 (A Distributed Vertex Rearrangement Algorithm for Compressing and Mining Big Graphs)

  • 박남용;박치완;강유
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1131-1143
    • /
    • 2016
  • 수십억 개 간선들로 구성된 대용량 그래프를 어떻게 효과적으로 압축할 수 있을까? 정점 재배치를 통해 인접 행렬의 0이 아닌 값들을 집중시키면 그래프를 효율적으로 압축할 수 있을 뿐 아니라 페이지랭크 등 여러 그래프 마이닝 알고리즘의 수행 속도를 개선할 수 있다. 최신 정점 재배치 기법인 SlashBurn은 실세계 네트워크의 멱법칙 특성을 활용하는 실세계 그래프에 효과적인 방법이다. 하지만 단일 머신 기반으로 설계되어 대용량 그래프에 대해 처리 속도가 현저히 느려지거나 적용이 불가능한 한계가 있다. 본 논문에서는 이러한 한계를 극복하기 위한 분산 SlashBurn을 제안한다. 분산 SlashBurn은 대규모의 정점 재배치 프로세스를 분산 처리하여 대용량 그래프를 기존 방법보다 훨씬 빠르고 확장성 있게 처리한다. 대용량 실세계 그래프들에 대한 실험 결과, 분산 SlashBurn은 단일 머신 SlashBurn보다 45배 이상 빠르게 동작하였고, 16배 이상 큰 그래프를 처리할 수 있었다.