• 제목/요약/키워드: Graph Mining

검색결과 105건 처리시간 0.029초

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

서사 패턴의 연관분석을 통한 이야기 장면 생성 방법 (An Approach for Generating Story-Plot Using Association Analysis of Narrative Patterns)

  • 김정일;이은주
    • 한국IT서비스학회지
    • /
    • 제12권1호
    • /
    • pp.247-257
    • /
    • 2013
  • A narrative structure is essential for a story generator to create a story plot. In digital storytelling system, a narrative structure can be generally designed as a tree or a graph, and the story generator in the digital storytelling system creates continuous story plots based on the narrative structure. When a narrative structure is designed with a tree or a graph, it is hard for the story generator to create various kinds of story-plots due to the inflexible nature of a tree or graph structure. It may result in degrading the quality of story-plots to provide similar story-plot to various kind of user. In this paper, we proposed an approach to create a story-plot based on association analysis of data mining to overcome the disadvantage. In detail, we defined a narrative structure which consists of narrative patterns, and then implemented a story generator which creates a story-plot using the proposed narrative structure. As a result, we confirmed that implemented story generator was able to create a story-plot according to understanding level of user in case study.

베이지안 네트워크와 방사형 그래프를 이용한 섬망의 효과 규명 (The effect investigation of the delirium by Bayesian network and radial graph)

  • 이제영;배재영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.911-919
    • /
    • 2011
  • 최근 의학에서는 정신 질환과 관련된 위험 인자를 찾는 것이 중요해지고 있다. 인자들을 찾아서 인자들의 특성과 관련성을 파악하면 병을 사전에 예방 할 수 있다. 또한 이 연구는 의학 발전에 많은 도움을 줄 수 있다. 정신 질환에 대한 위험요인은 주로 로지스틱 회귀모형을 사용하여 찾아 왔다. 하지만 이 논문에서는 데이터마이닝 기법 중 CART, C5.0, 로지스틱, 신경망, 베이지안 네트워크 방법을 이용한다. 정신장애 질병인 섬망자료를 적용하여, 최적의 모형인 베이지안 네트워크 방법을 선택하였다. 이 베이지안 네트워크 기법을 위험 요소를 찾는데 사용하고, 이 위험인자 간의 관계를 방사형 그래프를 통해서 규명하였다.

Contribution to Improve Database Classification Algorithms for Multi-Database Mining

  • Miloudi, Salim;Rahal, Sid Ahmed;Khiat, Salim
    • Journal of Information Processing Systems
    • /
    • 제14권3호
    • /
    • pp.709-726
    • /
    • 2018
  • Database classification is an important preprocessing step for the multi-database mining (MDM). In fact, when a multi-branch company needs to explore its distributed data for decision making, it is imperative to classify these multiple databases into similar clusters before analyzing the data. To search for the best classification of a set of n databases, existing algorithms generate from 1 to ($n^2-n$)/2 candidate classifications. Although each candidate classification is included in the next one (i.e., clusters in the current classification are subsets of clusters in the next classification), existing algorithms generate each classification independently, that is, without taking into account the use of clusters from the previous classification. Consequently, existing algorithms are time consuming, especially when the number of candidate classifications increases. To overcome the latter problem, we propose in this paper an efficient approach that represents the problem of classifying the multiple databases as a problem of identifying the connected components of an undirected weighted graph. Theoretical analysis and experiments on public databases confirm the efficiency of our algorithm against existing works and that it overcomes the problem of increase in the execution time.

Stability graph method에 의한 석회석 지하채굴 공동의 안정성 평가 (Stability Assessment of Underground Limestone Mine Openings by Stability Graph Method)

  • 선우춘;정용복
    • 터널과지하공간
    • /
    • 제15권5호
    • /
    • pp.369-377
    • /
    • 2005
  • 지하공동의 안정성은 생산성과 안전을 확보해야 하는 광산의 운영에 있어서 가장 중요한 관심사이다. 암반분류는 많은 경험적인 설계방법의 근간을 이룰 뿐만 아니라 수치해석을 위한 기초자료로 이용되고 있다. 공동의 안정성에 영향을 주는 많은 요소들 중 주어진 암반의 조건 중에서 공동폭은 하나의 중요한 설계요소가 된다. 이 논문에서는 Lug에 의해 제안된 한계 공동폭 기준, Mathews stability graph method 그리고 저자들에 의해 제안된 한계 공동폭 기준을 비교하였다. Methews stability graph method를 이용하여 저자들에 의해 수정된 한계 공동폭 기준을 제안하였고 이것을 여러 석회석 광산 지하공동의 안정성을 평가하는 데 사용하였다.

텍스트 마이닝 기반의 그래프 모델을 이용한 미발견 공공 지식 추론 (Inferring Undiscovered Public Knowledge by Using Text Mining-driven Graph Model)

  • 허고은;송민
    • 정보관리학회지
    • /
    • 제31권1호
    • /
    • pp.231-250
    • /
    • 2014
  • 정보통신기술의 발달로 학술 정보의 양이 기하급수적으로 증가하였고 방대한 양의 텍스트 데이터를 처리하기 위한 자동화된 텍스트 처리의 필요성이 대두되었다. 생의학 문헌에서 생물학적 의미와 치료 효과 등에 대한 정보를 발견해내는 바이오 텍스트 마이닝은 문헌 내의 각 개념들 간의 유의미한 연관성을 발견하여 의학 영역에서 상당한 시간과 비용을 줄여준다. 문헌 기반 발견 연구로 새로운 생의학적 가설들이 발견되었지만 기존의 연구들은 반자동화된 기법으로 전문가의 개입이 필수적이며 원인과 결과의 한가지의 관계만을 밝히는 제한점이 있다. 따라서 본 연구에서는 중간 개념인 B를 다수준으로 확장하여 다양한 관계성을 동시출현 개체와 동사 추출을 통해 확인한다. 그래프 기반의 경로 추론을 통해 각 노드 사이의 관계성을 체계적으로 분석하여 규명할 수 있었으며 새로운 방법론적 시도를 통해 기존에 밝혀지지 않았던 새로운 가설 제시의 가능성을 기대할 수 있다.

대용량 그래프 압축과 마이닝을 위한 그래프 정점 재배치 분산 알고리즘 (A Distributed Vertex Rearrangement Algorithm for Compressing and Mining Big Graphs)

  • 박남용;박치완;강유
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1131-1143
    • /
    • 2016
  • 수십억 개 간선들로 구성된 대용량 그래프를 어떻게 효과적으로 압축할 수 있을까? 정점 재배치를 통해 인접 행렬의 0이 아닌 값들을 집중시키면 그래프를 효율적으로 압축할 수 있을 뿐 아니라 페이지랭크 등 여러 그래프 마이닝 알고리즘의 수행 속도를 개선할 수 있다. 최신 정점 재배치 기법인 SlashBurn은 실세계 네트워크의 멱법칙 특성을 활용하는 실세계 그래프에 효과적인 방법이다. 하지만 단일 머신 기반으로 설계되어 대용량 그래프에 대해 처리 속도가 현저히 느려지거나 적용이 불가능한 한계가 있다. 본 논문에서는 이러한 한계를 극복하기 위한 분산 SlashBurn을 제안한다. 분산 SlashBurn은 대규모의 정점 재배치 프로세스를 분산 처리하여 대용량 그래프를 기존 방법보다 훨씬 빠르고 확장성 있게 처리한다. 대용량 실세계 그래프들에 대한 실험 결과, 분산 SlashBurn은 단일 머신 SlashBurn보다 45배 이상 빠르게 동작하였고, 16배 이상 큰 그래프를 처리할 수 있었다.

웹 환경에서의 그래프 처리 (Graph Processing on the Web Environment)

  • 박성헌;박지헌
    • 한국전자거래학회지
    • /
    • 제5권2호
    • /
    • pp.113-125
    • /
    • 2000
  • There are many web-based applications which need graphs and charts to be generated from data stored in the database. This paper does a comparative study on graph processing techniques for web-based applications through a case study of building a stock information system. The result of this paper can be used for building effective web applications with graphs in areas of EC(electronic commerce), EIS(executive information system), and DM(data mining).

  • PDF

A Dependency Graph-Based Keyphrase Extraction Method Using Anti-patterns

  • Batsuren, Khuyagbaatar;Batbaatar, Erdenebileg;Munkhdalai, Tsendsuren;Li, Meijing;Namsrai, Oyun-Erdene;Ryu, Keun Ho
    • Journal of Information Processing Systems
    • /
    • 제14권5호
    • /
    • pp.1254-1271
    • /
    • 2018
  • Keyphrase extraction is one of fundamental natural language processing (NLP) tools to improve many text-mining applications such as document summarization and clustering. In this paper, we propose to use two novel techniques on the top of the state-of-the-art keyphrase extraction methods. First is the anti-patterns that aim to recognize non-keyphrase candidates. The state-of-the-art methods often used the rich feature set to identify keyphrases while those rich feature set cover only some of all keyphrases because keyphrases share very few similar patterns and stylistic features while non-keyphrase candidates often share many similar patterns and stylistic features. Second one is to use the dependency graph instead of the word co-occurrence graph that could not connect two words that are syntactically related and placed far from each other in a sentence while the dependency graph can do so. In experiments, we have compared the performances with different settings of the graphs (co-occurrence and dependency), and with the existing method results. Finally, we discovered that the combination method of dependency graph and anti-patterns outperform the state-of-the-art performances.

Combining Local and Global Features to Reduce 2-Hop Label Size of Directed Acyclic Graphs

  • Ahn, Jinhyun;Im, Dong-Hyuk
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.201-209
    • /
    • 2020
  • The graph data structure is popular because it can intuitively represent real-world knowledge. Graph databases have attracted attention in academia and industry because they can be used to maintain graph data and allow users to mine knowledge. Mining reachability relationships between two nodes in a graph, termed reachability query processing, is an important functionality of graph databases. Online traversals, such as the breadth-first and depth-first search, are inefficient in processing reachability queries when dealing with large-scale graphs. Labeling schemes have been proposed to overcome these disadvantages. The state-of-the-art is the 2-hop labeling scheme: each node has in and out labels containing reachable node IDs as integers. Unfortunately, existing 2-hop labeling schemes generate huge 2-hop label sizes because they only consider local features, such as degrees. In this paper, we propose a more efficient 2-hop label size reduction approach. We consider the topological sort index, which is a global feature. A linear combination is suggested for utilizing both local and global features. We conduct experiments over real-world and synthetic directed acyclic graph datasets and show that the proposed approach generates smaller labels than existing approaches.