DOI QR코드

DOI QR Code

그래프마이닝을 활용한 빈발 패턴 탐색에 관한 연구

A Methodology for Searching Frequent Pattern Using Graph-Mining Technique

  • Hong, June Seok (Department of Management Information Systems, Kyonggi University)
  • 투고 : 2019.02.11
  • 심사 : 2019.02.26
  • 발행 : 2019.02.28

초록

As the use of semantic web based on XML increases in the field of data management, a lot of studies to extract useful information from the data stored in ontology have been tried based on association rule mining. Ontology data is advantageous in that data can be freely expressed because it has a flexible and scalable structure unlike a conventional database having a predefined structure. On the contrary, it is difficult to find frequent patterns in a uniformized analysis method. The goal of this study is to provide a basis for extracting useful knowledge from ontology by searching for frequently occurring subgraph patterns by applying transaction-based graph mining techniques to ontology schema graph data and instance graph data constituting ontology. In order to overcome the structural limitations of the existing ontology mining, the frequent pattern search methodology in this study uses the methodology used in graph mining to apply the frequent pattern in the graph data structure to the ontology by applying iterative node chunking method. Our suggested methodology will play an important role in knowledge extraction.

키워드

1. 서론

인터넷 환경에서 다양한 분야의 데이터 관리가 널리 활용되면서 호환성과 상호운용성을 장점으로 하는 XML을 기반으로 하는 시맨틱 웹 등의 사용은 기하급 수적으로 증가하게 되었다. 시맨틱 웹의 온톨로지 데이터의 활용이 증가하면서 온톨로지로부터 유용한 정보를 추출하고자 하는 연구들이 전통적인 데이터베이스 구조에 성공적으로 적용된 연관규칙 마이닝을 기반으로 시도되기 시작했다. 그러나 온톨로지 데이터는 전통적인 데이터베이스가 사전에 정의된 구조를 갖는 것과는 다르게 유연하고 확장성 높은 데이터 저장 및 추출 구조를 가짐으로 인해 데이터를 자유롭게 표현하고 활용할 수 있다는 장점이 있지만, 반대로 연관규칙 마이닝을 적용하기 위하여 온톨로지 데이터를 정규화 된 구조의 데이터로 변환하는 분석 방법으로는 온톨로지에서의 의미적인 빈발 패턴을 쉽게 찾아내지 못하는 한계를 보여 왔다.

본 연구에서는 온톨로지를 구성하는 온톨로지 스키마 데이터와 인스턴스 데이터에 트랜잭션 기반의 그래 프마이닝 기법을 적용하여 자주 발생하는 서브 그래프 패턴을 탐색함으로써 온톨로지로부터 유용한 지식을 추출하는 기반을 마련하는 것을 목표로 한다. 온톨로지 데이터는 기본적으로 그래프 구조의 데이터 특성을 가지고 있으므로, 화학 및 생물 정보학 분야에서 발전되어 온 그래프마이닝 방법론을 온톨로지 빈발 패턴 탐색에 적용하였다. 본 연구의 빈발 패턴 탐색 방법론은 그래프마이닝에서 사용하고 있는 방법론을 온톨로지 데이터 구조에 맞게 변형하여 적용함으로써 기존의 온톨로지 마이닝이 갖는 구조적인 한계를 극복하였다. 온톨로지 스키마 그래프를 빈발 패턴 탐색에 사용할 수 있도록 변형한 후에, 변형한 구조에 따라 인스턴스 데이터를 나열한다. 이와 같이 나열된 인스턴스 데이터에 반복적인 노드 통합 방법을 적용함으로써 온톨로지 데이터로부터 빈발 패턴을 탐색하고, 환원 과정을 기준 클래스의 관점에서 자주 발생한 서브 그래프를 찾아낸다.

제 2장에서는 온톨로지 마이닝의 초기에 적용된 연관규칙 마이닝과 본 연구에서 활용한 그래프마이닝 방법론에 대한 문헌 연구 결과를 보여주고, 제 3장에서는 본 연구에서 제안한 빈발 서브 그래프 탐색 방법론을 간단한 예제를 통해 설명한다. 제 4장에서는 실험 데이터를 대상으로 본 연구의 방법론을 적용한 결과를 제시한다. 마지막 장에서는 본 연구의 성과와 시사점을 설명하고, 한계점과 향후 연구방향을 논의한다.

2. 관련 연구

장바구니 분석으로 잘 알려진 전통적인 연관규칙 마이닝은 동시발생의 기준이 되는 트랜잭션 아이디를 기준으로 발생한 아이템 데이터를 이용하여 동시발생 확률이 일정 기준값(지지도)을 넘는 아이템 조합에 대하여 신뢰도와 향상도의 값에 따라 아이템 간의 연관규칙을 발견하는 방법이다. 가장 널리 사용되는 방법은 지지도를 넘는 가능한 모든 아이템 조합에 대하여 신뢰도와 향상도를 계산하여 연관규칙을 찾는 선험적(A Priori) 알고리즘이다[Agrawal et al., 1993; Piateski and Frawley, 1991]. 하지만 선험적 알고리즘은 아이템의 개수가 증가함에 따라 아이템 조합의 개수가 기하급수적으로 증가하여 연관규칙 탐색 시간이 감당하기 어려울만큼 증가한다는 문제점이 있었다. 이를 극복하기 위하여 Han et al.[2000]은 단 2번만의 데이터 순회를 통해 자주 발생하는 아이템 조합에 대한 동시발생 횟수를 계산할 수 있는 FP-Tree(Frequent Pattern Tree)를 생성하고, FT-Tree로부터 신뢰도와 향상도를 계산하여 훨씬 짧은 시간 안에 선험적 알고리즘과 동일한 연관규칙을 탐색하는 빈발 패턴 성장(Frequent Pattern Growth) 알고리즘을 개발하였다.

이러한 연관규칙 탐색 알고리즘을 시맨틱 웹 데이터에 적용하여 온톨로지로부터 유용한 지식을 획득하고자 하는 시도도 있었으나, 온톨로지 데이터를 일정한 기준에 따라 전형적인 데이터베이스 구조의 데이터로 변형한 후에 기존의 연관규칙 알고리즘을 적용하거나[Nebot and Berlanga, 2012; Zhu and Jia, 2012], 인스턴스 수준의 트리플 스토어에 기존의 연관 규칙 알고리즘을 적용함[Ramezani et al., 2013]으로써 빈발 패턴 탐색을 통해 유용한 정보를 추출하는데 유연하고 유동적인 데이터 구조를 가지고 있는 온톨로지에 포함된 전체 정보를 충분히 활용하지 못한다는 한계점을 가지고 있다.

본 연구에서는 온톨로지 데이터가 기본적으로 그래프 데이터와 완벽하게 동일한 구조를 가지고 있다는 점에 착안하여 연관규칙 탐색과는 별개로 발전되어 온 그래프마이닝 방법론에 주목하였다. 그래프마이닝은 화학 및 생물 정보학 분야를 중심으로 시작되었으며, 그래프 데이터 구조를 갖는 물질 및 분자에 대한 정보를 분석하여 유용한 정보를 추출하고자 하는 시도로 시작되었다. 그래프마이닝의 기본적인 방법론은 빈 그래프에서 출발하여 노드를 하나씩 추가해가면서 전체 그래프로 완성될 때까지 모든 서브 그래프의 계층적 구조를 생성한다[Worlein et al., 2005]. 이러한 계층적 격자 구조 하에서 자주 발생하는 서브 그래프를 탐색하는 다수의 방법론이 연구되어 왔으며, 그 중에서 가장 대표적인 방법론으로는 MoFa, gSpan, FFSM, Gaston 등이 있다. 첫 번째로 MoFa(Molecule Fragment Miner)[Borgelt and Berthold, 2002]는 분자 데이터베이스를 분석할 목적으로 처음 개발되었으며, 일반적인 그래프 데이터에도 적용이 가능하다. 검사하는 서브 그래프의 개수를 줄이기 위하여 지역 순서화 구조를 채택하고 있으나, 불필요한 서브 그래프를 많이 생성한다는 단점이 있다. 두 번째로 gSpan (Graph-based Substructure Pattern)[Yan and Han, 2002]은 정규화된 데이터 표현 구조를 사용하고 있으며, 그래프의 아크를 중심으로 깊이 우선으로 순회하는 방법을 적용한다. 서브 그래프 확장을 위한 2가지 규칙과 가지치기를 위한 2가지 규칙을 가지고 빈발 서브 그래프 탐색을 진행한다. 세 번째로 FFSM (Fast Frequent Subgraph Mining)[Huan et al., 2003]은 그래프 데이터를 삼각 매트릭스 구조로 표현하고, 일정한 순서 규칙에 따라 서브 그래프를 탐색한다. 새로운 아크-노드 쌍을 추가할지 아니면 가지치기할지를 결정하는 규칙에 따라 서브 그래프를 확장하며, 이러한 방법으로 계산 속도를 향상시켰다. 마지막으로 Gaston(Graph/Sequence/Tree Extraction) [Nijssen and Kok, 2004]은 비순환 그래프(즉, 트리)만을 대상으로 하는 경우에는 효율적인 순회 방법이 존재한다는 점에 착안하여 실제로 출현한 서브 그래프만을 저장한다. 그 후에 순환을 생성하는 마지막 아크를 고려하여 일반적인 서브 그래프를 탐색하게 되며, 중복을 검사하기 위한 단계를 추가하였다.

3. 빈발 패턴 탐색 방법론

3.1 문제의 정의

시맨틱 웹 환경에서의 온톨로지 데이터는 전형적인 그래프 데이터로써 그래프 이론(graph theory)의 기본 구조를 따른다. 즉, 하나의 그래프는 G = (N, A) 로 표시되며, 노드의 집합 N과 노드 간의 연결인 아크의 집합 A로 구성된다. 온톨로지에서는 리소스(resource) 가 그래프 구조에서의 노드의 역할을 하게 되고, 리소 스 간의 관계를 표현하는 프로퍼티(property)가 아크의 역할을 담당한다. 온톨로지를 표현하는 트리플 (triple) 관계는 그래프 구조에서 출발 노드와 도착 노드의 사이를 연결하는 아크를 표현하는 데이터 구조와 완벽하게 일치한다. 따라서 온톨로지에서의 빈발 패턴을 탐색하는 방법론은 그래프 구조의 데이터에서 빈발 패턴을 탐색하는 방법론을 적용할 수 있으며, 기존의 그래프마이닝 방법론을 활용하는 것이 가능하다.

온톨로지 데이터는 크게 2개의 그래프 데이터로 구분된다. 하나는 온톨로지 스키마를 표현하는 T-box로 리소스들이 소속된 클래스를 노드로 하고, 클래스에 소속된 리소스들 간에 존재할 수 있는 프로퍼티를 표현하게 된다. 다른 하나는 온톨로지 인스턴스(instance)에 관련된 데이터인 A-box로 개별 인스턴스 리소스를 노드로 하고, 리소스들 간의 프로퍼티 인스턴스를 아크로 하는 그래프 구조를 갖는다. [Figure 1]은 ‘영화’ 클래스의 인스턴스와 ‘영화감독’ 클래스의 인스턴스 간에 ‘감독하다’는 연관성을 표현하는 프로퍼티가 존재할 수 있다는 것을 보여주는 T-box 그래프 데이터 구조를 시각화된 방법으로 보여주고 있다. A-box 그래프의 예시는 [Figure 2]에서 보는 바와 같이 ‘영화’ 클래스의 인스턴스인 ‘올드보이’ 리소스가 ‘영화감독’ 클래스의 인스턴스인 ‘박찬욱’ 리소스와 ‘감독하다’는 프로퍼티로 연결된 것을 확인할 수 있다.

[Figure 1] Example of Ontology Schema Graph

[Figure 2] Example of Ontology Instance Graph

앞에서 소개한 바와 같이 정규화된 데이터베이스 구조를 갖는 데이터에 대한 연관규칙 마이닝과는 다르게 그래프 데이터에 대한 마이닝은 빈발(frequent)의 기준이 되는 트랜잭션의 정의가 필요하다. 연관규칙 마이닝에서 트랜잭션 아이디가 빈발의 기준이 되는 것과 유사하게 그래프 데이터에서는 트랜잭션 아이디에 대응하는 기준 클래스를 지정해야 한다. 또한 연관규칙 마이닝에서 아이템에 대응하는 개념으로 그래프 데이터에서는 무한하게 확장 가능한 패턴 경로의 경우의 수를 제한하기 위하여 패턴의 종착 클래스를 지정해야 한다. 다만, 패턴 탐색을 일정 범위까지 넓힐 수 있도록 종착 클래스는 2개 이상을 동시에 지정하는 것도 가능하도록 하였다. 이러한 사항들을 포함하여 빈발 패턴 탐색은 기준 클래스와 종착 클래스 집합을 인수(argument)로 하여 시작할 수 있다.

SearchFrequentPattern(기준클래스명, {종착클래스명1 [, 종착클래스명2, …]})

그래프 데이터에 대한 빈발 패턴 탐색을 위한 기준은 클래스와 클래스 간의 관계를 표현하는 프로퍼티로 이루어진 T-box를 중심으로 정의하게 되지만, 빈발 여부를 판단하는 트랜잭션의 수는 인스턴스 리소스와 그들 간의 관계를 표현하는 프로퍼티 인스턴스로 구성된 A-box를 대상으로 계산이 이루어진다. 즉, 기준 클래스의 인스턴스 리소스로부터 종착 클래스 중 하나의 인스턴스 리소스까지 프로퍼티 인스턴스로 연결된 경로를 하나의 트랜잭션으로 간주하며, 이러한 트랜잭션이 반복적으로 존재하는 경로 상의 데이터로부터 클래스-프로퍼티-클래스 쌍이 확장된 서브 그래프를 빈발 패턴으로 검색하게 된다.

3.2 빈발 패턴 탐색 절차

기준 클래스와 종착 클래스를 가지고 시작하는 빈발 패턴 탐색은 존재하는 개별 인스턴스를 트랜잭션으로 쉽게 변환할 수 있도록 T-box 데이터를 정리하는 온톨로지 스키마 그래프의 변환 단계, 개별 인스턴스들을 트랜잭션으로 간주하여 트랜잭션의 수를 쉽게 측정할 수 있도록 A-Box 데이터를 정리하는 인스턴스 그래프의 변환 단계, 발생 빈도가 높은 서브 그래프를 하나의 노드로 통합(chunking)하여 빈발 패턴을 탐색하고 원래의 그래프로 환원하는 반복적 그래프 통합 및 환원 단계로 구성된다.

3.2.1 온톨로지 스키마 그래프의 변환 단계

사전에 정형화된 형태로 정리되어 있는 데이터베이스를 활용하는 연관규칙 마이닝과는 다르게 그래프 데이터는 기준 클래스를 중심으로 개별 인스턴스를 트랜잭션으로 재정리하는 작업이 필요하다. 그래프 데이터의 노드에 해당하는 인스턴스 리소스는 모두 소속 클래스를 가지고 있고, 온톨로지 스키마에 정의되어 있는 프로퍼티에 의해서만 다른 인스턴스 리소스와 연관되 어질 수 있다. 따라서 온톨로지 스키마를 저장하는 Tbox 데이터를 재정리함으로써 인스턴스 데이터를 트랜잭션으로 변환하기 쉽도록 구조를 정리할 수 있다.

빈발 패턴 탐색을 위해서 기준 클래스와 종착 클래스가 정의되어 있으므로 인스턴스 데이터를 트랜잭션으로 변환하기 위한 기본 구조는 온톨로지 스키마에서 기준 클래스로부터 종착 클래스까지 프로퍼티로 연결된 모든 경로를 찾아놓는 것이다. 동일한 클래스가 2번 이상 포함된 경로는 빈발 패턴으로써의 의미가 없으므로 같은 클래스를 재방문하지 않는 비순환적(noncyclic) 경로만을 탐색한다. [Figure 3]은 사용자별로 영화를 시청한 이력과 영화에 관련된 정보를 담고있는 온톨로지 스키마이다. 기준 클래스를 ‘User’로, 종착 클래스를 ‘Director’와 ‘ArtDirector’로 지정한 빈발 패턴 탐색의 경우에 온톨로지 그래프를 변환한 결과를 [Figure 4]에서 보여주고 있다.

[Figure 3] Ontology Schema Graph for Movie Domain Example

[Figure 4] Restructured Ontology Schema Graph

3.2.2 인스턴스 그래프의 변환 단계

온톨로지 데이터에 그래프마이닝 방법론을 적용하기 위하여 개별 인스턴스 데이터를 트랜잭션의 형태로 변환하는 단계이다. 빈발 패턴 탐색을 위해 지정된 기준 클래스에 속한 모든 인스턴스 리소스에 대하여 이전 단계에서 변환된 온톨로지 스키마 상의 종착 클래스까지의 비순환적 경로를 따라 존재하는 모든 프로퍼티 인스턴스와 연결된 인스턴스 리소스를 재정리하여 트랜잭션의 수를 쉽게 계산할 수 있도록 하고, 그를 통 해 빈발 패턴을 탐색할 수 있도록 해주는 것이다.

서브 그래프 패턴의 빈발 여부를 판단하는 트랜잭션 아이디의 역할을 기준 클래스가 맡게 되므로 기준 클래스의 인스턴스 리소스 별로 분리하여 정리하고, 변환된 온톨로지 경로에 클래스에 대해서 소속된 모든 인스턴스를 모두 수집하는 것이 필수적이다. [Figure 5]는 [Figure 4]와 같이 변환된 온톨로지 스키마에 대한 예시 인스턴스를 표시한 것이다.

[Figure 5] Rearranged Ontology Instance Graph

3.2.3 반복적 그래프 통합 및 환원 단계

그래프마이닝 방법론의 일부 단계를 차용하여 트랜 잭션의 형태로 정리된 데이터로부터 빈발 패턴을 탐색하기 위해서는 1단계 그래프 구조에 해당하는 트리플 데이터들 중에서 발생 빈도인 지지도가 일정한 기준값 (threshold)를 넘는 서브 그래프를 하나의 노드로 통합(chunking)하는 과정을 반복적으로 적용해나가는 것이 필요하다. 동일한 데이터에 대해 통합된 노드는 다시 동일한 노드로 간주하고 빈발하는 트리플 데이터에 대한 통합 과정을 반복적으로 적용함으로써 기준 클래스의 인스턴스 리소스 별로 정리된 트랜잭션에 대하여 자주 발생하는 서브 그래프의 패턴을 탐색할 수 있게 된다.

[Figure 6]은 [Figure 5]의 예시와 같은 데이터에 대하여 지지도의 기준값을 2회(실제 문제의 경우에는 전체에 대한 비율 %로 지정하나, 예시의 경우에 횟수로 지정)로 한 경우에 통합 가능한 대안들을 보여주고 있으며, 각각의 경우에 대하여 더 이상 통합 가능한 대안이 존재하지 않을 때까지 동일한 통합 과정을 반복적으로 적용한다. [Figure 7]에서 보는 바와 같이 첫 번째 통합 대안인 {WatchingEvent-‘Movie_03’}을 첫 번째 통합 노드인 Chunk_1로 통합하고, 여기에서 다시 지지도가 2회 이상인 {Chunk_1-‘Artdirector_02’} 를 Chunk_2로 통합한 결과는 [Figure 8]과 같다. 이 경우에는 더 이상 지지도가 2회 이상인 경우가 없으므로 통합 과정은 완료된다.

[Figure 6] Generating Candidates for Chunking Nodes

[Figure 7] Result of First Chunking Nodes

[Figure 8] Final Result of Second Chunking Nodes​​​​​​​

[Figure 6]의 두 번째 통합 대안인 {‘Movie_03’- ‘Artdirector_02’}을 먼저 통합하고, 그 결과에서 다시 지지도가 2회 이상인 노드들을 반복적으로 통합된 최종 결과는 [Figure 9]에서 보는 바와 같다.

[Figure 9] Final Results of Chunking Nodes for Candidate #2​​​​​​​

위와 같이 반복적으로 자주 발생하는 트리플 데이터에 대한 통합 결과를 찾고 나면, 통합된 노드들을 원래의 트리플 데이터로 환원하여 원래의 온톨로지 데이터에 대한 빈발 패턴을 만들어 낼 수 있다. [Figure 8]과 [Figure 9]의 통합 결과를 원래의 온톨로지 데이터로 환원하면 [Figure 10]과 같은 데이터가 기준 클래스를 ‘User’로, 종착 클래스를 ‘Director’와 ‘Art Director’로 지정한 경우에 탐색할 수 있는 빈발 패턴임을 알 수 있다. 

[Figure 10]​​​​​​​ Results of Searching Frequent Pattern

4. 탐색 실험 및 평가

4.1 실험 데이터

그래프 데이터에 대한 빈발 패턴 탐색을 실험하기 위하여 음악 분야의 데이터를 수집하여 온톨로지를 구축하였다. 12팀의 그룹에 속한 가수를 포함하여 총 87명의 가수에 대하여 소속사, 그룹 내 포지션, 수상경력, 국가 등에 관한 데이터를 수집하고, 그들이 발표한 86곡의 노래에 대하여 장르, 시기별 순위 등에 관한 데이터를 수집하였다. 수집한 데이터로 구축한 온톨로지에 대한 스키마는 19개의 클래스와 30개의 프로퍼티로 구성되었으며, 온톨로지 인스턴스는 431개의 인스턴스 리소스와 696개의 인스턴스 프로퍼티로 작성되었다. 실험 데이터에 대한 온톨로지 스키마는 [Figure 11]과 같다.

[Figure 11] Ontology Schema Graph for Music Domain Example​​​​​​​

4.2 빈발 패턴 탐색의 결과

위와 같은 실험 데이터에 대해 본 연구에서 제안한 빈발 패턴 탐색 방법론을 적용한 결과 다음과 같은 결과를 얻을 수 있었다. 먼저, 기준 클래스를 노래(Track) 로, 종착 클래스를 그룹(MusicGroup)으로 지정하고 빈발 패턴을 탐색한 결과는 아래의 [Figure 12]와 같다. 이 결과는 노래 클래스의 인스턴스 리소스를 기준으로 할 때, 가수 ‘태연’이 속한 뮤직그룹 ‘소녀시대’가 발표한 앨범 ‘소녀시대’와 가수 ‘지드래곤’이 속한 뮤직그룹 ‘빅뱅’이 발표한 앨범 ‘빅뱅 vol.1’이 가장 빈번하게 출현한 서브 그래프라는 것을 알 수 있다.

[Figure 12] Results #1 of Searching Frequent Pattern for Music Example

다음으로 기준 클래스와 종착 클래스를 각각 ‘Music Artist’와 ‘Track’으로 지정한 경우에는 [Figure 13]과 같은 결과를 얻을 수 있으며, 기준 클래스가 바뀌게 되면 빈발 패턴인 서브 그래프가 바뀌게 된다는 사실을 확인할 수 있다. 앞의 경우와 마찬가지로 이 결과는 가수 클래스의 인스턴스를 기준으로 할 때, 그룹 ‘AOA’가 발표한 노래 ‘느낌이오니’와 노래 ‘불면증’이 뮤직그룹 ‘AOA’에 의해 불러졌다는 것이 가장 빈번하게 출현한 서브 그래프이다.

[Figure 13] Results #2 of Searching Frequent Pattern for Music Example​​​​​​​

5. 결론

그시맨틱 웹 환경에서 사용하는 온톨로지 데이터로부터 유용한 정보를 추출하는 일은 매우 중요하다. 전통적인 데이터베이스 구조의 데이터에 성공적으로 적용되어 온 연관규칙 마이닝은 개념적으로는 매우 바람직한 방법론이지만, 유연하고 확장성 높은 구조를 갖는 온톨로지 데이터에는 적합하지 않다는 것이 밝혀졌다. 본 연구에서는 일반적인 그래프 구조의 데이터로 부터 빈발 패턴을 탐색하기 위한 그래프마이닝 방법론을 활용하여 온톨로지 데이터로부터 유용한 정보를 추출하기 위한 빈발 서브 그래프를 찾아내는 방법론을 제안하였다. 대규모 온톨로지의 경우에도 사용자가 지정한 기준 클래스를 대상으로 인스턴스 데이터의 출현 빈도에 따라 빈발 패턴을 찾아내고, 이에 해당하는 빈발 서브 그래프를 찾을 수 있었다. 이와 같이 탐색된 빈발 서프 그래프는 지정한 기준 클래스의 관점에서 의미있는 관련성을 보이는 인스턴스 데이터 간의 관계를 보여주므로 온톨로지 데이터에서 찾을 수 있는 유용한 지식이 된다. 필요에 따라 규칙 형태로 표현함으로써 온톨로지 도메인에 따라 다양하게 적용할 수 있는 지식을 찾을 수 있다.

하지만 온톨로지 데이터로부터 일반적인 정보를 추출하기 위해서는 특정한 기준 클래스에 제한하지 않고 전체 온톨로지를 대상으로 빈발 서브 그래프를 탐색하는 방법론이 필요하다. 향후 연구과제로는 유용한 정보 추출에 기여하는 기준 클래스를 사전에 찾아내어 본 연구에서 제안한 방법론을 적용함으로써 일반적인 정보 추출에 도움이 되는 빈발 서브 그래프 탐색 방법론이 필요할 것이다.

참고문헌

  1. Agrawal, R., Imielinski, T., and Swami, A., "Mining Association Rules between sets of Items in Large Database", Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, Vol. 22, No. 2, 1993, pp. 207-216.
  2. Borgelt, C. and Berthold, M. R., "Mining Molecular Fragments : Finding Relevant Substructures of Molecules", Proceedings of IEEE International Conference on Data Mining (ICDM), Maebashi, Japan, 2002, pp. 51-58.
  3. Gregory Piateski, William Frawley, Knowledge Discovery in Databases, MIT Press, Cambridge, MA, 1991.
  4. Han, J., Pei, J., and Yin, Y., "Mining Frequent Patterns Without Candidate Generation", Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD, 2000, pp. 1-12.
  5. Huan, J., Wang, W., and Prins, J., "Efficient Mining of Frequent Subgraphs in the Presence of Isomorphism", Proceedings of IEEE International Conference on Data Mining (ICDM), Piscataway, NJ, USA, 2003, pp. 549-552.
  6. Nebot, V. and Berlanga, R., "Finding Association Rules in Semantic Web Data", Knowledge-Based Systems, Vol. 25, No. 1, 2012, pp. 51-62. https://doi.org/10.1016/j.knosys.2011.05.009
  7. Nijssen, S. and Kok, J. N., "Frequent Graph Mining and Its Application to Molecular Databases", Proceedings of the 2004 IEEE Conference on Systems, Man and Cybernetics (SMC), Den Haag, Netherlands, 2004, pp. 4571-4577.
  8. Ramezani, R., Saraee, M., and Nematbakhsh, M. A., "Finding Association Rules in Linked Data, a Centralization Approach", 2013 21st Iranian Conference on Electrical Engineering (ICEE), 2013, pp. 1-6.
  9. Worlein, M., Meinl, T., Fischer, I., and Philippsen, M., "A Quantitative Comparison of the Subgraph Miners MoFa, gSpan, FFSM, and Gaston", Lecture Notes in Computer Science, Vol.3721, 2005, pp. 392-403.
  10. Yan, X. and Han, J., "gSpan : Graph-Based Substructures Pattern Mining", Proceedings of IEEE International Conference on Data Mining (ICDM), Maebashi, Japan, 2002, pp. 721-723.
  11. Zhu, P. and Jia, F., "A New Ontology Based Association Rules Mining Algorithm", Journal of Theoretical and Applied Information Technology, Vol. 45, No. 1, 2012, pp. 192-197.