• Title/Summary/Keyword: 빈발항목집합

Search Result 61, Processing Time 0.047 seconds

Generation Algorithm of Frequent Itemsets using Matrix (매트릭스를 이용한 빈발 항목집합 생성 알고리즘)

  • 채덕진;황부현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.10-12
    • /
    • 2003
  • 대용량의 데이터베이스에서 최소지지도를 만족하는 항목들의 집합을 빈발 항목집합이라고 한다. 이전에 연구된 대부분의 빈발 항목집합 생성 알고리즘들은 후보 항목집합들을 생성하고 이들 중에서 조건을 만족하는 빈발 항목집합들을 생성하는 과정을 수행하였다. 그러나 이러한 알고리즘들은 모든 k(k$\geq$1)-빈발 항목집합들을 생성하기까지 k를 하나씩 증가하면서 반복적으로 수행되기 때문에 많은 컴퓨팅 시간을 필요로 한다. 본 논문에서는 후보 항목집합들을 생성하지 않고 빈발 항목집합들을 생성할 수 있는 DFG 알고리즘을 제안한다. 각각의 k-빈발 항목집합들에는 데이터베이스의 모든 정보들이 포함되어 있고 하나의 빈발 항목집합은 한 트랜잭션에 존재한다. 본 논문에서는 이러한 성질을 이용하여 먼저 2-빈발 항목집합들을 생성한다. 그리고 2-빈발 항목집합들에 존재하는 한 항목과 나머지 항목들에 대한 매트릭스를 구성하여 최소지지도를 만족하는 빈발 항목집합들을 생성하게 된다. 제안하는 알고리즘은 불필요한 후보 항목집합들을 생성하지 않고 한 번의 데이터베이스 스캔만으로 빈발 항목집합들을 생성할 수 있다.

  • PDF

An Effective Method for Dense and Sparse Frequent Itemsets Mining (효율적인 밀집 및 희소 빈발 항목 집합 탐색 방법)

  • Yi, Gyeong Min;Jung, Sukho;Shin, DongMun;Musa, Ibrahim Musa Ishag;Lee, Dong Gyu;Sohn, Gyoyong;Ryu, Keun Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.375-376
    • /
    • 2009
  • 트리기반 빈발 항목 집합 알고리즘들은 전체적으로 밀집 빈발 항목 집합에는 효율적이고 빠르게 빈발 항목 집합을 탐색하나 희소 빈발 항목 집합에는 효율적이지 않고 빈발 항목 집합을 빠르게 탐색하지 못한다. 반면에 배열기반 빈발 항목 집합 알고리즘은 희소 빈발 항목 집합에 효율적이고 빠르게 빈발 항목 집합을 탐색하나 밀집 빈발 항목 집합에는 효율적이지 않고 빈발 항목 집합을 빠르게 탐색하지 못한다. 밀집 및 희소 빈발 항목 집합 모두 효율적으로 빈발 항목 집합을 탐색 하고자 하는 시도가 있었으나 두 가지 종류의 알고리즘을 동시에 사용하므로 각각의 알고리즘을 사용할 정확한 기준 제시가 어렵고, 두 가지 알고리즘의 단점을 내포한다. 따라서 본 논문에서는 단일 알고리즘을 사용하여 밀집 빈발 항목 집합 및 희소 빈발 항목 집합 모두에 대해 작은 메모리 공간을 사용하면서도 효율적이고 빠르게 빈발 항목 집합을 탐색할 수 있는 CPFP-Tree라는 새로운 자료구조와 탐색 방법을 제안한다.

An Effective Large itemset Generation Algorithm (효과적인 빈발 항목 생성 알고리즘T)

  • 채덕진;황부현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.198-200
    • /
    • 2000
  • 대용량의 데이터베이스에서 여러 트랜잭션에 동시에 나타나는 항목들의 모임인 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈방 항목집합을 찾아내는 문제는 항목 집합들의 후보 집합을 생성하고 빈발 항목집합의 조건을 충족시키는 후보 집합을 추출함으로써 해결된다. 그리고 이러한 작업은 각각의 빈발 k-항목집합에 대해 k가 증가함에 따라 반복적으로 수행된다. 그러나 연관 규칙 탐사에 관한 기존의 연구는 주로 데이터베이스를 이루는 항목들의 수가 많거나 트랜잭션의 길이가 긴 경우의 대용량 데이터베이스에서 빈발 항목집합의 발견에 초점을 맞추고 있다. 본 논문에서는 데이터베이스를 이루는 전체 항목의 수가 적거나 트랜잭션의 크기가 작은 경우 효과적으로 빈발 항목집합을 찾을 수 있는 연관 규칙 탐사 방법을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

An Efficient Algorithm for mining frequent itemsets using L2-tree (L2-tree를 이용한 효율적인 빈발항목 집합 탐사)

  • 박인창;장중혁;이원석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

Association Rule Discovery using TID List Table (TID 리스트 테이블을 이용한 연관 규칙 탐사)

  • Chai, Duck-Jin;Hwang, Bu-Hyun
    • Journal of KIISE:Databases
    • /
    • v.32 no.3
    • /
    • pp.219-227
    • /
    • 2005
  • In this paper, we propose an efficient algorithm which generates frequent itemsets by only one database scanning. A frequent itemset is subset of an itemset which is accessed by a transaction. For each item, if informations about transactions accessing the item are exist, it is possible to generate frequent itemsets only by the extraction of items haying an identical transaction ID. Proposed method in this paper generates the data structure which stores transaction ID for each item by only one database scanning and generates 2-frequent itemsets by using the hash technique at the same time. k(k$\geq$3)-frequent itemsets are simply found by comparing previously generated data structure and transaction ID. Proposed algorithm can efficiently generate frequent itemsets by only one database scanning .

Designing OLAP Cube Structures for Market Basket Analysis (장바구니 분석용 OLAP 큐브 구조의 설계)

  • Yu, Han-Ju;Choi, In-Soo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.12 no.4
    • /
    • pp.179-189
    • /
    • 2007
  • Every purchase a customer makes builds patterns about how products are purchased together. The process of finding these patterns, called market basket analysis, is composed of two steps in the Microsoft Association Algorithm. The first step is to find frequent item-sets. The second step which requires much less time than the first step does is to generate association rules based on frequent item-sets. Even though the first step, finding frequent item-sets, is the core part of market basket analysis, when applied to Online Analytical Processing(OLAP) cubes it always raises several points such as longitudinal analysis becomes impossible and many unpractical transactions are built up. In this paper, a new OLAP cube structures designing method which makes longitudinal analysis be possible and also makes only real customers' purchase patterns be identified is proposed for market basket analysis.

  • PDF

Algorithm for Extraction of Large itemsets (빈발 항목집합 추출을 위한 알고리즘)

  • Chai, Duck-Jin;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.117-120
    • /
    • 2000
  • 데이터 마이닝이란 대량의 실제 데이터로부터, 이전에 잘 알려지지는 않았지만, 잠재적으로 유용한 정보를 추출하는 작업이라 정의한다. 데이터 마이닝 기술 중에서 현재 가장 활발하게 연구되고 있는 것들 중의 하나가 연관 규칙 탐사이다. 연관 규칙이란 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미한다. 기존의 연관 규칙을 발견하기 위한 알고리즘들은 k-빈발 항목집합을 추출하기 위하여 k-후보 항목집합의 개수를 줄이거나 데이터베이스의 크기를 줄이는데 많은 연구가 이루어져 오고 있다. 본 논문에서는 상대적으로 많은 후보 항목집합의 데이터베이스 스캔을 통하여 추출되는 2-빈발 항목집합은 해쉬 기법을 사용하여 추출하고 k(k>2)-빈발 항목집합은 데이터베이스를 전처리하여 트랜잭션의 길이에 따라 두 개의 트랜잭션 집합으로 분리하고 분리된 데이터베이스에 다른 알고리즘을 사용하여 빈발 항목집합을 찾는 알고리즘을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

Improved Association Rule Mining by Multiple Sampling & Trimming (복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법)

  • Hwang, Won-Tae;Kim, Dong-Seung
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07a
    • /
    • pp.919-921
    • /
    • 2005
  • 본 논문은 전체 데이터베이스에서 일부 추출된 샘플 데이터에서 빈발항목 집합을 찾는 연관규칙 마이닝 알고리즘을 기술한다. 샘플링기술을 이용하면 마이닝과정에서 필요한 데이터베이스의 접근 양을 줄이므로써 실행시간을 단축시킬 수 있다는 장점이 있지만, 전체데이터베이스를 이용한 마이닝보다 정확도가 떨어진다는 단점이 함께 존재한다. 이전의 Chen의 FAST알고리즘은 샘플링을 이용한 마이닝과정에서 거리오차함수를 이용한 트리밍과정을 통해 빈발 1항목집합에 대한 정확도를 개선시켰다. 이후 IFAST 알고리즘은 트리밍과정에서 빈발2-항목집합까지 고려하여 빈발2-항목집합 이상의 빈발항목집합에서도 정확도를 개선시켰다. 본 논문에서는 트리밍과정에서 사용될 추정데이터를 여러 개의 샘플데이터를 이용하여 얻으므로써 오류항목집합(false itemset)의 수를 줄이고 전체적인 정확도를 향상시키는 새로운 알고리즘을 소개한다.

  • PDF

Border-based HSFI Algorithm for Hiding Sensitive Frequent Itemsets (민감한 빈발항목집합을 숨기기 위한 경계기반 HSFI 알고리즘)

  • Lee, Dan-Young;An, Hyoung-Keun;Koh, Jae-Jin
    • Journal of Korea Multimedia Society
    • /
    • v.14 no.10
    • /
    • pp.1323-1334
    • /
    • 2011
  • This paper suggests the border based HSFI algorithm to hide sensitive frequent itemsets. Node formation of FP-Tree which is different from the previous one uses the border to minimize the impacts of nonsensitive frequent itemsets in hiding process, including the organization of sensitive and border information, and all transaction as well. As a result of applying HSFI algorithms, it is possible to be the example transaction database, by significantly reducing the lost items, it turns out that HSFI algorithm is more effective than the existing algorithm for maintaining the quality of more improved database.

Item Hierarchy based Frequent Itemset Ordering Method (항목 계층 구조에 기반한 빈발 항목 집합 나열 방법)

  • Kim, jun woo;Kang, hyun kyung
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2013.05a
    • /
    • pp.301-302
    • /
    • 2013
  • 연관 규칙 탐사는 이산적인 항목들을 포함하는 트랜잭션 데이터에 존재하는 항목 간 동시 발생 관계를 찾아내는 데 그 목적을 두고 있다. 연관 규칙은 {전항}${\rightarrow}${후항}의 형태를 갖고, 전, 후항은 모두 사전에 정의된 지지도 하한을 만족하는 빈발 항목 집합으로 구성된다. 연관 규칙 탐사에서 문제가 되는 것은 일반적으로 탐사되는 빈발 항목 집합의 개수가 많아지면서 규칙의 개수도 많아지고, 이들 사이에 중복성이 존재한다는 점이다. 따라서 단순히 지지도나 신뢰도 순으로 빈발 항목 집합이나 규칙을 나열하기보다는 항목들의 연관성을 고려하는 것이 분석자에게 보다 도움이 될 수 있다. 본 논문에서는 이를 위하여 연관 규칙 탐사와 함께 계층 군집 분석을 실시하여 항목들 간 연관성을 정리하고, 이를 토대로 빈발 항목 집합들을 나열하는 방법을 제안하고자 한다.

  • PDF