• Title/Summary/Keyword: FP-Tree

Search Result 48, Processing Time 0.046 seconds

Text Document Categorization using FP-Tree (FP-Tree를 이용한 문서 분류)

  • Park, Yong-Ki;Kim, Hwang-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.589-591
    • /
    • 2005
  • 기존의 문서 분류 방법들은 대게 기존의 기계 학습의 방법을 그대로 가져오거나 문서라는 데이터에 맞춰 약간의 변형을 가한 방법들이 대부분이다. 본 논문에서는 기존의 방법에서 벗어나 데이터 마이닝 분야에서 쓰이는 FP-Tree 방법을 이용하여 문서내의 문장들의 패턴을 저장하고 이를 사용하여 문서 분류를 하는 방법을 소개한다.

  • PDF

Creation of Frequent Patterns using Clustering in Large Database (대용량 데이터베이스에서 클러스터링을 이용한 빈발 패턴 생성)

  • Kim, Eui-Chan;Hwang, Byung-Yeon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.100-102
    • /
    • 2005
  • 데이터베이스에 저장되어 있는 데이터들을 통해서 의미있는 정보를 찾는 것이 데이터 마이닝이다. 많은 데이터 마이닝 기법들 중에 연관규칙을 다루는 연구가 많이 이루어지고 있다. 연관규칙 기법도 다양하게 연구되고 있는데 그 중 빈발 패턴 트리(FP-Tree)라는 방법을 이용하여 빈발 패턴을 찾아내는 연구가 활발히 진행되고 있다. 빈발 패턴 트리는 기존에 잘 알려져있는 연관규칙 생성 기법인 Apriori 기법보다 우수한 성능을 가지는 방법이다. 그러나 빈발 패턴 트리도 몇가지 문제점을 가지고 있다. 본 논문에서는 빈발 패턴 트리의 문제점 중 하나인 과도한 FP-Tree 생성을 줄이려 한다. 조건부 패턴 베이스를 통해 얻어지는 조건부 FP-Tree의 생성을 줄여 기존의 FP-Tree보다 더 나은 성능을 얻기 위해서 적절한 클리스터링을 이용하려 한다. 클러스터링 기법은 비트 트랜잭션을 이용한 클러스터링 방법을 이용한다.

  • PDF

The Goods Recommendation System based on modified FP-Tree Algorithm (변형된 FP-Tree를 기반한 상품 추천 시스템)

  • Kim, Jong-Hee;Jung, Soon-Key
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.11
    • /
    • pp.205-213
    • /
    • 2010
  • This study uses the FP-tree algorithm, one of the mining techniques. This study is an attempt to suggest a new recommended system using a modified FP-tree algorithm which yields an association rule based on frequent 2-itemsets extracted from the transaction database. The modified recommended system consists of a pre-processing module, a learning module, a recommendation module and an evaluation module. The study first makes an assessment of the modified recommended system with respect to the precision rate, recall rate, F-measure, success rate, and recommending time. Then, the efficiency of the system is compared against other recommended systems utilizing the sequential pattern mining. When compared with other recommended systems utilizing the sequential pattern mining, the modified recommended system exhibits 5 times more efficiency in learning, and 20% improvement in the recommending capacity. This result proves that the modified system has more validity than recommended systems utilizing the sequential pattern mining.

A Sequential Association Rules Searching Methods for Web-Usage Patterns Based On Frequent-Pattern Tree (FP-Tree를 기반으로 한 웹 사용 패턴에 대한 순차적 연관성 탐색 기법 .)

  • 김영희;강우준;김응모
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.25-27
    • /
    • 2004
  • 대용량 웹 데이터베이스로부터 필요한 관련 정보를 탐색하고, 다양한 형태의 정보로부터 지식을 창출하는 일은 매우 어려운 일이다. 본 논문은 복잡하고 다양한 형태의 패턴이 존재하고, 연속된 입력을 갖는 웹 데이터베이스에서 발생되는 빈발 패턴들을 효과적으로 저장할 수 있는 FP-Tree를 기반으로 하여 변화된 정보들을 능동적으로 유지하고 새로운 정보들에 U해 FP-Tree를 재구성하여 웹 페이지에 대한 유용한 패턴 정보와 사용자의 웹 사용 패턴 분석을 용이하게 한다. 그 결과 새로이 발견된 웹 사용 패턴들을 통해 웹 페이지의 구조적 정보와 구조적 연판 정보를 효과적으로 얻을 수 있다.

  • PDF

A Technique for Making Efficient Travel Routes using the Mining Method of Frequent Patterns-growth (FP-growth 마이닝을 이용한 효율적인 여행경로 수립 기법)

  • Yoo, Kibeom;Cho, Kyungsoo;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.10-13
    • /
    • 2010
  • 컴퓨터의 활용이 다양해 지면서 예전과 다르게 다양한 이유로 많은 사람들이 여행을 하고 나서 여행에 대한 정보 블로그나 웹 상에 저장하고 공개한다. 이렇게 웹 상에 많은 양의 여행 관련 데이터가 존재함에도 불구하고 데이터들이 산발적으로 존재하고 체계적으로 데이터 베이스화 되어 있지 않아서 여전히 정보를 검색하고 여행 일정을 세우는 데에 많은 시간과 노력이 필요하다. 따라서 본 논문은 FP-tree 기반의 빈발 패턴 증가 기법을 이용한 여행 계획 수립 기법을 제안한다. 제안되는 기법에서 데이터들은 FP-tree 방식으로 저장되어 검색에 필요한 시간과 노력을 극적으로 줄이고, FP-growth 마이닝 기법을 이용해 효과적인 여행 경로를 선택할 수 있게 도와준다.

Border-based HSFI Algorithm for Hiding Sensitive Frequent Itemsets (민감한 빈발항목집합을 숨기기 위한 경계기반 HSFI 알고리즘)

  • Lee, Dan-Young;An, Hyoung-Keun;Koh, Jae-Jin
    • Journal of Korea Multimedia Society
    • /
    • v.14 no.10
    • /
    • pp.1323-1334
    • /
    • 2011
  • This paper suggests the border based HSFI algorithm to hide sensitive frequent itemsets. Node formation of FP-Tree which is different from the previous one uses the border to minimize the impacts of nonsensitive frequent itemsets in hiding process, including the organization of sensitive and border information, and all transaction as well. As a result of applying HSFI algorithms, it is possible to be the example transaction database, by significantly reducing the lost items, it turns out that HSFI algorithm is more effective than the existing algorithm for maintaining the quality of more improved database.

I-Tree: A Frequent Patterns Mining Approach without Candidate Generation or Support Constraint

  • Tanbeer, Syed Khairuzzaman;Sarkar, Jehad;Jeong, Byeong-Soo;Lee, Young-Koo;Lee, Sung-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.31-33
    • /
    • 2007
  • Devising an efficient one-pass frequent pattern mining algorithm has been an issue in data mining research in recent past. Pattern growth algorithms like FP-Growth which are found more efficient than candidate generation and test algorithms still require two database scans. Moreover, FP-growth approach requires rebuilding the base-tree while mining with different support counts. In this paper we propose an item-based tree, called I-Tree that not only efficiently mines frequent patterns with single database scan but also provides multiple mining scopes with multiple support thresholds. The 'build-once-mine-many' property of I-Tree allows it to construct the tree only once and perform mining operation several times with the variation of support count values.

  • PDF

An Efficient Algorithm for mining frequent itemsets using L2-tree (L2-tree를 이용한 효율적인 빈발항목 집합 탐사)

  • 박인창;장중혁;이원석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

Discovering Frequent Itemsets Reflected User Characteristics Using Weighted Batch based on Data Stream (스트림 데이터 환경에서 배치 가중치를 이용하여 사용자 특성을 반영한 빈발항목 집합 탐사)

  • Seo, Bok-Il;Kim, Jae-In;Hwang, Bu-Hyun
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.1
    • /
    • pp.56-64
    • /
    • 2011
  • It is difficult to discover frequent itemsets based on whole data from data stream since data stream has the characteristics of infinity and continuity. Therefore, a specialized data mining method, which reflects the properties of data and the requirement of users, is required. In this paper, we propose the method of FIMWB discovering the frequent itemsets which are reflecting the property that the recent events are more important than old events. Data stream is splitted into batches according to the given time interval. Our method gives a weighted value to each batch. It reflects user's interestedness for recent events. FP-Digraph discovers the frequent itemsets by using the result of FIMWB. Experimental result shows that FIMWB can reduce the generation of useless items and FP-Digraph method shows that it is suitable for real-time environment in comparison to a method based on a tree(FP-Tree).

Adaptive Frequent Pattern Algorithm using CAWFP-Tree based on RHadoop Platform (RHadoop 플랫폼기반 CAWFP-Tree를 이용한 적응 빈발 패턴 알고리즘)

  • Park, In-Kyu
    • Journal of Digital Convergence
    • /
    • v.15 no.6
    • /
    • pp.229-236
    • /
    • 2017
  • An efficient frequent pattern algorithm is essential for mining association rules as well as many other mining tasks for convergence with its application spread over a very broad spectrum. Models for mining pattern have been proposed using a FP-tree for storing compressed information about frequent patterns. In this paper, we propose a centroid frequent pattern growth algorithm which we called "CAWFP-Growth" that enhances he FP-Growth algorithm by making the center of weights and frequencies for the itemsets. Because the conventional constraint of maximum weighted support is not necessary to maintain the downward closure property, it is more likely to reduce the search time and the information loss of the frequent patterns. The experimental results show that the proposed algorithm achieves better performance than other algorithms without scarifying the accuracy and increasing the processing time via the centroid of the items. The MapReduce framework model is provided to handle large amounts of data via a pseudo-distributed computing environment. In addition, the modeling of the proposed algorithm is required in the fully distributed mode.