• Title/Summary/Keyword: 빈발 항목

Search Result 99, Processing Time 0.024 seconds

A Study on WT-Algorithm for Effective Reduction of Association Rules (효율적인 연관규칙 감축을 위한 WT-알고리즘에 관한 연구)

  • Park, Jin-Hee;Pi, Su-Young
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.20 no.5
    • /
    • pp.61-69
    • /
    • 2015
  • We are in overload status of information not just in a flood of information due to the data pouring from various kinds of mobile devices, online and Social Network Service(SNS) every day. While there are many existing information already created, lots of new information has been created from moment to moment. Linkage analysis has the shortcoming in that it is difficult to find the information we want since the number of rules increases geometrically as the number of item increases with the method of finding out frequent item set where the frequency of item is bigger than minimum support in this information. In this regard, this thesis proposes WT-algorithm that represents the transaction data set as Boolean variable item and grants weight to each item by making algorithm with Quine-McKluskey used to simplify the logical function. The proposed algorithm can improve efficiency of data mining by reducing the unnecessary rules due to the advantage of simplification regardless of number of items.

Iceberg Query Evaluation Technical Using a Cuboid Prefix Tree (큐보이드 전위트리를 이용한 빙산질의 처리)

  • Han, Sang-Gil;Yang, Woo-Sock;Lee, Won-Suk
    • Journal of KIISE:Databases
    • /
    • v.36 no.3
    • /
    • pp.226-234
    • /
    • 2009
  • A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. Due to the characteristics of a data stream, it is impossible to save all the data elements of a data stream. Therefore it is necessary to define a new synopsis structure to store the summary information of a data stream. For this purpose, this paper proposes a cuboid prefix tree that can be effectively employed in evaluating an iceberg query over data streams. A cuboid prefix tree only stores those itemsets that consist of grouping attributes used in GROUP BY query. In addition, a cuboid prefix tree can compute multiple iceberg queries simultaneously by sharing their common sub-expressions. A cuboid prefix tree evaluates an iceberg query over an infinitely generated data stream while efficiently reducing memory usage and processing time, which is verified by a series of experiments.

Efficient Algorithms for Mining Association Rules Under the Interactive Environments (대화형 환경에서 효율적인 연관 규칙 알고리즘)

  • Lee, Jae-Moon
    • The KIPS Transactions:PartD
    • /
    • v.8D no.4
    • /
    • pp.339-346
    • /
    • 2001
  • A problem for mining association rules under the interactive environments is to mine repeatedly association rules with the different minimum support. This problem includes all subproblems except on the facts that mine repeatedly association rules with the s믇 database. This paper proposed the efficient algorithms to improve the performance by using the information of the candidate large itemsets which calculate the previous association rules. The proposed algorithms were compared with the conventional algorithm with respect to the execution time. The comparisons show that the proposed algorithms achieve 10∼30% more gain than the conventional algorithm.

  • PDF

An Efficient Algorithm for Mining Frequent Closed Itemsets Using Transaction Link Structure (트랜잭션 연결 구조를 이용한 빈발 Closed 항목집합 마이닝 알고리즘)

  • Han, Kyong Rok;Kim, Jae Yearn
    • Journal of Korean Institute of Industrial Engineers
    • /
    • v.32 no.3
    • /
    • pp.242-252
    • /
    • 2006
  • Data mining is the exploration and analysis of huge amounts of data to discover meaningful patterns. One of the most important data mining problems is association rule mining. Recent studies of mining association rules have proposed a closure mechanism. It is no longer necessary to mine the set of all of the frequent itemsets and their association rules. Rather, it is sufficient to mine the frequent closed itemsets and their corresponding rules. In the past, a number of algorithms for mining frequent closed itemsets have been based on items. In this paper, we use the transaction itself for mining frequent closed itemsets. An efficient algorithm is proposed that is based on a link structure between transactions. Our experimental results show that our algorithm is faster than previously proposed methods. Furthermore, our approach is significantly more efficient for dense databases.

Frequent Itemset Search Using LSI Similarity (LSI 유사도를 이용한 효율적인 빈발항목 탐색 알고리즘)

  • Ko, Younhee;Kim, Hyeoncheol;Lee, Wongyu
    • The Journal of Korean Association of Computer Education
    • /
    • v.6 no.1
    • /
    • pp.1-8
    • /
    • 2003
  • We introduce a efficient vertical mining algorithm that reduces searching complexity for frequent k-itemsets significantly. This method includes sorting items by their LSI(Least Support Itemsets) similarity and then searching frequent itemsets in tree-based manner. The search tree structure provides several useful heuristics and therefore, reduces search space significantly at early stages. Experimental results on various data sets shows that the proposed algorithm improves searching performance compared to other algorithms, especially for a database having long pattern.

  • PDF

Association Rule Discovery for Sequence Analysis (서열 분석을 위한 연관 규칙 탐사)

  • 김정자;이도헌
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.91-93
    • /
    • 2001
  • 최근 지놈(Genome) 프로젝트를 통해 핵산, 단백질 서열 정보가 밝혀짐에 따라 분자 수준의 유전자 정보를 다루는 기법들이 활발히 연구되면서 방대한 서열 정보를 데이터 베이스화하고, 부족하기 위한 효과적인 도구와 컴퓨터 알고리즘의 개발을 필요로 하고 있다. 본 논문에서는 여러 단백질에 공통적으로 존재하는 서열 정보간에 존재하는 연관성을 탐사하기 위한 서열 연관 규칙 알고리즘을 제안한다. 원자 항목을 취급하였던 기존 알고리즘과는 달리 중복을 반영해야 하는 서열 데이터의 특성을 고려하여야 한다. 실험을 단백질 서열 데이터를 대상으로 수행하였다. 먼저 여러 서열에 빈발하게 발생하는 부 서열 집합을 찾고, 부 서열 집합들간에 존재하는 관련성을 탐사한다. 본 연구의 결과는 탐사된 규칙으로부터 다른 단백질의 구조와 기능을 예측할 수 있고, 이 정보는 필요로 하는 생물학적 분석을 방향을 제시할 것이다. 이는 생물학적 실험 대상의 후부조합을 최소화함으로써 많은 시간과 노력 비용을 절감할 수 있다.

  • PDF

A Bottom-Up Approach for Mining Multiple-Level Association Rules Using Fuzzy Concert Hierarchies (퍼지 개념 계층을 이용한 다중 수준 연관 규칙 마이닝의 상향식 접근)

  • Sohn, Bong-Ki;Han, Sang-Hun;Lee, Keon-Myung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10b
    • /
    • pp.1445-1448
    • /
    • 2000
  • 이 논문에서는 개념간의 애매한 관계를 적절히 표현할 수 있는 퍼지 개념 계층을 참조하여 최하위 개념 수준에서부터 최상위 개념 수준까지 각 수준에서 연관 규칙을 추출하는 다중 수준 상향식 연관규칙 마이닝 방법을 제안한다. 상위 개념 수준에서 빈발 항목 집합을 구하는데 필요한 상위 개념 수준의 트랜잭션 데이터베이스를 생성하는 방법을 소개한다. 또한 제안한 방법의 응용성을 보이기 위해 실험 과정과 결과를 보인다.

  • PDF

Implementation of Sequential Pattern Mining algorithm For Analysis of Alert data. (경보데이터 패턴분석을 위한 순차패턴 알고리즘의 구현)

  • Ghim, Hohn-Woong;Shin, Moon-Sun;Ryu, Keun-Ho;Jang, Jong-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1555-1558
    • /
    • 2003
  • 침입탐지란 컴퓨터와 네트워크 자원에 대한 유해한 침입 행동을 식별하고 대응하는 과정이다. 점차적으로 시스템에 대한 침입의 유형들이 복잡해지고 전문적으로 이루어지면서 빠르고 정확한 대응을 필요로 하는 시스템이 요구되고 있다. 이에 대용량의 데이터를 분석하여 의미 있는 정보를 추출하는 데이터 마이닝 기법을 적용하여 지능적이고 자동화된 탐지 및 경보데이터 분석에 이용할 수 있다. 마이닝 기법중의 하나인 순차 패턴 탐사 방법은 일정한 시퀸스 내의 빈발한 항목을 추출하여 순차적으로 패턴을 탐사하는 방법이며 이를 이용하여 시퀸스의 행동을 예측하거나 기술할 수 있는 규칙들을 생성할 수 있다. 이 논문에서는 대량의 경보 데이터를 효율적으로 분석하고 반복적인 공격 패턴에 능동적인 대응을 위한 방법으로 확장된 순차패턴 알고리즘인 PrefixSpan 알고리즘에 대해 제안하였고 이를 적용하므로써 침입탐지 시스템의 자동화 및 성능의 향상을 얻을 수 있다.

  • PDF

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences (생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝)

  • Kang, Tae-Ho;Yoo, Jae-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.645-648
    • /
    • 2006
  • 생물학적 데이터 서열에는 크게 DNA 서열과 단백질 서열이 있다. 이들 서열 데이터들은 여러 데이터베이스에 걸쳐 매우 방대한 양을 가지고 있으며, 각각의 서열은 수백 또는 수천 개의 항목들을 가지고 있어 길이가 매우 길다. 일반적으로 유전적인 변형, 또는 변이로부터 보존된 영역이나 특정 패턴들을 서열 안에 포함하고 있는데 생물학적 서열 데이터에서 보존된 영역이나 패턴들은 계통발생학적 근거로 활용 될 수도 있으며 기능과 밀접한 관계를 가지기도 한다. 따라서 서열들로부터 빈번하게 발생하는 패턴을 발견하고자 하는 알고리즘 개발이 요구되고 있다. 초창기 Apriori 알고리즘을 변형하여 빈발 패턴을 발견하고자 하는 노력들로부터 근래에는 PrefixSpan 트리를 이용하여 효과적으로 성능을 개선하고 있지만 아직까지는 여러 번의 데이터베이스 접근이 요구되고 있어 성능저하가 발생한다. 이에 본 논문에서는 접미사 트리를 변형하여 데이터베이스 접근을 획기적으로 줄이고 많은 서열들로부터 빈번하게 발생하는 연속적인 서열을 효과적으로 발견하는 방법을 제안한다.

  • PDF

Associative Classification based Customized Tourist Attraction Recommendation System applying CPFP-tree (CPFP-tree를 적용한 연관분류 기반의 사용자 맞춤형 관광명소 추천 시스템)

  • Kim, Hyeong-Soo;Park, Soo-Ho;Lee, Dong-Gyu;Ryu, Keun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.134-136
    • /
    • 2012
  • u-City 환경에서 사용자 맞춤형 국토정보를 제공하기 위해 대용량의 데이터를 효과적으로 분석할 수 있는 데이터마이닝 기법이 적용되고 있다. 따라서 이 논문에서는 데이터마이닝 기법 중 연관분류기법을 적용하여 사용자 맞춤형 관광명소 추천 시스템을 개발하였다. 특히, CPFP-tree를 이용하여 빈발항목집합 탐사에 대한 시간을 단축하였으며, 연관분류를 통해 보다 높은 정확도로 결과를 예측 및 분류할 수 있게 하였다. 제시한 시스템은 공간정보에 대해 사용자 맞춤 서비스를 제공할 수 있음을 보였으며, 다양한 시나리오 적용을 통해 맞춤형 국토정보화 기술의 기반이 될 수 있다.