• Title/Summary/Keyword: 패턴 마이닝

Search Result 524, Processing Time 0.028 seconds

High Utility Pattern Mining using a Prefix-Tree (Prefix-Tree를 이용한 높은 유틸리티 패턴 마이닝 기법)

  • Jeong, Byeong-Soo;Ahmed, Chowdhury Farhan;Lee, In-Gi;Yong, Hwan-Seong
    • Journal of KIISE:Databases
    • /
    • v.36 no.5
    • /
    • pp.341-351
    • /
    • 2009
  • Recently high utility pattern (HUP) mining is one of the most important research issuer in data mining since it can consider the different weight Haloes of items. However, existing mining algorithms suffer from the performance degradation because it cannot easily apply Apriori-principle for pattern mining. In this paper, we introduce new high utility pattern mining approach by using a prefix-tree as in FP-Growth algorithm. Our approach stores the weight value of each item into a node and utilizes them for pruning unnecessary patterns. We compare the performance characteristics of three different prefix-tree structures. By thorough experimentation, we also prove that our approach can give performance improvement to a degree.

SuffixSpan: A Formal Approach For Mining Sequential Patterns (SuffixSpan: 순차패턴 마이닝을 위한 형식적 접근방법)

  • Cho, Dong-Young
    • The Journal of Korean Association of Computer Education
    • /
    • v.5 no.4
    • /
    • pp.53-60
    • /
    • 2002
  • Typical Apriori-like methods for mining sequential patterns have some problems such as generating of many candidate patterns and repetitive searching of a large database. And PrefixSpan constructs the prefix projected databases which are stepwise partitioned in the mining process. It can reduce the searching space to estimate the support of candidate patterns, but the construction cost of projected databases is still high. For efficient sequential pattern mining, we need to reduce the cost to generate candidate patterns and searching space for the generated ones. To solve these problems, we proposed SuffixSpan(Suffix checked Sequential Pattern mining), a new method for sequential pattern mining, and show a formal approach to our method.

  • PDF

Web Document Prediction System by using Web Log Mining (웹 로그 마이닝을 이용한 웹 문서 예측 시스템)

  • Lee Bum-suk;Hwang Byung-yeon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.97-99
    • /
    • 2005
  • 웹 문서 수의 급격한 증가는 사용자로 하여금 방대한 양의 웹 문서들로부터 필요한 정보를 선별하기 위한 시간과 비용을 낭비하게 만들었다. 따라서 이러한 문제를 해결하기 위한 연구의 필요성이 점차 증가하였는데, 그 중 웹 서버 로그 데이터에 마이닝 기법을 적용하여 사용자들의 사이트 내 문서의 접근 패턴을 분석하고, 그 데이터를 이용하여 동적으로 변화하는 적응형 웹 사이트를 제공하려는 것이 대표적인 연구 사례이다. 본 논문에서는 웹 서버 로그 마이닝을 이용하여 사용자가 필요로 하거나, 관심을 가지고 있는 페이지를 예측하여 추천해 주는 시스템에 대해 소개한다. 이러한 시스템을 구현하기 위해 순차 패턴 마이닝이나 빈발 에피소드 발견 기법 등의 알고리즘을 사용할 수 있다. 제안하는 시스템에서는 사용자 접근 패턴을 분석할 때 순차 패턴 마이닝 기법을 사용하고, 사용자의 이동 패턴을 근거로 웹 문서를 예측하여 추천해줄 때에는 에피소드 발견 기법에서의 window 개념을 이용한다. 본 논문에서 제안한 시스템은 웹 문서를 사용자가 머물었던 시간에 따라 관심 있는 문서와 지나간 문서로 구분하여 관심 있는 문서에 대해서안 마이닝을 수행한다. 또한 일정한 크기를 갖는 History window에 의해 다음 문서를 추천해주기 때문에 사용자의 모든 로그를 저장하지 않으므로 보다 효율적이다.

  • PDF

Performance Analysis of Siding Window based Stream High Utility Pattern Mining Methods (슬라이딩 윈도우 기반의 스트림 하이 유틸리티 패턴 마이닝 기법 성능분석)

  • Ryang, Heungmo;Yun, Unil
    • Journal of Internet Computing and Services
    • /
    • v.17 no.6
    • /
    • pp.53-59
    • /
    • 2016
  • Recently, huge stream data have been generated in real time from various applications such as wireless sensor networks, Internet of Things services, and social network services. For this reason, to develop an efficient method have become one of significant issues in order to discover useful information from such data by processing and analyzing them and employing the information for better decision making. Since stream data are generated continuously and rapidly, there is a need to deal with them through the minimum access. In addition, an appropriate method is required to analyze stream data in resource limited environments where fast processing with low power consumption is necessary. To address this issue, the sliding window model has been proposed and researched. Meanwhile, one of data mining techniques for finding meaningful information from huge data, pattern mining extracts such information in pattern forms. Frequency-based traditional pattern mining can process only binary databases and treats items in the databases with the same importance. As a result, frequent pattern mining has a disadvantage that cannot reflect characteristics of real databases although it has played an essential role in the data mining field. From this aspect, high utility pattern mining has suggested for discovering more meaningful information from non-binary databases with the consideration of the characteristics and relative importance of items. General high utility pattern mining methods for static databases, however, are not suitable for handling stream data. To address this issue, sliding window based high utility pattern mining has been proposed for finding significant information from stream data in resource limited environments by considering their characteristics and processing them efficiently. In this paper, we conduct various experiments with datasets for performance evaluation of sliding window based high utility pattern mining algorithms and analyze experimental results, through which we study their characteristics and direction of improvement.

산업재해 관리 시스템 구축을 위한 데이터 웨어하우스 마이닝 기법의 활용

  • Han, Jung-Hoon;Yoo, Hoon;Lee, Won-Geun;Sim, Jong-Chil;Kim, Chang-Eun
    • Proceedings of the Korean Institute of Industrial Safety Conference
    • /
    • 1998.11a
    • /
    • pp.225-230
    • /
    • 1998
  • 데이터 마이닝은 대용량 데이터베이스의 데이터 사이에 묻혀 있는 '패턴'을 발견하여 규칙을 추론함으로 여러 가지 유용한 지식을 캐내는 기법이다. 본 논문에서는 효과적인 재해관리 시스템을 구축하기 위해서 재해를 분석하고 대책을 마련할 수 있는 데이터 마이닝을 적용한 '데이터베이스 웨어하우스 마이닝 재해관리 데이터베이스 시스템'을 제시하고자 한다. 데이터 웨어하우스 마이닝은 다차원 데이터베이스로 구축되며 재해데이터간의 상호관련성, 특성요인별 패턴을 찾고 재해발생 가능성을 예측함으로써 재해예방의 의사결정을 지원할 수 있다.

  • PDF

Temporal Pattern Mining of Moving Objects considering Ambiguity (모호성을 고려한 이동 객체의 시간 패턴 탐사)

  • Lee, Yang-Woo;Lee, Jun-Wook;Kim, Ryong;Ryu, Geun-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.7-9
    • /
    • 2002
  • 위치 기반 서비스가 무선 인터넷의 새로운 이슈로 떠오르고 있다. 이동 객체의 패턴 마이닝은 이동 객체의 시간 패턴을 탐사함으로써 이동 객체에 위치에 기반한 유용한 서비스를 제공할 수 있게 해준다. 이동 객체는 시간에 따라 빈번하게 이동하기 때문에 패턴도 최근의 경향을 반영하기 위해 빈번하게 탐사되어야 한다. 따라서 점진적으로 시간 패턴을 탐사하는 접근법이 요구된다. 이 논문에서는 이동 객체의 시간 패턴을 탐사하는데 있어서 측정된 위치 데이터가 가질 수 있는 모호성을 제시했다. 또한 모호성을 고려한 시간 패턴 마이닝를 위해 패턴 탐사 단계에서의 모호성의 처리를 위해 모호성을 원인에 따라 세 가지 임계치를 정의하였다. 그리고 이러한 임계치를 고려한 시간 패턴 마이닝 프로시저 구조를 제시하였다.

  • PDF

Efficient Mining of Dynamic Weighted Sequential Patterns (동적 가중치를 이용한 효율적인 순차 패턴 탐사 기법)

  • Choi, Pilsun;Kang, Donghyun;Kim, Hwan;Kim, Daein;Hwang, Buhyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1365-1368
    • /
    • 2012
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 찾아내는 기법이다. 순차 패턴 탐사 분야 중에 동적 가중치 순차 패턴 탐사는 가중치가 시간에 따라 변화하는 컴퓨팅 환경에 적용하는 마이닝 기법으로 동적인 중요도 변화를 마이닝에 적용하여 다양한 환경에서 활용 가능하다. 이 논문에서는 다양한 순차 데이터에서 동적 가중치를 적용하여 순차 패턴을 탐사하는 새로운 시퀀스 데이터 마이닝 기법에 대하여 제안한다. 제안하는 기법은 시간 순서에 의한 상대적인 동적 가중치를 사용하여 탐색해야 하는 후보 패턴을 줄여줄 수 있어 빈발한 시퀀스 패턴을 빠르게 찾을 수 있다. 이 기법을 사용하면 기존 가중치를 적용하는 방식보다 메모리 사용과 처리 시간을 줄여줘 매우 효율적이다.

A Gap-based Weighting Approach in Mining Sequential Patterns (순차패턴 마이닝에서 발생 간격 기반 가중치 부여 기법)

  • Chang, Joong-Hyuk;Shin, Mu-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.300-303
    • /
    • 2010
  • 순차패턴 마이닝에서 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서뿐만 아니라 구성요소의 가중치를 추가로 고려할 수 있다. 본 논문에서는 순차패턴 마이닝에서 가중치 순차패턴을 탐색하기 위한 가중치 계산 기법으로 발생 간격에 기반한 순차패턴 가중치 부여 기법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생 순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻도록 지원한다.

Natural Disaster Alarming using Data Mining (데이터 마이닝을 이용한 자연재난 경고)

  • Joon-Suk Ryu;Won-Gil Choi;Ung-Mo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.367-370
    • /
    • 2008
  • 지구 온난화와 도시화 등으로 인해 자연 재난은 매년 그 강도는 증가하고 있고 그 결과 재난으로 인한 피해도 증가하고 있다. 우리나라 역시 매년 자연재난으로 많은 피해를 입고 있다. 이러한 재난을 지역의 특성을 이용하여 분류한 후 특성이 유사한 지역을 모아 패턴을 찾게 되며 패턴은 데이터 마이닝을 이용해 찾게 된다. 데이터 마이닝이란 여러 가지 데이터 안에 의미 있는 패턴을 찾아내는 기술이며 여기서 찾게 되는 패턴은 지금까지 발생한 재난의 발생 직전까지의 패턴이 된다. 이렇게 찾아낸 패턴은 현재 연속적으로 변하는 환경의 패턴 비교되며 패턴이 유사할 경우 경고하여 재난이 발생하기 전 먼저 예측하고 대비하는 방법을 제시한다.

Privacy Preserving Sequential Patterns Mining for Network Traffic Data (사이트의 접속 정보 유출이 없는 네트워크 트래픽 데이타에 대한 순차 패턴 마이닝)

  • Kim, Seung-Woo;Park, Sang-Hyun;Won, Jung-Im
    • Journal of KIISE:Databases
    • /
    • v.33 no.7
    • /
    • pp.741-753
    • /
    • 2006
  • As the total amount of traffic data in network has been growing at an alarming rate, many researches to mine traffic data with the purpose of getting useful information are currently being performed. However, network users' privacy can be compromised during the mining process. In this paper, we propose an efficient and practical privacy preserving sequential pattern mining method on network traffic data. In order to discover frequent sequential patterns without violating privacy, our method uses the N-repository server model and the retention replacement technique. In addition, our method accelerates the overall mining process by maintaining the meta tables so as to quickly determine whether candidate patterns have ever occurred. The various experiments with real network traffic data revealed tile efficiency of the proposed method.