• Title/Summary/Keyword: 순차패턴

Search Result 309, Processing Time 0.075 seconds

Mining Approximate Sequential Patterns in a Large Sequence Database (대용량 순차 데이터베이스에서 근사 순차패턴 탐색)

  • Kum Hye-Chung;Chang Joong-Hyuk
    • The KIPS Transactions:PartD
    • /
    • v.13D no.2 s.105
    • /
    • pp.199-206
    • /
    • 2006
  • Sequential pattern mining is an important data mining task with broad applications. However, conventional methods may meet inherent difficulties in mining databases with long sequences and noise. They may generate a huge number of short and trivial patterns but fail to find interesting patterns shared by many sequences. In this paper, to overcome these problems, we propose the theme of approximate sequential pattern mining roughly defined as identifying patterns approximately shared by many sequences. The proposed method works in two steps: one is to cluster target sequences by their similarities and the other is to find consensus patterns that ire similar to the sequences in each cluster directly through multiple alignment. For this purpose, a novel structure called weighted sequence is presented to compress the alignment result, and the longest consensus pattern that represents each cluster is generated from its weighted sequence. Finally, the effectiveness of the proposed method is verified by a set of experiments.

An Efficient Algorithm for Multi-dimensional Sequential Pattern Mining (다차원 순차패턴 마이닝을 위한 효율적 알고리즘)

  • 이순신;김은주;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.214-216
    • /
    • 2004
  • 순차패턴 마이닝은 데이터들 속에서 어떤 순차 관계가 들어 있는 패턴을 찾는 것이다. 순차 패턴은 다양한 분야에서 중요하게 쓰인다. 예를 들어, 소비자가 구입한 물품들 간의 순차적인 관계성은 다음에 구입할 물건을 예측하는데 쓰일 수 있다. 또한 방문 웹 페이지의 순차 패턴은 사용자가 방문하고자 하는 다음 페이지를 예측하는데 중요할 수 있다. 본 논문에서는 다차원 순차패턴을 마이닝하는 새로운 효율적인 알고리즘의 구현에 대해 설명한다 다차원 순차 패턴 마이닝은 속성-값(attribute-value) 기술을 포함하는 순차 패턴의 연관 규칙을 찾는 것이다. 다음의 두 가지의 현존하는 효율적 알고리즘을 융합하였다. 순차패턴 마이닝을 위한 PrefixSpan 알고리즘과 비 순차패턴 마이닝을 위한 StarCubing 알고리즘. 새로운 알고리즘은 다차원 데이터를 마이닝 하는 StarCubing알고리즘의 효율성을 이용하므로 다차원 순차 데이터를 마이닝 하는데 효율적일 것이다. 실험결과는 제안한 알고리즘이 특히 작은 최소지지도와 작은 cardinality에서 Seq-Dim과 Dim-Seq 같은 현존하는 알고리즘보다 나은 성능임을 보여준다.

  • PDF

A Gap-based Weighting Approach in Mining Sequential Patterns (순차패턴 마이닝에서 발생 간격 기반 가중치 부여 기법)

  • Chang, Joong-Hyuk;Shin, Mu-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.300-303
    • /
    • 2010
  • 순차패턴 마이닝에서 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서뿐만 아니라 구성요소의 가중치를 추가로 고려할 수 있다. 본 논문에서는 순차패턴 마이닝에서 가중치 순차패턴을 탐색하기 위한 가중치 계산 기법으로 발생 간격에 기반한 순차패턴 가중치 부여 기법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생 순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻도록 지원한다.

Searching Sequential Patterns by Approximation Algorithm (근사 알고리즘을 이용한 순차패턴 탐색)

  • Sarlsarbold, Garawagchaa;Hwang, Young-Sup
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.5
    • /
    • pp.29-36
    • /
    • 2009
  • Sequential pattern mining, which discovers frequent subsequences as patterns in a sequence database, is an important data mining problem with broad applications. Since a sequential pattern in DNA sequences can be a motif, we studied to find sequential patterns in DNA sequences. Most previously proposed mining algorithms follow the exact matching with a sequential pattern definition. They are not able to work in noisy environments and inaccurate data in practice. Theses problems occurs frequently in DNA sequences which is a biological data. We investigated approximate matching method to deal with those cases. Our idea is based on the observation that all occurrences of a frequent pattern can be classified into groups, which we call approximated pattern. The existing PrefixSpan algorithm can successfully find sequential patterns in a long sequence. We improved the PrefixSpan algorithm to find approximate sequential patterns. The experimental results showed that the number of repeats from the proposed method was 5 times more than that of PrefixSpan when the pattern length is 4.

Rule discovery for sequential patterns of trend from Time-Series (시계열 데이터로부터 경향성을 이용한 순차패턴의 탐색)

  • 오용생;남도원;장지숙;이동하;이전영
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.325-332
    • /
    • 2000
  • 데이터마이닝 분야에서 시계얼 데이터(time-series data)내에서 숨어 있는 순차패턴의 발견은 상품(Items)이나 어떤 사건(Event)과 같이 데이터의 특징이 명확한 대상에 대한 연구는 많이 되어왔으나 수치 값을 가지는 시계열 데이터에서 이들 내부에 숨어 있는 패턴을 발견하는 것은 최근에 관심을 가지게 되었다. 우리는 시계열 데이터를 시간적 변화에 따라 값의 변화 경향(Trend)이 같은 데이터 그룹을 패턴 요소인 벡터 (Vestor)로 표현하여 이들을 이용해서 흥미로운 패턴들을 발견한다. 이와 같은 벡터적인 표현으로 우리는 벡터들 간의 포함관계를 적용해 모든 가능한 형태의 패턴 발견을 목적으로 한다. 또한 경향성을 가진 패턴 요소를 사건(Event)과 같이 취급함으로써 다양한 종류의 시계열 데이터가 동시에 발생될 때 이들 상호간에 연관된 시간적 패턴을 찾을 수 있다. 따라서 이 연구에서 제안하는 경향성을 기초로 한 순차패턴의 탐식은 기업내부의 판매실적의 변화 패턴이나, 고객의 구매 행동분석에 적용이 가능하리라 여겨진다

  • PDF

Efficient Update Algorithm of Sequential Pattern (효율적인 순차 패턴 갱신 알고리즘)

  • 김학자;김형근;황환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.178-180
    • /
    • 2003
  • 본 논문은 순차 패턴을 갱신하는 알고리즘을 제안한다. 갱신된 데이터베이스에서 새로운 순차 패턴을 찾는 비용을 줄이기 위해 갱신 전 데이터베이스에서 발견한 순차 패턴에 대한 정보와 추가되는 데이터베이스의 정보만으로 새로운 순차 패턴의 후보를 줄이는 방법으로, 갱신된 전체 데이터베이스를 대상으로 순차 패턴 마이닝 알고리즘을 재실행하는 방법에 비해 후보 셋이 줄어들고 이로 인해 연산 비용을 줄일 수 있는 장점이 있다.

  • PDF

Mining Frequent Sequential Patterns over Sequence Data Streams with a Gap-Constraint (순차 데이터 스트림에서 발생 간격 제한 조건을 활용한 빈발 순차 패턴 탐색)

  • Chang, Joong-Hyuk
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.9
    • /
    • pp.35-46
    • /
    • 2010
  • Sequential pattern mining is one of the essential data mining tasks, and it is widely used to analyze data generated in various application fields such as web-based applications, E-commerce, bioinformatics, and USN environments. Recently data generated in the application fields has been taking the form of continuous data streams rather than finite stored data sets. Considering the changes in the form of data, many researches have been actively performed to efficiently find sequential patterns over data streams. However, conventional researches focus on reducing processing time and memory usage in mining sequential patterns over a target data stream, so that a research on mining more interesting and useful sequential patterns that efficiently reflect the characteristics of the data stream has been attracting no attention. This paper proposes a mining method of sequential patterns over data streams with a gap constraint, which can help to find more interesting sequential patterns over the data streams. First, meanings of the gap for a sequential pattern and gap-constrained sequential patterns are defined, and subsequently a mining method for finding gap-constrained sequential patterns over a data stream is proposed.

Efficient Mining of Dynamic Weighted Sequential Patterns (동적 가중치를 이용한 효율적인 순차 패턴 탐사 기법)

  • Choi, Pilsun;Kang, Donghyun;Kim, Hwan;Kim, Daein;Hwang, Buhyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1365-1368
    • /
    • 2012
  • 순차 패턴 탐사 기법은 순서를 갖는 패턴들의 집합 중에 빈발하게 발생하는 패턴을 찾아내는 기법이다. 순차 패턴 탐사 분야 중에 동적 가중치 순차 패턴 탐사는 가중치가 시간에 따라 변화하는 컴퓨팅 환경에 적용하는 마이닝 기법으로 동적인 중요도 변화를 마이닝에 적용하여 다양한 환경에서 활용 가능하다. 이 논문에서는 다양한 순차 데이터에서 동적 가중치를 적용하여 순차 패턴을 탐사하는 새로운 시퀀스 데이터 마이닝 기법에 대하여 제안한다. 제안하는 기법은 시간 순서에 의한 상대적인 동적 가중치를 사용하여 탐색해야 하는 후보 패턴을 줄여줄 수 있어 빈발한 시퀀스 패턴을 빠르게 찾을 수 있다. 이 기법을 사용하면 기존 가중치를 적용하는 방식보다 메모리 사용과 처리 시간을 줄여줘 매우 효율적이다.

Classification and Analysis of Sequential Pattern Algorithms (순차 패턴 알고리즘의 분류 및 분석)

  • Lee, Yang-Woo;Lee, Hohn-Gyu;Kim, Lyong;Seo, Sung-Bo;Ryu, Keun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1587-1590
    • /
    • 2003
  • 순차 패턴 마이닝은 대량의 시퀀스 데이터베이스에서 빈발 서브 시퀀스를 찾는 기법이다. 지금까지 많은 순차 패턴 마이닝에 관한 연구들이 순차 패턴을 효율적으로 찾기 위하여 제안되었다. 그러나 제안된 방법들은 응용에 적용할 수 있도록 체계적으로 분류되어 있지 않다. 따라서 이 논문에서는 알고리즘에 대한 연구들을 분류하고 이들 중 대표적인 알고리즘들을 선정하여 각각에 대해 분석하였다. 그리고 각 응용 도메인에 적용한 연구들과 기술적인 문제를 해결하는 연구들에 대해 정리하였다. 마지막으로 성능 향상을 위한 기법이나 자로 구조에 대해 언급하고 향후 순차 패턴 마이닝의 연구 방향을 제시하였다. 이 연구는 실제 응용에 적합한 순차 패턴 마이닝 알고리즘의 선택과 향후 새로운 순차 패턴 알고리즘 연구의 기반을 제공할 것이다.

  • PDF

A Sequential Pattern Mining based on Dynamic Weight in Data Stream (스트림 데이터에서 동적 가중치를 이용한 순차 패턴 탐사 기법)

  • Choi, Pilsun;Kim, Hwan;Kim, Daein;Hwang, Buhyun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.2
    • /
    • pp.137-144
    • /
    • 2013
  • A sequential pattern mining is finding out frequent patterns from the data set in time order. In this field, a dynamic weighted sequential pattern mining is applied to a computing environment that changes depending on the time and it can be utilized in a variety of environments applying changes of dynamic weight. In this paper, we propose a new sequence data mining method to explore the stream data by applying the dynamic weight. This method reduces the candidate patterns that must be navigated by using the dynamic weight according to the relative time sequence, and it can find out frequent sequence patterns quickly as the data input and output using a hash structure. Using this method reduces the memory usage and processing time more than applying the existing methods. We show the importance of dynamic weighted mining through the comparison of different weighting sequential pattern mining techniques.