• 제목/요약/키워드: Frequent pattern mining

검색결과 103건 처리시간 0.028초

I-Tree: A Frequent Patterns Mining Approach without Candidate Generation or Support Constraint

  • Tanbeer, Syed Khairuzzaman;Sarkar, Jehad;Jeong, Byeong-Soo;Lee, Young-Koo;Lee, Sung-Young
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.31-33
    • /
    • 2007
  • Devising an efficient one-pass frequent pattern mining algorithm has been an issue in data mining research in recent past. Pattern growth algorithms like FP-Growth which are found more efficient than candidate generation and test algorithms still require two database scans. Moreover, FP-growth approach requires rebuilding the base-tree while mining with different support counts. In this paper we propose an item-based tree, called I-Tree that not only efficiently mines frequent patterns with single database scan but also provides multiple mining scopes with multiple support thresholds. The 'build-once-mine-many' property of I-Tree allows it to construct the tree only once and perform mining operation several times with the variation of support count values.

  • PDF

RHadoop 플랫폼기반 CAWFP-Tree를 이용한 적응 빈발 패턴 알고리즘 (Adaptive Frequent Pattern Algorithm using CAWFP-Tree based on RHadoop Platform)

  • 박인규
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.229-236
    • /
    • 2017
  • 효율적인 빈발 패턴 알고리즘은 연관 규칙 마이닝이나 융복합을 위한 마이닝 과정에서 필수적인 요소이며 많은 활용성을 가지고 있다. 패턴 마이닝을 위한 많은 모델들이 빈발 패턴에 관한 정보를 추출하여 FP-트리를 이용하여 저장하고 있다. 본 논문에서는 항목들의 무게중심을 이용한 새로운 빈발 패턴 알고리즘(CAWFP-Growth)을 제안하여 항목들이 가지는 가중치와 빈도수를 같이 고려하여 항목간의 중심을 계산하여 기존의 FP-Growth 알고리즘의 효율성을 향상시킨다. 제안한 방법은 하향 폐쇄의 성질을 유지하기 위한 기존의 전역적 최대치 가중치 지지도를 필요로 하지 않기 때문에 자연히 빈발 패턴의 탐색시간이 줄어들고 정보의 손실을 줄일 수 있다. 실험결과를 통하여 제안된 알고리즘이 기존의 동적가중치를 이용하는 다른 방법과 비교해볼 때, 항목들의 무게중심이 빈발패턴의 정확한 정보를 유지하고 FP-트리의 처리시간을 줄여주기 때문에 제안한 방법의 중요성을 보이고 있다 또한 가상 분산모드에서 맵리듀스 프레임을 기반으로 빅데이터를 모델링하고 향후 완전분산 모드에서 제안한 알고리즘의 모델링이 필요하다.

빈발도와 가중치를 이용한 서비스 연관 규칙 마이닝 (Mining Association Rule on Service Data using Frequency and Weight)

  • 황정희
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권2호
    • /
    • pp.81-88
    • /
    • 2016
  • 일반적인 빈발패턴 탐사 방법은 항목의 빈발도만을 고려한다. 그러나 유용한 정보를 추출하는 데 있어 빈발도와 더불어 고려해야 하는 것은 빈발항목이 아니더라도 연관된 항목이 주기적으로 함께 발생한다면 시기나 시간에 따라 관심의 중요도가 변화하는 것을 고려해야 한다. 즉, 시간에 따라 사용자가 요구하는 서비스의 중요도는 다르므로 각 서비스 항목에 대한 중요도의 값을 고려하여 마이닝 하는 방법이 필요하다. 본 논문에서는 서비스 온톨로지 기반으로 가중치를 이용한 서비스 빈발 패턴을 추출하는 마이닝 기법을 제안한다. 제안하는 기법은 시공간 상황을 기반으로 서비스의 중요도를 고려한 가중치를 부여하여 연관 서비스를 발견한다. 새롭게 탐사되는 서비스는 저장되어 있는 서비스 규칙과의 새로운 조합을 통해 사용자에게 최적의 서비스 정보를 제공할 수 있는 기반이 된다.

랜드마크 윈도우 기반의 빈발 패턴 마이닝 기법의 분석 및 성능평가 (Analysis and Evaluation of Frequent Pattern Mining Technique based on Landmark Window)

  • 편광범;윤은일
    • 인터넷정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.101-107
    • /
    • 2014
  • 본 논문에서는 랜드마크 윈도우 기반의 빈발 패턴 마이닝 기법을 분석하고 성능을 평가한다. 본 논문에서는 Lossy counting 알고리즘과 hMiner 알고리즘에 대한 분석을 진행한다. 최신의 랜드마크 알고리즘인 hMiner는 트랜잭션이 발생할 때 마다 빈발 패턴을 마이닝 하는 방법이다. 그래서 hMiner와 같은 랜드마크 기반의 빈발 패턴 마이닝을 온라인 마이닝이라고 한다. 본 논문에서는 랜드마크 윈도우 마이닝의 초기 알고리즘인 Lossy counting와 최신 알고리즘인 hMiner의 성능을 평가하고 분석한다. 우리는 성능평가의 척도로 마이닝 시간과 트랜잭션 당 평균 처리 시간을 평가한다. 그리고 우리는 저장 구조의 효율성을 평가하기 위하여 최대 메모리 사용량을 평가한다. 마지막으로 우리는 알고리즘이 안정적으로 마이닝이 가능한지 평가하기 위해 데이터베이스의 아이템 수를 변화시키면서 평가하는 확장성 평가를 수행한다. 두 알고리즘의 평가 결과로, 랜드마크 윈도우 기반의 빈발 패턴 마이닝은 실시간 시스템에 적합한 마이닝 방식을 가지고 있지만 메모리를 많이 사용했다.

빈발 유전자 발현 패턴과 연쇄 규칙을 이용한 유전자 조절 네트워크 구축 (Constructing Gene Regulatory Networks using Frequent Gene Expression Pattern and Chain Rules)

  • 이헌규;류근호;정두영
    • 정보처리학회논문지D
    • /
    • 제14D권1호
    • /
    • pp.9-20
    • /
    • 2007
  • 유전자들의 그룹은 복잡한 상호작용들을 통해 세포의 기능이 조절되며 이러한 상호작용을 하는 유전자 그룹들을 유전자 조절 네트워크 (GRNs: Gene Regulatory Networks)라고 한다. 이전의 유전자 발현 분석 기법인 군집화와 분류는 단지 상동성에 의한 유전자들 사이의 소속을 결정하는 데에는 유용하나 분자 활동에서의 같은 클래스에서 발견되어지는 유전자들 사이의 조절 관계를 식별할 수 없다. 더욱이 유전자들이 어떻게 연관되는 지와 유전자들이 서로 어떻게 조절하는지에 대한 매커니즘의 이해가 필요하다. 따라서 이 논문에서는 시계열 마이크로어레이 데이터로부터의 유전자들의 조절 관계를 발견하기 위해서 빈발 패턴 마이닝과 연쇄 규칙을 이용한 새로운 접근법을 제안하였다. 이 기법에서는 먼저, 빈발 패턴 마이닝 적용을 위한 적절한 데이터 변환 방법을 제안하였고 FP-growth을 이용하여 유전자 발현 패턴들을 발견한다. 그런 다음, 연쇄 규칙을 이용하여 빈발한 유전자 패턴들로부터 유전자 조절 네트워크를 구축하였다. 마지막으로 제안된 기법의 검증은 공개된 유전자들의 조절 관계와 실험 결과의 일치함을 보임으로써 평가하였다.

맵리듀스 기반 DFP-Tree를 이용한 클러스터링 알고리즘 (Clustering Algorithm using the DFP-Tree based on the MapReduce)

  • 서영원;김창수
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.23-30
    • /
    • 2015
  • 빅 데이터가 이슈화됨에 따라 데이터 분석의 결과를 기반으로 동작하는 많은 응용들이연구되고 왔고, 대표적인 응용들은 전자상거래 시스템의 상품 추천 서비스, 검색 엔진에서의 검색 서비스, 소셜 네트워크 서비스에서의 친구 추천 서비스 등이 있다. 본 논문은 기존의 데이터 마이닝 기법 중 데이터 집합에서 나타나는 유사한 패턴들을 마이닝하는 빈발 패턴 트리와 컴퓨터 과학의 이론에 기초한 결정트리를 결합하여 결정 빈발 트리 알고리즘을 제안한다. 이는 기존의 빈발 패턴 트리 알고리즘은 패튼 트리에서 패턴 생성에 대한 정확성은 보장되나 소셜 데이터처럼 다양한 패턴이 나타는 데이터에 대해서는 많은 수의 패턴들을 생성시켜 분석에 대한 어려움이 있어, 서브트리들과의 수렴 여부를 판단하는 모델로 변형시켜 문제를 개선한다. 또한 맵리듀스로 모델링하여 분산처리를 통한 고속 처리 알고리즘을 제시한다.

빅데이터에 대한 Completeness를 이용한 빈발 패턴 마이닝 (Frequent Pattern Mining By using a Completeness for BigData)

  • 박인규
    • 한국게임학회 논문지
    • /
    • 제18권2호
    • /
    • pp.121-130
    • /
    • 2018
  • 대부분의 빈발 패턴은 패턴이 트랜잭션 데이터베이스에 나타나는 support를 패턴 interestingness의 핵심 척도로 다루어 왔으나 패턴의 횟수는 패턴의 completeness가 가지는 정보를 최대치로 가정하고 있다. 그러나 실제적으로는 임의의 패턴 X의 completeness는 트랜잭션에서 서로 다르게 나타나기 마련이다. 따라서 패턴이 가지는 정보의 손실을 줄이기 위해서는 가중치에 의한 support와 completeness에 의한 유용한 패턴 마이닝을 고려하여야 한다. 즉, 높은 completeness율을 갖는 패턴은 더 높은 recall로 이어질 수 있고 높은 빈도수를 갖는 패턴은 보다 높은 정밀도로 이어진다. 본 논문에서는 동적인 항목들의 가중치에 따른 적응된 support와 completeness를 고려하는 WSCFPM 패턴 마이닝 알고리즘을 제안한다. 제안한 방법은 모노톤 또는 반 모노톤 속성이 가중치에 의한 support와 completeness에 영향을 미치지 않기 때문에 탐색과정을 줄일 수 있다. 실험결과를 통하여 제안된 알고리즘이 효과적이며 확장성이 좋은 것임을 보인다.

Mining Spatio-Temporal Patterns in Trajectory Data

  • Kang, Ju-Young;Yong, Hwan-Seung
    • Journal of Information Processing Systems
    • /
    • 제6권4호
    • /
    • pp.521-536
    • /
    • 2010
  • Spatio-temporal patterns extracted from historical trajectories of moving objects reveal important knowledge about movement behavior for high quality LBS services. Existing approaches transform trajectories into sequences of location symbols and derive frequent subsequences by applying conventional sequential pattern mining algorithms. However, spatio-temporal correlations may be lost due to the inappropriate approximations of spatial and temporal properties. In this paper, we address the problem of mining spatio-temporal patterns from trajectory data. The inefficient description of temporal information decreases the mining efficiency and the interpretability of the patterns. We provide a formal statement of efficient representation of spatio-temporal movements and propose a new approach to discover spatio-temporal patterns in trajectory data. The proposed method first finds meaningful spatio-temporal regions and extracts frequent spatio-temporal patterns based on a prefix-projection approach from the sequences of these regions. We experimentally analyze that the proposed method improves mining performance and derives more intuitive patterns.

STMP/MST와 기존의 시공간 이동 패턴 탐사 기법들과의 성능 비교 (A Comparison of Performance between STMP/MST and Existing Spatio-Temporal Moving Pattern Mining Methods)

  • 이연식;김은아
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.49-63
    • /
    • 2009
  • 시공간 이동 패턴 탐사는 특성상 방대한 시공간 데이터의 분석 및 처리 방법에 따라 패턴 탐사의 성능이 좌우된다. 기존의 시공간 패턴 탐사 기법들[1-10]이 가진 패턴 탐사 수행 시간이나 패턴 탐사 시 사용되는 메모리양이 증가하는 문제를 해결하기 위해 일부 기법에서 몇 가지 방법을 제시하였으나 아직 미비한 실정하다. 이에 선행 연구로 방대한 시공간 이동 데이터 집합으로부터 순차적이고 주기적인 빈발 이동 패턴을 효과적으로 추출하기 위한 STMP/MST 탐사 기법[11]을 제안하였다. 제안된 기법은 해시 트리 기반의 이동 시퀀스 트리를 생성하여 빈발 이동 패턴을 탐사함으로써 탐사 수행 시간을 최소화하고, 상세 수준의 이력 데이터들을 실세계의 의미있는 시간 및 공간영역으로 일반화하여 탐사 시 소요되는 메모리양을 감소시킬 수 있다. 본 논문에서는 이러한 STMP/MST 탐사 기법의 효율성을 검증하기 위해서 탐사 대상 데이터양과 최소지지도를 기준으로 기존의 시공간 패턴 탐사 기법들과 탐사 수행 성능을 비교하고 분석한다.

  • PDF

이동 시퀀스 트리를 이용한 효율적인 시공간 이동 패턴 탐사 기법 (The Efficient Spatio-Temporal Moving Pattern Mining using Moving Sequence Tree)

  • 이연식;고현
    • 정보처리학회논문지D
    • /
    • 제16D권2호
    • /
    • pp.237-248
    • /
    • 2009
  • 최근 이동 객체의 동적인 위치나 이동성에 기반하여 여러 분야에 적용가능한 위치 기반 서비스를 개발하고자 다양한 객체의 이동 패턴들로 부터 유용한 패턴을 추출하기 위한 패턴 탐사 기법에 대한 연구가 활발히 진행되고 있다. 이동 패턴 탐사는 특성상 방대한 시공간 데이터의 분석 및 처리 방법에 따라 패턴 탐사의 성능이 좌우된다. 기존의 시공간 패턴 탐사 기법들[1-6,8-11] 중 일부는 이러한 문제를 해결하기 위한 방법을 제시하였으나, 패턴 탐사 수행 시간이나 패턴 탐사 시 사용되는 메모리양을 최소화하는데 있어 아직 부족한 실정이다. 이에 본 논문에서는 방대한 시공간 이동 데이터 집합으로부터 순차적이고 주기적인 빈발 이동 패턴을 효과적으로 추출하기 위한 새로운 시공간 이동 패턴 탐사기법을 제안한다. 제안된 기법에서는 이동 객체의 이력 데이터로부터 해시 트리 기반의 이동 시퀀스 트리를 생성하여 빈발 이동 패턴을 탐사함으로써 탐사 수행 시간을 $83%{\sim}93%$ 감소시키고, 시간 및 공간 속성을 가진 상세 수준의 이력 데이터들을 공간 및 시간 개념 계층을 이용하여 실세계의 의미있는 시간 및 공간영역으로 일반화함으로써 탐사 시 소요되는 메모리양을 감소시켜 보다 효과적인 패턴 탐사를 유도한다.