• 제목/요약/키워드: FP-트리

검색결과 20건 처리시간 0.026초

IRFP-tree(Intersection Rule Based FP-tree): 메모리 효율성을 향상시키기 위해 교집합 규칙 기반의 패러다임을 적용한 FP-tree (IRFP-tree: Intersection Rule Based FP-tree)

  • 이정훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.155-164
    • /
    • 2016
  • 대용량 데이터베이스의 빈도패턴 분석을 위해 기존의 Apriori 방식의 단점을 보완할 수 있는 새로운 트리 기반의 빈도 패턴 분석 알고리즘이 최근 다양하게 연구되고 있다. 그 중 FP-tree는 이러한 빈도 패턴을 분석하기 위해 빈도 패턴을 표현하는 트리 구조로 단 두 번의 전체 데이터베이스 스캔을 통해 빠르게 트리를 구성할 수 있으며 FP-grwoth를 통해 빈도 패턴을 분석할 수 있다. 이처럼 빈도 패턴 트리의 노드 수는 트리 자체의 메모리 할당량과도 연관이 있지만 그 후 growth의 메모리 자원 소비 및 처리 속도에도 영향을 미치게 된다. 따라서 빈도 패턴 트리의 노드 수의 감소는 트리 자체뿐만 아니라 빈도 패턴 분석에 있어서도 매우 중요하다. 하지만 FP-tree는 전체 아이템 수 라는 고정된 기준 문제로 인해 충분한 노드 수의 압축률을 갖지 못하고 있다. 본 논문에서는 이러한 FP-tree의 문제를 보완하여 좀 더 노드 수를 감소시킬 수 있도록 교집합 규칙이라는 새로운 패러다임을 적용한 빈도 패턴 트리인 IRFP-tree를 제시하고 실험을 통해 그 성능에 대해 증명하였다.

대용량 데이터베이스에서 클러스터링을 이용한 빈발 패턴 생성 (Creation of Frequent Patterns using Clustering in Large Database)

  • 김의찬;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.100-102
    • /
    • 2005
  • 데이터베이스에 저장되어 있는 데이터들을 통해서 의미있는 정보를 찾는 것이 데이터 마이닝이다. 많은 데이터 마이닝 기법들 중에 연관규칙을 다루는 연구가 많이 이루어지고 있다. 연관규칙 기법도 다양하게 연구되고 있는데 그 중 빈발 패턴 트리(FP-Tree)라는 방법을 이용하여 빈발 패턴을 찾아내는 연구가 활발히 진행되고 있다. 빈발 패턴 트리는 기존에 잘 알려져있는 연관규칙 생성 기법인 Apriori 기법보다 우수한 성능을 가지는 방법이다. 그러나 빈발 패턴 트리도 몇가지 문제점을 가지고 있다. 본 논문에서는 빈발 패턴 트리의 문제점 중 하나인 과도한 FP-Tree 생성을 줄이려 한다. 조건부 패턴 베이스를 통해 얻어지는 조건부 FP-Tree의 생성을 줄여 기존의 FP-Tree보다 더 나은 성능을 얻기 위해서 적절한 클리스터링을 이용하려 한다. 클러스터링 기법은 비트 트랜잭션을 이용한 클러스터링 방법을 이용한다.

  • PDF

FP-tree와 DHP 연관 규칙 탐사 알고리즘의 실험적 성능 비교 (Performance Evaluation of the FP-tree and the DHP Algorithms for Association Rule Mining)

  • 이형봉;김진호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권3호
    • /
    • pp.199-207
    • /
    • 2008
  • FP-tree(Frequency Pattern Tree) 연관 규칙 탐사 알고리즘은 DB 스캔에 대한 부담을 획기적으로 절감시킴으로써 전체적인 성능을 향상시키고자 제안되었고, 따라서 다른 기법에 기반하는 알고리즘보다 성능이 매우 우수한 것으로 알려져 있다. 그러나, FP-tree 알고리즘은 기본적으로 DB에 저장된 거래 내용 중 빈발 항목을 포함하는 모든 거래를 트리에 저장해야 하기 때문에 그만큼 많은 메모리를 필요로 한다. 이 논문에서는 범용 운영체제인 유닉스 시스템 환경에서 FP-tree 알고리즘을 구현하여 소요 메모리와 실행시간 등 두 가지 성능 관점에서 해시 트리 및 직접 해시 테이블을 사용하는 DHP(Direct Hashing and Pruning) 알고리즘과 비교한다. 그 결과로서 알려진 바와는 크게 다르게 시스템 메모리가 충분한 상황에서도 대형 편의점 수준의 규모에 적용 가능한 거래 건수 100K, 전체 항목 개수 $1K{\sim}7K$, 평균 거래 길이 $5{\sim}10$, 평균 빈발 항목 집합 크기 $2{\sim}12$인 데이타에 대해서 FP-tree 알고리즘이 DHP 알고리즘보다 열등한 경우가 존재함을 보인다.

민감한 빈발 항목집합 숨기기 위한 확장 빈발 패턴 트리 (An Extended Frequent Pattern Tree for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제18D권3호
    • /
    • pp.169-178
    • /
    • 2011
  • 최근 기업 간 또는 기관 사이의 데이터 공유는 업무 협력을 위해서 필요한 사안이 되고 있다. 이 과정에서 기업이 데이터베이스를 계열회사에 공개했을 때 민감한 정보가 유출되는 문제점이 발행할 수도 있다. 이런 문제를 해결하기 위해서 민감한 정보를 데이터베이스로부터 숨기는 일이 필요하게 되었다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 최소화하는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 FP-Tree(Frequent Pattern Tree)기반의 확장 빈발 패턴트리(Extended Frequent Pattern Tree, eFP-Tree)를 제안한다. eFP-Tree의 노드 구성은 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 최소화하기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 eFP-Tree를 적용한 결과, 손실 항목을 평균 10%이하로 최소화하여 기존 방법들에 비해 효과적임을 증명하였고, 데이터베이스의 품질을 최적으로 유지할 수가 있었다.

RHadoop 플랫폼기반 CAWFP-Tree를 이용한 적응 빈발 패턴 알고리즘 (Adaptive Frequent Pattern Algorithm using CAWFP-Tree based on RHadoop Platform)

  • 박인규
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.229-236
    • /
    • 2017
  • 효율적인 빈발 패턴 알고리즘은 연관 규칙 마이닝이나 융복합을 위한 마이닝 과정에서 필수적인 요소이며 많은 활용성을 가지고 있다. 패턴 마이닝을 위한 많은 모델들이 빈발 패턴에 관한 정보를 추출하여 FP-트리를 이용하여 저장하고 있다. 본 논문에서는 항목들의 무게중심을 이용한 새로운 빈발 패턴 알고리즘(CAWFP-Growth)을 제안하여 항목들이 가지는 가중치와 빈도수를 같이 고려하여 항목간의 중심을 계산하여 기존의 FP-Growth 알고리즘의 효율성을 향상시킨다. 제안한 방법은 하향 폐쇄의 성질을 유지하기 위한 기존의 전역적 최대치 가중치 지지도를 필요로 하지 않기 때문에 자연히 빈발 패턴의 탐색시간이 줄어들고 정보의 손실을 줄일 수 있다. 실험결과를 통하여 제안된 알고리즘이 기존의 동적가중치를 이용하는 다른 방법과 비교해볼 때, 항목들의 무게중심이 빈발패턴의 정확한 정보를 유지하고 FP-트리의 처리시간을 줄여주기 때문에 제안한 방법의 중요성을 보이고 있다 또한 가상 분산모드에서 맵리듀스 프레임을 기반으로 빅데이터를 모델링하고 향후 완전분산 모드에서 제안한 알고리즘의 모델링이 필요하다.

FP-tree 연관 규칙 탐사 알고리즘의 구현 및 성능 특성 (An Implementation and Performance Characteristics of the FP-tree Association Rules Mining Algorithm)

  • 이형봉
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.337-340
    • /
    • 2006
  • FP-tree(Frequent Pattern Tree) 연관 규칙 탐사 알고리즘은 DB 스캔에 대한 부담을 획기적으로 절감시킴으로써 전체적인 성능을 향상시키고자 제안되었다. 그런데, FP-tree는 DB에 저장된 거래 내용중 빈발 항목을 포함하는 모든 거래를 트리에 저장해야 하기 때문에 그만큼 많은 메모리를 필요로 한다. 이 논문에서는 범용 운영체제인 유닉스 시스템을 사용해서 메모리 사용 측면에서 F.P. Tree 알고리즘의 타당성과 이에 따른 성능 특성을 관찰하였다. 그 결과, F.P. Tree 알고리즘은 현대 컴퓨터에서 보편화된 512MB${\sim}$1GB의 주메모리 시스템에서 무리는 없으나, 메모리 소요량이 DB의 크기나 빈발 항목 집합의 수 보다는 거래의 길이 등 DB의 특성에 따라 급격하게 증가하는 것으로 나타났다.

  • PDF

RFM기반 FP-tree 마이닝을 이용한 개인화 추천시스템 (Personalized Recommendation System using FP-tree Mining based on RFM)

  • 조영성;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.197-206
    • /
    • 2012
  • 기존의 연관규칙을 이용한 추천시스템은 매번 계속적으로 대량의 데이터를 스캔해야 하므로 속도가 느릴 뿐 아니라 확장성 문제와 정확도 문제가 있다. 본 논문에서는 사용자의 평가 자료에 의존하지 않고 묵시적인(Implicit)방법을 이용하여 RFM(Recency, Frequency, Monetary)기반 FP-tree 마이닝을 이용한 개인화 추천시스템을 제안한다. 구매 가능성이 높은 아이템을 찾기 위해서 고객정보와 구매이력정보를 기반으로 고객과 아이템의 속성 반영이 가능한 RFM기법과 FP-tree 마이닝을 이용한다. 제안 방법으로 RFM기반의 FP-tree 마이닝을 이용하여 후보집합의 발생없이 빈발항목을 구성하고 연관규칙을 생성한다. 생성된 연관규칙의 지지도, 신뢰도, 향상도를 사용하여 추천 효율성이 높은 아이템 추천이 가능하다. 성능평가를 위해 현업에서 사용하는 인터넷 화장품 아이템 쇼핑몰의 데이터를 기반으로 데이터 셋을 구성하여 기존의 시스템과 비교 실험을 통해 성능을 평가하여 효용성과 타당성을 입증하였다.

대용량 공간 데이터로 부터 빈발 패턴 마이닝 (Mining Frequent Pattern from Large Spatial Data)

  • 이동규;이경민;정석호;이성호;류근호
    • 한국공간정보시스템학회 논문지
    • /
    • 제12권1호
    • /
    • pp.49-56
    • /
    • 2010
  • 공간 및 비 공간 데이터에서 알지 못했던 패턴을 탐사하는 빈발 패턴 탐사 기법은 마이닝 분야에서 가장 핵심적인 부분으로 많은 연구가 활발히 진행되고 있다. 기존의 자료구조들은 트리 구조 및 배열 구조로써 밀집 또는 희소 빈발 패턴에서 성능 저하를 보인다. 대용량의 공간 데이터는 밀집 및 희소 빈발 패턴을 둘 다 가지므로 단일 알고리즘으로 빠르게 탐사 하는 것은 중요하다. 본 논문에서는 단일 알고리즘을 사용하면서도 밀집 및 희소 빈발 패턴 모두에 대해 빠르게 빈발 패턴을 마이닝할 수 있는 압축된 패트리샤 빈발 패턴 트리라는 새로운 자료구조와 이를 사용한 빈발 패턴 마이닝 알고리즘을 제안한다. 실험 평가는 제안한 알고리즘이 대용량 희소 및 밀집 빈발 데이터에서 기존의 FP-Growth 알고리즘 보다 약 10배 정도 빠르게 빈발 패턴을 탐사하는 것을 보인다.

데이터베이스에서 빈발패턴의 추출을 위한 메모리 향상기법 (Memory Improvement Method for Extraction of Frequent Patterns in DataBase)

  • 박인규
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.127-133
    • /
    • 2019
  • 지금까지의 빈발 항목 추출에서는 FP-Tree에 대한 순회와 패턴의 탐색이 필수적인 과정이기 때문에 마이닝 데이터를 트리에 저장하는데 공간이 필요하고 탐색하는데 CPU시간이 필요하기 마련이다. 이러한 단점을 극복하기 위하여 본 논문에서는 조건부 FP-Tree의 의존하지 않고 트랜잭션 데이터의 각 항목들의 위치 정보를 부여하여 트랜잭션 데이터를 2차원의 위치정보 Look-Up테이블로 변환하여 시간과 공간적인 접근성을 용이하게 한다. 또한 항목과 항목의 위치에 대한 매핑배열을 병행하여 시간 복잡도를 줄이는 방법을 고려하는 알고리즘을 제안한다. 실험 결과를 통하여 제안된 방법은 FIMI 저장소 웹 사이트에서 얻은 데이터 세트를 기반으로 많은 실행 시간과 메모리 사용을 줄일 수 있음을 보였다.

교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측 (Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model)

  • 주영지;홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.75-82
    • /
    • 2016
  • 우리나라의 경제 성장과 도로 환경의 변화를 통해 국내 자동차 시장이 성장하였으나, 이로 인해 교통사고율 또한 증가하였고, 인명 피해가 심각한 수준이다. 이에 따라, 정부에서는 교통사고 데이터를 개방하고 문제를 해결하기 위한 정책을 수립 및 추진 중이다. 본 논문에서는 교통사고 데이터를 이용하여 클래스의 불균형을 해소하고, Hybrid Model 구축을 통한 교통사고 예측을 위해 원본 교통사고 데이터와 Sampling을 수행한 데이터를 학습 데이터로 사용한다. 두 학습데이터에 연관규칙 학습기법인 FP-Growth 알고리즘을 이용하여 교통사고 상해 심각도와 연관된 패턴을 학습한다. 두 학습 데이터의 연관 패턴을 분석을 통해 같은 연관된 패턴을 추출하고 의사결정트리와 다항 로지스틱 회귀분석기법에 연관된 속성에 가중치를 부여하여 융합형 Hybrid Model을 구축하고 교통사고 피해자 상해 심각도를 예측하는 방법에 대해 제안한다.