• 제목/요약/키워드: 빈발항목집합

검색결과 61건 처리시간 0.019초

한 번의 데이터베이스 탐색에 의한 빈발항목집합 탐색 (Frequent Patterns Mining using only one-time Database Scan)

  • 채덕진;김룡;이용미;황부현;류근호
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.15-22
    • /
    • 2008
  • 본 논문에서는 한 번의 데이터베이스 스캔으로 빈발항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 제안하는 알고리즘은 빈발 항목과 그 빈발항목을 포함하고 있는 트랜잭션과의 관계를 나타내는 이분할 그래프(bipartite graph)를 생성한다. 그리고 생성된 이분할 그래프를 이용하여 후보 항목집합들을 생성하지 않고 빈발 항목집합들을 추출할 수 있다. 이분할 그래프는 빈발항목들을 추출하기위해 대용량의 트랜잭션 데이터베이스를 스캔할 때 생성된다. 이분할 그래프는 빈발항목들과 그들이 속한 트랜잭션들 간의 관계를 엣지(edge)로 연결한 그래프이다. 즉, 본 논문에서의 이분할 그래프는 대용량의 데이터베이스에서 쉽게 발견할 수 없는 빈발항목과 트랜잭션의 관계를 검색하기 쉽게 색인(index)화한 그래프이다. 본 논문에서 제안하는 방법은 한 번의 데이터베이스 스캔만을 수행하고 후보 항목집합들을 생성하지 않기 때문에 기존의 방법들보다 빠른 시간에 빈발 항목집합들을 찾을 수 있다.

공간 압축 및 효율적 탐사 기법을 이용한 빈발 폐쇄 항목집합 마이닝 (Frequent Closed Itemset Mining by Using a Space Compression and Efficient Search Technique)

  • 박귀정;한영우;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.392-394
    • /
    • 2003
  • 연관 규칙 마이닝은 일반적으로 않은 빈발항목집합과 연관 규칙을 생성하며, 생성된 연관 규칙은 상호 포함관계에 있거나 중복되는 경우가 많다. 이는 효과적인 마이닝 뿐 아니라 마이닝의 활용 효용성을 떨어뜨린다. 이를 해결하기 위하여 연관 규칙 마이닝과 동일한 성능을 가지며 생성되는 규칙의 수를 줄일 수 있는 빈발 폐쇄 항목집합 마이닝이 제안되었다. 본 연구에서는 연관규칙 마이닝 방법 중 가장 우수한 성능을 가지는 ARCS 알고리즘을 개선한 빈발 폐쇄 항목집단 마이닝을 제안한다.

  • PDF

희소 데이터 집합에서 효율적인 빈발 항목집합 탐사 기법 (Efficient Mining of Frequent Itemsets in a Sparse Data Set)

  • 박인창;장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권6호
    • /
    • pp.817-828
    • /
    • 2005
  • 빈발 항목집합 마이닝 분야의 주된 연구 주제는 수행과정에서의 메모리 사용량을 줄이고 짧은 수행 시간에 마이닝 결과 집합을 얻는 것으로서, 빈발항목 탐색을 위한 다수의 방법들은 Apriori 알고리즘에 기반을 둔 다중 탐색 방법들이다. 또한 최대 빈발 패턴의 길이가 길어질수록 마이닝 수행 시간이 급격히 증가되는 단점을 가진다. 이를 극복하기 위해서 이전의 연구에서 마이닝 수행 시간을 단축하기 위한 다양한 방법들이 제안되었다. 하지만, 다수의 이들 방법들은 희소 데이터 집합에서는 다소 비효율적인 성능을 나타낸다. 본 논문에서도 효율적인 빈발항목 탐색 방법을 제안하였다. 먼저 빈발항목 탐색을 위한 새로운 트리 구조인 $L_2$-tree 구조를 제안하였으며, 더불어 $L_2$-tree를 이용하여 빈발 항목집합을 탐색하는 $L_2$-traverse 알고리즘을 제안하였다. $L_2$-traverse 구조는 길이가 2인 빈발 항목집합 $L_2$에 기반하여 생성되는 것으로서 크기가 매우 작으며, 이를 활용한 $L_2$-traverse 알고리즘은 $L_2$-tree를 단순히 한번 탐색함으로써 전체 빈발 항목집합을 빠른 시간에 구한다. 또한 수행 시간을 보다 단축할 수 있는 방법으로 길이가 3인 빈발 항목집합 $L_3$가 될 수 없는 $L_2$ 패턴들을 미리 제거하는 $C_3$-traverse 알고리즘도 제안하였다. 다양한 실험을 통해 제안된 방법들은 특히 $L_2$가 상대적으로 적은 희소 데이터 집합 환경일 때 기존의 다른 방법들보다 우수함을 검증하였다.

민감한 빈발 항목집합 숨기기 위한 확장 빈발 패턴 트리 (An Extended Frequent Pattern Tree for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제18D권3호
    • /
    • pp.169-178
    • /
    • 2011
  • 최근 기업 간 또는 기관 사이의 데이터 공유는 업무 협력을 위해서 필요한 사안이 되고 있다. 이 과정에서 기업이 데이터베이스를 계열회사에 공개했을 때 민감한 정보가 유출되는 문제점이 발행할 수도 있다. 이런 문제를 해결하기 위해서 민감한 정보를 데이터베이스로부터 숨기는 일이 필요하게 되었다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 최소화하는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 FP-Tree(Frequent Pattern Tree)기반의 확장 빈발 패턴트리(Extended Frequent Pattern Tree, eFP-Tree)를 제안한다. eFP-Tree의 노드 구성은 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 최소화하기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 eFP-Tree를 적용한 결과, 손실 항목을 평균 10%이하로 최소화하여 기존 방법들에 비해 효과적임을 증명하였고, 데이터베이스의 품질을 최적으로 유지할 수가 있었다.

TID List를 이용한 빈발항목의 효율적인 탐색 알고리즘 (An efficient algorithm to search frequent itemsets using TID Lists)

  • 고윤희;김현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.136-139
    • /
    • 2002
  • 연관규칙 마이닝과정에서의 빈발항목 탐색의 대표적인 방법으로 알려진 Apriori 알고리즘의 성능을 향상시키기 위한 많은 연구가 진행되어 왔다. 본 논문에서는 트랜잭션 데이터베이스(TDB)에서 생성되는 각 패스의 k-itemset들에 대해 각각 트랜잭션 ID List(TIDist)를 유지하고 이를 이용해 (k+1)-itemset을 효율적으로 찾아내는 방법을 제안한다. 이 방법은 frequent (k+1)-itemset(k>0)의 빈도수 및 TIDList를 TDB 에 대한 스캔이 전혀 없이 k-itemset의 TIDList로부터 직접 구한다. 이는 빈발항목집합을 찾기 위한 탐색 complexity는 크게 줄여줄 뿐 아니라 시간 변화에 따른 빈발항목집합의 분포 정보를 제공해 준다.

  • PDF

스트림 데이터 환경에서 배치 가중치를 이용하여 사용자 특성을 반영한 빈발항목 집합 탐사 (Discovering Frequent Itemsets Reflected User Characteristics Using Weighted Batch based on Data Stream)

  • 서복일;김재인;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제11권1호
    • /
    • pp.56-64
    • /
    • 2011
  • 스트림데이터는 무한하고 연속적인 특성을 지니고 있기 때문에 전체 데이터를 기반으로 빈발 항목 집합을 탐사하는 것은 어렵다. 이 때문에 데이터의 특성과 사용자의 특성을 반영한 특수한 데이터마이닝 방법이 필요하다. 이 논문에서는 사용자가 최근에 발생한 데이터에 더 많은 관심이 있다는 특성을 반영하여 빈발 항목을 탐사하는 FIMWB 방법을 제안한다. FIMWB는 과거 데이터의 발생 시점과 현재 시점과의 시간 간격에 따라 가변적인 가중치를 배치에 부여하여 최신 데이터에 더 많은 관심과 중요성을 반영한다. FP-Digraph는 FIMWB를 통해 탐사된 빈발 항목으로 그래프를 구성하여 빈발 항목 집합을 탐사한다. 실험 결과로 FIMWB 방법이 불필요한 항목의 생성을 감소시키고 트리기반(FP-Tree)의 빈발 항목 집합 탐사에 비해 제안하는 FP-Digraph 방법이 스트림 데이터 환경에 더 적합함을 알 수 있다.

연관 규칙 탐사 응용을 위한 한 번 읽기에 의한 최대 크기 빈발항목 추정기법 (Approximation of Frequent Itemsets with Maximum Size by One-scan for Association Rule Mining Application)

  • 한갑수
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.475-484
    • /
    • 2008
  • 최근에는 데이터를 획득 및 처리하는 방법의 향상으로 인하여 연속적이고 실시간으로 발생되는 데이터를 처리하는 응용이 증가하고 있다. 그러한 응용에서 연관규칙을 추출하기 위해서는 새로운 방식을 사용하여 빈발항목집합을 찾아내야 한다. 기존의 빈발항목을 발견하는 방식에서는 전체 데이터베이스를 반복적으로 읽으면서 처리해야 한다. 그러나 실시간이고 연속적으로 발생하는 데이터를 처리하는 응용에서는 반복적으로 여러 번 데이터를 읽을 수 없기 때문에 일정 구간의 데이터를 한 번만 읽고 처리해야 한다. 따라서 본 논문에서는 입력되는 데이터 구간을 한 번만 읽고 최대 빈발항목 집합의 크기와 해당 빈발항목을 추정함으로써 필요한 연관규칙탐사를 가능하게 하는 빈발항목 추정 기법을 제안한다.

수량 연관규칙 생성을 위한 데이터의 지역성을 고려한 효과적인 알고리즘 제안 (An Efficient Algorithm Using the locality of Data for Mining Quantitative Association Rules)

  • 이혜정;박원환;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.126-129
    • /
    • 2003
  • 최근 대용량의 데이터베이스로부터 연관규칙을 발견하여 이를 활용하는 단계에서 이러한 연관규칙을 수량항목에도 적용할 수 있도록 확장하는 연구가 소개되고 있다. 본 논문에서는 수량 항목을 이진항목으로 변환하기 위하여 빈발구간 항목집합(Large Interval Itemsets)을 생성할 때 수량 항목이 특정 영역에 집중하여 발생하거나 골고루 분포되어 있지 않은 경우, 이러한 지역성(locality)을 고려하여 빈발구간 항목집합을 생성하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 의미 있는 구간을 중심으로 빈발구간 항목들이 순서대로 생성되기 때문에 세밀도를 판단하여 활용할 수 있으며, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다 또한 인구센서스등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법 (Finding Frequent Itemsets Over Data Streams in Confined Memory Space)

  • 김민정;신세정;이원석
    • 정보처리학회논문지D
    • /
    • 제15D권6호
    • /
    • pp.741-754
    • /
    • 2008
  • 지속적으로 확장되는 데이터 스트림에 대한 데이터 마이닝 수행과정에서는 메모리 사용량을 가용한 범위 내로 제한하는 것이 중요한 요소이다. 본 논문에서는 데이터 스트림 환경에서 한정된 메모리 공간을 이용하여 빈발 항목집합을 탐색하는데 효과적인 프라임 패턴 트리(Prime pattern tree: PPT)구조를 제안한다. 프라임 패턴 트리는 기존의 전위 트리 구조와 비교하여 항목집합들을 하나의 노드로 관리함으로써 트리의 크기를 크게 줄일 수 있는 장점이 있다. 또한, 전지 임계값 $S_{\delta}$에 따라 노드를 병합하거나 분리하여 동적으로 트리의 크기와 결과 집합의 정확도를 마이닝 수행 중에 조절 할 수 있다. $S_{\delta}$값이 크면 한 노드에서 관리되는 항목집합의 수가 증가하게 되고, 출현 빈도수를 추정해야 하기 때문에, $S_{\delta}$값이 작을수록 결과집합의 정확도가 높다. 이처럼 PPT에는 트리의 크기와 정확도의 trade-off 가 존재한다. PPT의 이러한 특성에 기반하여, 데이터 스트림에서 갑자기 데이터 집합에 변화가 생겨 빈발항목이 될 가능성이 높은 항목들이 많이 출현하는 경우에도 마이닝을 지속적으로 수행할 수 있도록 지원한다. 본 논문에서는 프라임 패턴 트리를 이전 연구에서 제안한 데이터 스트림에서 최근 빈발 항목 탐색 방법인 estDec 방법에 적용하여 한정된 작은 양의 메모리 공간을 이용하여 온라인 데이터 스트림에서 빈발항목을 탐색하는 방법을 제시한다. 또한, 가용 메모리 범위에서 최적의 메모리를 사용하여 최적의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량에 대한 적응적 방법을 제시한다. 끝으로, 여러 실험을 통한 효율성 검증을 통해 제안된 방법의 여러 특성을 확인한다.

데이터의 지역성을 이용한 빈발구간 항목집합 생성방법 (A Method for Generating Large-Interval Itemset using Locality of Data)

  • 박원환;박두순
    • 한국멀티미디어학회논문지
    • /
    • 제4권5호
    • /
    • pp.465-475
    • /
    • 2001
  • 최근에 대용량의 데이터베이스로부터 연관규칙을 발견하고자 하는 연구가 활발하며, 수량항목에도 적용할 수 있도록 이들 방법을 확장하는 연구도 소개되고 있다. 본 논문에서는 수량항목을 이진 항목으로 변환하기 위하여 빈발구간 항목집합을 생성할 때, 수량 항목의 정의 영역 내에서 특정 영역에 집중하여 발생하는 특성인 지역성을 이용하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 세밀도를 판단하여 활용할 수 있는 생성순서 정보도 포함하고 있어, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다. 인구센서스 등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF