• 제목/요약/키워드: 빈발항목집합

검색결과 61건 처리시간 0.069초

매트릭스를 이용한 빈발 항목집합 생성 알고리즘 (Generation Algorithm of Frequent Itemsets using Matrix)

  • 채덕진;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.10-12
    • /
    • 2003
  • 대용량의 데이터베이스에서 최소지지도를 만족하는 항목들의 집합을 빈발 항목집합이라고 한다. 이전에 연구된 대부분의 빈발 항목집합 생성 알고리즘들은 후보 항목집합들을 생성하고 이들 중에서 조건을 만족하는 빈발 항목집합들을 생성하는 과정을 수행하였다. 그러나 이러한 알고리즘들은 모든 k(k$\geq$1)-빈발 항목집합들을 생성하기까지 k를 하나씩 증가하면서 반복적으로 수행되기 때문에 많은 컴퓨팅 시간을 필요로 한다. 본 논문에서는 후보 항목집합들을 생성하지 않고 빈발 항목집합들을 생성할 수 있는 DFG 알고리즘을 제안한다. 각각의 k-빈발 항목집합들에는 데이터베이스의 모든 정보들이 포함되어 있고 하나의 빈발 항목집합은 한 트랜잭션에 존재한다. 본 논문에서는 이러한 성질을 이용하여 먼저 2-빈발 항목집합들을 생성한다. 그리고 2-빈발 항목집합들에 존재하는 한 항목과 나머지 항목들에 대한 매트릭스를 구성하여 최소지지도를 만족하는 빈발 항목집합들을 생성하게 된다. 제안하는 알고리즘은 불필요한 후보 항목집합들을 생성하지 않고 한 번의 데이터베이스 스캔만으로 빈발 항목집합들을 생성할 수 있다.

  • PDF

효율적인 밀집 및 희소 빈발 항목 집합 탐색 방법 (An Effective Method for Dense and Sparse Frequent Itemsets Mining)

  • 이경민;정석호;신동문;;이동규;손교용;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.375-376
    • /
    • 2009
  • 트리기반 빈발 항목 집합 알고리즘들은 전체적으로 밀집 빈발 항목 집합에는 효율적이고 빠르게 빈발 항목 집합을 탐색하나 희소 빈발 항목 집합에는 효율적이지 않고 빈발 항목 집합을 빠르게 탐색하지 못한다. 반면에 배열기반 빈발 항목 집합 알고리즘은 희소 빈발 항목 집합에 효율적이고 빠르게 빈발 항목 집합을 탐색하나 밀집 빈발 항목 집합에는 효율적이지 않고 빈발 항목 집합을 빠르게 탐색하지 못한다. 밀집 및 희소 빈발 항목 집합 모두 효율적으로 빈발 항목 집합을 탐색 하고자 하는 시도가 있었으나 두 가지 종류의 알고리즘을 동시에 사용하므로 각각의 알고리즘을 사용할 정확한 기준 제시가 어렵고, 두 가지 알고리즘의 단점을 내포한다. 따라서 본 논문에서는 단일 알고리즘을 사용하여 밀집 빈발 항목 집합 및 희소 빈발 항목 집합 모두에 대해 작은 메모리 공간을 사용하면서도 효율적이고 빠르게 빈발 항목 집합을 탐색할 수 있는 CPFP-Tree라는 새로운 자료구조와 탐색 방법을 제안한다.

효과적인 빈발 항목 생성 알고리즘T (An Effective Large itemset Generation Algorithm)

  • 채덕진;황부현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.198-200
    • /
    • 2000
  • 대용량의 데이터베이스에서 여러 트랜잭션에 동시에 나타나는 항목들의 모임인 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈발 항목집합을 찾아내는 데이터 마이닝 방법을 연관 규칙 탐사라고 한다. 빈방 항목집합을 찾아내는 문제는 항목 집합들의 후보 집합을 생성하고 빈발 항목집합의 조건을 충족시키는 후보 집합을 추출함으로써 해결된다. 그리고 이러한 작업은 각각의 빈발 k-항목집합에 대해 k가 증가함에 따라 반복적으로 수행된다. 그러나 연관 규칙 탐사에 관한 기존의 연구는 주로 데이터베이스를 이루는 항목들의 수가 많거나 트랜잭션의 길이가 긴 경우의 대용량 데이터베이스에서 빈발 항목집합의 발견에 초점을 맞추고 있다. 본 논문에서는 데이터베이스를 이루는 전체 항목의 수가 적거나 트랜잭션의 크기가 작은 경우 효과적으로 빈발 항목집합을 찾을 수 있는 연관 규칙 탐사 방법을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

L2-tree를 이용한 효율적인 빈발항목 집합 탐사 (An Efficient Algorithm for mining frequent itemsets using L2-tree)

  • 박인창;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

TID 리스트 테이블을 이용한 연관 규칙 탐사 (Association Rule Discovery using TID List Table)

  • 채덕진;황부현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.219-227
    • /
    • 2005
  • 본 논문에서는 데이타베이스를 단 한번 스캔하여 빈발 항목집합들을 생성할 수 있는 효율적인 알고리즘을 제안한다. 빈발 항목집합은 어떤 트랜잭션이 접근하는 항목 집합의 부분집합이다. 각 항목에 대하여 그 항목을 접근하는 트랜잭션들에 관한 정보를 가지고 있다면, 동일한 트랜잭션 식별자를 갖는 항목들만을 추출함으로써 빈발 항목집합들을 생성할 수 있다 본 논문에서 제안하는 방법은 한 번의 데이타베이스 스캔으로 각 항목마다 접근하는 트랜잭션 식별자를 저장할 수 있는 자료 구조를 생성하며, 동시에 해쉬 기법을 이용하여 2-빈발 항목집합들을 생성한다. 3-빈발 항목집합부터는 이 자료 구조와 각 항목에 대한 트랜잭션 식별자를 비교함으로써 간단히 빈발 항목집합들을 찾아낼 수 있다. 제안하는 알고리즘은 한 번의 데이타베이스 스캔만으로 빈발 항목집합들을 효율적으로 생성할 수 있다.

장바구니 분석용 OLAP 큐브 구조의 설계 (Designing OLAP Cube Structures for Market Basket Analysis)

  • 유한주;최인수
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.179-189
    • /
    • 2007
  • 고객이 제품을 구매할 때에는 항시 구매패턴이 생기기 마련인데, 이러한 구매패턴을 찾아 나가는 과정을 장바구니 분석이라 부른다. 장바구니 분석은 Microsoft Association Algorithm에서는 두 가지 단계로 구성되어 있는데, 첫 번째 단계는 빈발항목집합을 찾아내는 과정이고, 두 번째 단계는 첫 번째 단계에서 찾은 빈발항목집합을 근거로 하여 이들의 중요도를 비교하는 단순한 계산과정이다. 빈발항목집합을 찾아내는 첫 번째 단계는 장바구니 분석에 있어서 핵심부분임에도 불구하고, OLAP 큐브에 적용할 때에는 추적분석이 불가능해지거나 허구의 빈발항목집합이 생성되는 등 여러 문제가 발생하게 된다. 본 연구에서는 장바구니 분석에 있어서 추적분석을 가능하게 하고 실제의 빈발항목집합만을 생성시키는 새로운 OLAP 큐브 구조의 설계법을 제안하고 있다.

  • PDF

빈발 항목집합 추출을 위한 알고리즘 (Algorithm for Extraction of Large itemsets)

  • 채덕진;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.117-120
    • /
    • 2000
  • 데이터 마이닝이란 대량의 실제 데이터로부터, 이전에 잘 알려지지는 않았지만, 잠재적으로 유용한 정보를 추출하는 작업이라 정의한다. 데이터 마이닝 기술 중에서 현재 가장 활발하게 연구되고 있는 것들 중의 하나가 연관 규칙 탐사이다. 연관 규칙이란 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미한다. 기존의 연관 규칙을 발견하기 위한 알고리즘들은 k-빈발 항목집합을 추출하기 위하여 k-후보 항목집합의 개수를 줄이거나 데이터베이스의 크기를 줄이는데 많은 연구가 이루어져 오고 있다. 본 논문에서는 상대적으로 많은 후보 항목집합의 데이터베이스 스캔을 통하여 추출되는 2-빈발 항목집합은 해쉬 기법을 사용하여 추출하고 k(k>2)-빈발 항목집합은 데이터베이스를 전처리하여 트랜잭션의 길이에 따라 두 개의 트랜잭션 집합으로 분리하고 분리된 데이터베이스에 다른 알고리즘을 사용하여 빈발 항목집합을 찾는 알고리즘을 제안한다. 그리고 성능 평가를 통하여 제안하는 방법의 성능 및 타당성을 보인다.

  • PDF

복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법 (Improved Association Rule Mining by Multiple Sampling & Trimming)

  • 황원태;김동승
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
    • /
    • pp.919-921
    • /
    • 2005
  • 본 논문은 전체 데이터베이스에서 일부 추출된 샘플 데이터에서 빈발항목 집합을 찾는 연관규칙 마이닝 알고리즘을 기술한다. 샘플링기술을 이용하면 마이닝과정에서 필요한 데이터베이스의 접근 양을 줄이므로써 실행시간을 단축시킬 수 있다는 장점이 있지만, 전체데이터베이스를 이용한 마이닝보다 정확도가 떨어진다는 단점이 함께 존재한다. 이전의 Chen의 FAST알고리즘은 샘플링을 이용한 마이닝과정에서 거리오차함수를 이용한 트리밍과정을 통해 빈발 1항목집합에 대한 정확도를 개선시켰다. 이후 IFAST 알고리즘은 트리밍과정에서 빈발2-항목집합까지 고려하여 빈발2-항목집합 이상의 빈발항목집합에서도 정확도를 개선시켰다. 본 논문에서는 트리밍과정에서 사용될 추정데이터를 여러 개의 샘플데이터를 이용하여 얻으므로써 오류항목집합(false itemset)의 수를 줄이고 전체적인 정확도를 향상시키는 새로운 알고리즘을 소개한다.

  • PDF

민감한 빈발항목집합을 숨기기 위한 경계기반 HSFI 알고리즘 (Border-based HSFI Algorithm for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1323-1334
    • /
    • 2011
  • 민감한 정보 숨기기 알고리즘은 민감한 정보를 보호하기 위하여 트랜잭션 데이터베이스를 삭제한다. 데이터 변경은 삭제 접근 방법들 중 하나이다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 서로 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 감소시키는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 경계기반의 HSFI(Hiding Sensitive Frequent Itemsets) 알고리즘을 제안한다. 본 알고리즘에서 FP-Tree의 노드 정보는 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 줄이기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 HSFI를 적용한 결과, 손실 항목을 크게 감소시킴으로써 기존 방법들에 비해 효과적임을 증명하였고, 보다 개선된 데이터베이스의 품질을 유지할 수가 있었다.

항목 계층 구조에 기반한 빈발 항목 집합 나열 방법 (Item Hierarchy based Frequent Itemset Ordering Method)

  • 김준우;강현경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.301-302
    • /
    • 2013
  • 연관 규칙 탐사는 이산적인 항목들을 포함하는 트랜잭션 데이터에 존재하는 항목 간 동시 발생 관계를 찾아내는 데 그 목적을 두고 있다. 연관 규칙은 {전항}${\rightarrow}${후항}의 형태를 갖고, 전, 후항은 모두 사전에 정의된 지지도 하한을 만족하는 빈발 항목 집합으로 구성된다. 연관 규칙 탐사에서 문제가 되는 것은 일반적으로 탐사되는 빈발 항목 집합의 개수가 많아지면서 규칙의 개수도 많아지고, 이들 사이에 중복성이 존재한다는 점이다. 따라서 단순히 지지도나 신뢰도 순으로 빈발 항목 집합이나 규칙을 나열하기보다는 항목들의 연관성을 고려하는 것이 분석자에게 보다 도움이 될 수 있다. 본 논문에서는 이를 위하여 연관 규칙 탐사와 함께 계층 군집 분석을 실시하여 항목들 간 연관성을 정리하고, 이를 토대로 빈발 항목 집합들을 나열하는 방법을 제안하고자 한다.

  • PDF