• 제목/요약/키워드: 빈발항목집합

검색결과 61건 처리시간 0.024초

분류 모형 구축에 유용한 신뢰도 측도 간의 비교 (Comparison of confidence measures useful for classification model building)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.365-371
    • /
    • 2014
  • 데이터 마이닝 기법 중에서 연관성 규칙은 하나의 거래나 사건에 포함되어 있는 항목들의 관련성을 파악하기 위한 탐색적 자료 분석 방법이다. 이 기법은 지지도, 신뢰도, 향상도 등과 같은 흥미도 측도들을 이용하여 연관성 규칙을 생성한다. 일반적인 연관성 규칙에서는 최소 지지도를 만족하는 빈발항목집합을 생성한 후 최저 신뢰도를 만족하는 것을 연관성 규칙으로 채택하게 된다. 이 때 규칙 여부를 결정하기 위해 가장 많이 사용되는 신뢰도는 고려하는 항목의 순서가 바뀌게 되면 그 값이 달라지는 비대칭적 측도가 되는 동시에 항상 양의 값을 가진다. 따라서 신뢰도 값의 크기로는 양의 연관성이 있는지, 아니면 음의 연관성이 있는지를 알 수 없다. 본 논문에서는 이러한 문제를 극복하기 위해 분류 모형 구축에 유용한 신뢰도 측도들을 소개하고, 신뢰도들 간의 비교 분석을 통해 유용성을 평가하였다. 그 결과, 인과적 확인 신뢰도가 연관성의 방향을 보다 정확하게 나타내고 있다는 사실을 확인 하였다.

DHP 연관 규칙 탐사 알고리즘을 위한 해싱 메커니즘 최적화 (An Optimization of Hashing Mechanism for the DHP Association Rules Mining Algorithm)

  • 이형봉;권기현
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권8호
    • /
    • pp.13-21
    • /
    • 2010
  • DHP 연관 규칙 탐사 알고리즘의 가장 큰 특징은 단계 k-1에서 k 개의 항목으로 구성된 해시 키 조합에 대한 계수를 미리 실시하고, 이를 단계 k에서 후보 빈발 항목 집합을 구성할 때 전지 정보로 활용하여 그 크기를 줄임으로써 성능을 개선한다는 점에 있다. 이 때, 모든 해시 키 조합에 대한 계수를 독립적으로 관리할 수 있다면 가장 이상적이나, 메모리 소요가 너무 많으므로 여러 개의 해시 키 조합들이 계수 공간을 공유하는 직접 해싱 메커니즘을 활용한다. 그러나, 연관 규칙 탐사 알고리즘의 특성상 해시 키 조합의 분포 공간이 불규칙하여 해싱 함수에 일반적인 단순 제산 연산을 사용할 경우 직접 해싱의 효율이 저하된다. 이 논문에서는 단계 3을 위한 길이 3인 해시 키 공간을 연속되는 정수 공간으로 사상하여 직접 해싱의 효율을 극대화시키는 사상 완전 해싱 함수를 제안한다. 42개의 시험 데이터 유형을 대상으로 실험한 결과 제안된 해싱 함수는 기존 방법보다 평균 7.3%, 최대 16.9%의 성능 개선 효과가 있는 것으로 나타났고, 특히 평균 거래 길이, 평균 빈발 항목 집합의 크, 전체 항목의 개수 등이 클수록 성능 개선 정도가 높았다.

트랜잭션 연결 구조를 이용한 빈발 Closed 항목집합 마이닝 알고리즘 (An Efficient Algorithm for Mining Frequent Closed Itemsets Using Transaction Link Structure)

  • 한경록;김재련
    • 대한산업공학회지
    • /
    • 제32권3호
    • /
    • pp.242-252
    • /
    • 2006
  • Data mining is the exploration and analysis of huge amounts of data to discover meaningful patterns. One of the most important data mining problems is association rule mining. Recent studies of mining association rules have proposed a closure mechanism. It is no longer necessary to mine the set of all of the frequent itemsets and their association rules. Rather, it is sufficient to mine the frequent closed itemsets and their corresponding rules. In the past, a number of algorithms for mining frequent closed itemsets have been based on items. In this paper, we use the transaction itself for mining frequent closed itemsets. An efficient algorithm is proposed that is based on a link structure between transactions. Our experimental results show that our algorithm is faster than previously proposed methods. Furthermore, our approach is significantly more efficient for dense databases.

퍼지 개념 계층을 이용한 다중 수준 연관 규칙 마이닝의 상향식 접근 (A Bottom-Up Approach for Mining Multiple-Level Association Rules Using Fuzzy Concert Hierarchies)

  • 손봉기;한상훈;이건명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1445-1448
    • /
    • 2000
  • 이 논문에서는 개념간의 애매한 관계를 적절히 표현할 수 있는 퍼지 개념 계층을 참조하여 최하위 개념 수준에서부터 최상위 개념 수준까지 각 수준에서 연관 규칙을 추출하는 다중 수준 상향식 연관규칙 마이닝 방법을 제안한다. 상위 개념 수준에서 빈발 항목 집합을 구하는데 필요한 상위 개념 수준의 트랜잭션 데이터베이스를 생성하는 방법을 소개한다. 또한 제안한 방법의 응용성을 보이기 위해 실험 과정과 결과를 보인다.

  • PDF

이진 표현을 이용한 효율적인 연관 규칙 탐사 알고리즘 (An Efficient Algorithm for Mining Association Rules using a Binary Representation)

  • 김원영;최원길;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.375-378
    • /
    • 2008
  • 오늘날 지식을 기반으로 하는 고도의 정보사회로 나아가는 시점에서 우리는 대량의 데이터 속에서 필요한 지식을 찾아내는 것에 초점을 모으게 되었다. 따라서 대량의 데이터 속에서 필요한 지식을 자동으로 찾아내는 데이터 마이닝에 대한 연구가 활발히 진행되고 있다. 데이터 마이닝은 대용량의 데이터를 대상으로 하기 때문에 정확도뿐만이 아니라 소요시간도 중요하기 때문에 성능 향상을 위한 알고리즘들이 많이 개발되었다. 데이터 마이닝의 성능을 향상시키기 위해서 가장 좋은 방법이 데이터베이스의 스캔의 횟수를 줄이는 것이다. 본 논문에서는 연관 규칙 탐사에서 빈발 항목 집합을 찾아내는 부분을 이진 표현을 이용하여 좀 더 성능을 향상시킬 수 있는 알고리즘을 제안한다.

큐보이드 전위트리를 이용한 빙산질의 처리 (Iceberg Query Evaluation Technical Using a Cuboid Prefix Tree)

  • 한상길;양우석;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.226-234
    • /
    • 2009
  • 무한한 데이터 스트림을 저장하는 것은 거의 불가능하기 때문에 데이터 스트림 환경에서 빙산질의를 수행하기 위해서는 새로운 데이터 구조와 알고리즘이 요구된다. 본 논문에서는 데이터 스트림 환경에서 빙산질의를 처리하기 위해 전위트리 구조에 기반한 규보이드 전위트리(Euboid prefix tree)를 제안한다. 큐보이드 전위트리는 빙산질의에 사용된 그룹항목으로 이루어진 항목집합만을 트리에서 관리하므로 전위트리보다 적은 메모리를 사용한다. 1-항목 관리를 통해서 빈발하지 않은 항목을 트랜잭션에서 제거함으로써 갱신 시 불필요하게 소요되는 시간을 줄일 수 있다. 또한 다중 빙산질의에서 공통적으로 사용된 그룹속성에 따라 노드를 공유함으로써 적은 메모리를 사용하여 효율적으로 다중 빙산질의를 처리할 수 있는 방법을 제안한다. 큐보이드 전위트리는 무한히 연속적으로 생성되는 데이터에 대하여 빙산질의를 처리하는데 있어서 메모리 사용량과 처리시간을 효과적으로 줄이며, 이를 여러 실험을 통해 확인하였다.

RFM기반 FP-tree 마이닝을 이용한 개인화 추천시스템 (Personalized Recommendation System using FP-tree Mining based on RFM)

  • 조영성;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.197-206
    • /
    • 2012
  • 기존의 연관규칙을 이용한 추천시스템은 매번 계속적으로 대량의 데이터를 스캔해야 하므로 속도가 느릴 뿐 아니라 확장성 문제와 정확도 문제가 있다. 본 논문에서는 사용자의 평가 자료에 의존하지 않고 묵시적인(Implicit)방법을 이용하여 RFM(Recency, Frequency, Monetary)기반 FP-tree 마이닝을 이용한 개인화 추천시스템을 제안한다. 구매 가능성이 높은 아이템을 찾기 위해서 고객정보와 구매이력정보를 기반으로 고객과 아이템의 속성 반영이 가능한 RFM기법과 FP-tree 마이닝을 이용한다. 제안 방법으로 RFM기반의 FP-tree 마이닝을 이용하여 후보집합의 발생없이 빈발항목을 구성하고 연관규칙을 생성한다. 생성된 연관규칙의 지지도, 신뢰도, 향상도를 사용하여 추천 효율성이 높은 아이템 추천이 가능하다. 성능평가를 위해 현업에서 사용하는 인터넷 화장품 아이템 쇼핑몰의 데이터를 기반으로 데이터 셋을 구성하여 기존의 시스템과 비교 실험을 통해 성능을 평가하여 효용성과 타당성을 입증하였다.

대용량 주기억장치 시스템에서 효율적인 연관 규칙 탐사 알고리즘 (An Efficient Algorithm For Mining Association Rules In Main Memory Systems)

  • 이재문
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.579-586
    • /
    • 2002
  • 본 논문은 대용량 주기억장치를 가진 시스템에 적합한 연관 규칙 탐사 알고리즘에 관한 연구이다. 이를 위하여 먼저 기존의 잘 알려진 알고리즘인 DHP, Partition 방법을 대용량 주기억장치를 가진 시스템에서 효율적으로 동작하도록 확장하였고, 다음 Partition 방법에 대해서 해쉬 테이블과 비트맵 기법을 적용하여 Partition 방법을 개선하는 방법을 제안하였다. 제안된 알고리즘은 실험적 환경에서 DHP와 성능이 비교되었으며, 제안하는 알고리즘이 확장된 DHP보다 최대 65%까지 성능 개선 효과가 있음을 보인다.

개인화 추천 시스템에서 FP-Tree를 이용한 연관 군집 방법 (Method of Associative Group Using FP-Tree in Personalized Recommendation System)

  • 조동주;임기욱;이정현;정경용
    • 한국콘텐츠학회논문지
    • /
    • 제7권10호
    • /
    • pp.19-26
    • /
    • 2007
  • 협력적 필터링은 아이템에 대한 선호도를 기반으로 이웃 선정 방법을 사용하므로 내용을 반영하지 못할뿐만 아니라 희박성 및 확장성 문제를 가지고 있다. 이러한 문제를 개선하기 위하여 아이템 기반 협력적 필터링이 실용화되었으나 아이템의 속성을 반영하지는 못한다. 본 논문에서는 기존의 개인화 추천 시스템의 문제점을 해결하기 위하여 FP-Tree를 이용한 연관 군집 방법을 제안하였다. 제안된 방법으로는 FP-Tree를 이용하여 후보집합의 발생없이 빈발항목을 구성하고 연관규칙을 생성한다. 생성된 연관 규칙의 신뢰도에 따라서 $\alpha-cut$을 사용하여 효율적인 연관 군집을 한다. 성능평가를 위해 MovieLens 데이터 집합에서 Gibbs Sampling, EM, K-means와 비교 평가하였다.

개방 데이터 마이닝에 효율적인 이동 윈도우 기법 (A Sliding Window Technique for Open Data Mining over Data Streams)

  • 장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.335-344
    • /
    • 2005
  • 근래들어 구성 요소가 빠른 속도로 지속적으로 발생되는 무한 집합으로 정의되는 데이터 스트림에 대한 개방 데이터 마이닝 방법들이 활발히 제안되고 있다. 데이터 스트림에 내재된 정보들은 시간 흐름에 따른 변화의 가능성이 매우 높다. 따라서, 이러한 변화를 빠른 시간에 분석할 수 있다면 해당 데이터 스트림에 대한 분석에서 보다 유용한 정보를 제공할 수 있다. 본 논문에서는 개방 데이터 마이닝 환경에서 효율적인 최근 빈발 항목 탐색을 위한 이동 윈도우 기법을 제시한다. 해당 기법에서는 데이터 스트림이 지속적으로 확장되더라도 지연 추가 및 전지 작업을 적용하여 마이닝 수행과정에서의 메모리 사용량이 매우 작게 유지되며, 분석 대상 범위의 데이터 객체들을 반복적으로 탐색하지 않기 때문에 각 시점에서 마이닝 결과를 짧은 시간에 구할 수 있다. 더불어, 해당 방법은 데이터 스트림의 최근 정보에 집중한 분석을 통해 해당 데이터 집합의 변화를 효율적으로 감지할 수 있다.