• Title/Summary/Keyword: apriori algorithm

검색결과 108건 처리시간 0.029초

DISCOVERY TEMPORAL FREQUENT PATTERNS USING TFP-TREE

  • Jin Long;Lee Yongmi;Seo Sungbo;Ryu Keun Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.454-457
    • /
    • 2005
  • Mining frequent patterns in transaction databases, time-series databases, and many other kinds of databases has been studied popularly in data mining research. Most of the previous studies adopt an Apriori-like candidate set generation-and-test approach. However, candidate set generation is still costly, especially when there exist prolific patterns and/or long patterns. And calendar based on temporal association rules proposes the discovery of association rules along with their temporal patterns in terms of calendar schemas, but this approach is also adopt an Apriori-like candidate set generation. In this paper, we propose an efficient temporal frequent pattern mining using TFP-tree (Temporal Frequent Pattern tree). This approach has three advantages: (1) this method separates many partitions by according to maximum size domain and only scans the transaction once for reducing the I/O cost. (2) This method maintains all of transactions using FP-trees. (3) We only have the FP-trees of I-star pattern and other star pattern nodes only link them step by step for efficient mining and the saving memory. Our performance study shows that the TFP-tree is efficient and scalable for mining, and is about an order of magnitude faster than the Apriori algorithm and also faster than calendar based on temporal frequent pattern mining methods.

  • PDF

GML 문서에서 연관규칙 생성 시스템 구현 (Implementation of Association Rules Creation System from GML Documents)

  • 김의찬;황병연
    • 한국공간정보시스템학회 논문지
    • /
    • 제8권1호
    • /
    • pp.27-35
    • /
    • 2006
  • 지리 정보에 대한 관심이 증가되면서 이러한 연구와 활용 분야도 다양해지고 있다. OGC(Open GIS Consortium)에서는 XML(Extensible Markup Language)을 GIS 분야에 도입한 GML(Geography Markup Language)을 개발하였으며 여러 활용 분야에서 GML을 사용하고 계속적으로 연구되고 있다. 본 논문에서는 기존의 XML 문서를 기반으로 연구되었던 데이터 마이닝 방법 중 하나인 연관규칙 기법(Apriori)을 GML 문서들에 사용하여 의미 있는 규칙을 찾아내려 한다. 규칙을 찾는 방법에는 2가지가 있을 수 있다. 하나는 GML 문서에서 내용만을 뽑아내어 그에 따른 규칙을 찾아내는 방법이고, 다른 하나는 GML 문서에서 사용된 태그와 속성을 기반으로 규칙을 찾아내는 방법이다. 본 논문에서는 2가지 방법을 통해 규칙을 찾는 것에 대하여 기술하고 2가지 방법을 적용한 시스템을 보일 것이다.

  • PDF

CHARACTERIZATION OF THE SOLUTIONS SET OF INCONSISTENT LEAST-SQUARES PROBLEMS BY AN EXTENDED KACZMARZ ALGORITHM

  • Popa, Constantin
    • Journal of applied mathematics & informatics
    • /
    • 제6권1호
    • /
    • pp.51-64
    • /
    • 1999
  • We give a new characterization of the solutions set of the general (inconsistent) linear least-squares problem using the set of linit-points of an extended version of the classical Daczmarz's pro-jections method. We also obtain a "step error reduction formula" which in some cases can give us apriori information about the con-vergence properties of the algorithm. Some numerical experiments with our algorithm and comparisons between it and others existent in the literature are made in the last section of the paper.

IoT 환경에서 센서 데이터 처리율 향상을 위한 Apriori 기반 빅데이터 처리 시스템 (Apriori Based Big Data Processing System for Improve Sensor Data Throughput in IoT Environments)

  • 송진수;김수진;신용태
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권10호
    • /
    • pp.277-284
    • /
    • 2021
  • 최근 스마트 홈 환경은 무선 정보통신 기술과 융합을 통해서 다양한 데이터를 수집·통합·활용하는 플랫폼이 될 것으로 전망되고 있으며 실제로 스마트 홈 내부에는 다양한 센서를 탑재한 스마트 디바이스 수가 점점 증가하고 있다. 증가된 스마트 디바이스 수만큼 처리해야하는 데이터의 양도 증가하고 있으며 이를 효과적으로 처리하기 위해 빅데이터 처리 시스템이 활발하게 도입되고 있다. 그러나 기존 빅데이터 처리 시스템은 분산 노드에 할당되기 전 모든 요청이 클러스터 드라이버로 향하기 때문에 동시에 많은 요청이 발생하는 경우 분할 작업을 관리하는 클러스터 드라이버에 병목현상이 발생하고, 이는 네트워크를 공유하는 클러스터 전체의 성능감소로 이어진다. 특히 작은 데이터 처리를 지속해서 요청하는 스마트 홈 디바이스에서 지연율이 더 크게 나타난다. 이에 본 논문에서는 동시에 다수의 센서에서 요청이 발생하는 스마트 홈 환경에서 효과적인 데이터 처리를 위한 Apriori 기반 빅데이터 시스템을 설계하였다. 제안하는 시스템의 성능평가 결과에 따르면, 데이터 처리 시간은 기존 시스템에 비해 최소 19.2%에서 최대 38.6% 단축됐다. 이러한 결과가 발생한 이유는 측정되는 데이터의 형태와 관련이 있다. 스마트 홈 환경은 수집되는 데이터의 양은 방대하나 각 데이터의 용량은 작기 때문에 캐시 서버의 사용이 데이터 처리에 큰 역할을 하며, Apriori 알고리즘을 통한 연관도 분석으로 사용자의 행동 습관과 연관도가 높은 센서 데이터를 캐시에 저장하기 때문에 캐시 서버의 활용률이 매우 높다.

복합 해쉬트리를 이용한 효율적인 연관규칙 탐사 알고리즘 (An Efficient Algorithm for Mining Association Rules using a Compound Hash Tree)

  • 이재문;박종수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권3호
    • /
    • pp.343-352
    • /
    • 1999
  • 본 논문에서는 대용량 데이터베이스에서 효율적인 연관 규칙 탐사에 대한 알고리즘을 제안하였다. 제안하는 알고리즘은 복합 해쉬 트리를 사용하여 해쉬 트리 탐색 비용과 데이터베이스 스캔 비용을 동시에 줄임으로서 성능을 향상시켰다. 복합 해쉬 트리는 같은 크기의 항목집합들 대신에 크기가 다른 여러 항목집합을 하나의 해쉬 트리로 구성한다. 복합 해쉬 트리의 유용성을 보이기 위하여 제안한 알고리즘은 잘 알려져 있는 Apriori, DHP 방밥과 수행 시간 측면에서 성능 비교를 하였다. 그 결과 대부분의 최소 지지도에서제안한 알고리즘이 Apriori, DHP 방법보다 우수하게 나타났으며, 최소 지지도가 0.5% 이하인 경우 DHP 방법에 비하여 약 30%의 이득 향상이 있었다.

연관규칙과 협업적 필터링을 이용한 상품 추천 시스템 개발 (Development of the Goods Recommendation System using Association Rules and Collaborating Filtering)

  • 김지혜;박두순
    • 컴퓨터교육학회논문지
    • /
    • 제9권1호
    • /
    • pp.71-80
    • /
    • 2006
  • 전자상거래가 급속도로 발전함에 따라 고객들의 행동 패턴을 어떻게 발견하느냐와 웹 마이닝 기술을 사용하는 것에 의해 어떻게 상거래를 지능화 할 것인가에 대한 연구가 진행되고 있다. 현재까지 개인화와 상품 추천 시스템을 만들기 위해 가장 성공적이고 가장 넓게 사용되는 기술은 협업필터링 방법이다. 그러나 협업 필터링 방법은 특정 수 이상의 아이템에 대한 평가가 필요하다는 문제를 가지고 있다. 또한, 기존의 연관 규칙 기법은 개인별 사용자의 성향을 반영하지 못하는 단점을 가지고 있다. 본 논문에서는 개선된 Apriori 알고리즘을 이용하고, 아이템들 간에 상호 관계를 가진 협업 필터링 방법을 사용하여 사용자 성향이 반영된 상품 추천 시스템을 개발하였다.

  • PDF

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

연관 규칙 생성 알고리즘 기반의 개인화 의류 추천 시스템 (A Personalized Clothing Recommender System Based on the Algorithm for Mining Association Rules)

  • 이종현;이석훈;김장원;백두권
    • 한국시뮬레이션학회논문지
    • /
    • 제19권4호
    • /
    • pp.59-66
    • /
    • 2010
  • 이 논문에서는 온톨로지로 표현한 트랜잭션으로부터 연관 규칙을 생성하고 이를 기반으로 추론을 수행하여 개인화 의류 추천을 제공하는 시스템을 제안한다. Onto-Apriori 알고리즘을 이용한 연관 규칙 생성은 유행에 따른 구매성향 변동을 능동적으로 분석할 수 있다. 생성된 규칙은 온톨로지에 메타 노드로 표현하고 이를 기반으로 추론함으로써 사용자의 질의에 맞는 추천 항목을 찾아낼 수 있다. 시스템을 평가하기 위하여 추론 소요시간과 추천 정확도 2가지 요소를 기준으로 시뮬레이션을 수행하여 유효성을 증명하였다.

기계경비시스템 오경보 이벤트 분석을 위한 데이터마이닝 기법 연구 (A Study of Data Mining Methodology for Effective Analysis of False Alarm Event on Mechanical Security System)

  • 김종민;최경호;이동휘
    • 융합보안논문지
    • /
    • 제12권2호
    • /
    • pp.61-70
    • /
    • 2012
  • 본 연구의 목적은 효율적인 기계경비시스템 오경보 이벤트 분석을 위해 가장 적합한 데이터마이닝 기법을 도출하는데 있다. 이를 위해 기계경비시스템 오경보의 발생원인을 살펴보고, 오경보 시의 출동건수, 오경보율 그리고 오경보원인의 통계자료를 토대로한 데이터를 데이터마이닝 프로그램인 WEKA에 맞게 변환시켜 여러 알고리즘에 적용 및 분석하였다. 본 논문에서는 적합한 데이터마이닝 기법을 찾기 위해 Decision Tree, Naive Bayes, BayesNet Apriori, J48Tree 알고리즘을 활용하였고, 분석을 통해 생성된 가장 높은 값을 도출하여 해당 알고리즘의 적용 가능성을 확인하였다. 이와 같은 연구를 통해 효율적으로 기계경비시스템의 오경보를 예측하고, 오경보에 대한 보다 효율적인 대처방안을 모색할 수 있음을 보여주었다.

DHP 연관 규칙 탐사 알고리즘을 위한 효율적인 해싱 메카니즘 (An Efficient Hashing Mechanism of the DHP Algorithm for Mining Association Rules)

  • 이형봉
    • 정보처리학회논문지D
    • /
    • 제13D권5호
    • /
    • pp.651-660
    • /
    • 2006
  • Apriori 알고리즘에 기반 한 연관 규칙 탐사 알고리즘들은 후보 빈발 항목 집합의 계수 관리를 위한 자료구조로 해시 트리를 사용하고, 많은 시간이 그 해시 트리를 검색하기 위해 소요된다. DHP 연관 규칙 탐사 알고리즘은 해시 트리에 대한 검색 시간을 절약하기 위해 검색 대상인 후보 빈발 항목 집합의 개수를 최대한 줄이고자 노력한다. 이를 위해 사전에 예비 후보 빈발 항목 집합에 대한 간편 계수를 실시한다. 이 때, 예비 계수에 필요한 계산 부담을 줄이기 위해 아주 간단한 직접 해시 테이블 사용을 권고한다. 이 논문에서는 DHP 연관 규칙 탐사 알고리즘의 단계 2에서 사전 전지를 위해 사용되는 직접 해시 테이블 $H_2$와 모든 단계에서 후보 빈발 항목 집합의 계수를 위해 사용되는 해시 트리 $C_k$에 적용될 수 있는 효율적인 해싱 메카니즘을 제안하고 검증한다. 검증 결과 일반적인 단순 제산(mod) 연산 방법을 사용했을 때보다 제안 방법을 적용했을 경우 최대 82.2%, 평균 18.5%의 성능 향상이 얻어지는 것으로 나타났다.