• 제목/요약/키워드: 빈발 항목

검색결과 99건 처리시간 0.025초

효율적인 연관규칙 감축을 위한 WT-알고리즘에 관한 연구 (A Study on WT-Algorithm for Effective Reduction of Association Rules)

  • 박진희;피수영
    • 한국산업정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.61-69
    • /
    • 2015
  • 매일 각종 모바일 디바이스와 온라인, 소셜네트워크서비스 등에서 쏟아지는 데이터로 인해 정보의 홍수를 넘어 과부하 상태에 있다. 이미 생성되어 있는 기존 정보들도 있지만 시시각각 새롭게 생겨나고 있는 정보들이 헤아릴 수 없을 정도이다. 연관분석은 이러한 정보들 속에서 나타나는 항목의 발생 빈도수가 최소 지지도보다 큰 빈발항목집합(Frequent Item set)을 찾는 방법이다. 항목의 수가 많아짐에 따라 규칙의 수도 기하급수적으로 늘어나므로 원하는 정보를 찾기가 어려운 단점이 있다. 따라서 본 논문에서는 트랜잭션데이터 집합을 Boolean 변수 아이템으로 나타내었다. 논리함수를 간소화하는데 사용되는 Quine-McKluskey의 방법으로 알고리즘화하여 각 항목에 가중치를 부여한 WT-알고리즘을 제안한다. 제안한 알고리즘은 항목의 개수와 관계없이 간략화가 가능한 장점으로 인하여 불필요한 규칙을 감소시켜 데이터마이닝 효율을 향상시킬 수 있다.

큐보이드 전위트리를 이용한 빙산질의 처리 (Iceberg Query Evaluation Technical Using a Cuboid Prefix Tree)

  • 한상길;양우석;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.226-234
    • /
    • 2009
  • 무한한 데이터 스트림을 저장하는 것은 거의 불가능하기 때문에 데이터 스트림 환경에서 빙산질의를 수행하기 위해서는 새로운 데이터 구조와 알고리즘이 요구된다. 본 논문에서는 데이터 스트림 환경에서 빙산질의를 처리하기 위해 전위트리 구조에 기반한 규보이드 전위트리(Euboid prefix tree)를 제안한다. 큐보이드 전위트리는 빙산질의에 사용된 그룹항목으로 이루어진 항목집합만을 트리에서 관리하므로 전위트리보다 적은 메모리를 사용한다. 1-항목 관리를 통해서 빈발하지 않은 항목을 트랜잭션에서 제거함으로써 갱신 시 불필요하게 소요되는 시간을 줄일 수 있다. 또한 다중 빙산질의에서 공통적으로 사용된 그룹속성에 따라 노드를 공유함으로써 적은 메모리를 사용하여 효율적으로 다중 빙산질의를 처리할 수 있는 방법을 제안한다. 큐보이드 전위트리는 무한히 연속적으로 생성되는 데이터에 대하여 빙산질의를 처리하는데 있어서 메모리 사용량과 처리시간을 효과적으로 줄이며, 이를 여러 실험을 통해 확인하였다.

대화형 환경에서 효율적인 연관 규칙 알고리즘 (Efficient Algorithms for Mining Association Rules Under the Interactive Environments)

  • 이재문
    • 정보처리학회논문지D
    • /
    • 제8D권4호
    • /
    • pp.339-346
    • /
    • 2001
  • 대화형 환경에서 연관 규칙 탐사 문제는 동일한 데이터베이스에서 다른 최소 지지도로 반복적으로 연관 규칙을 탐사하는 것이다. 이 문제는 반복적으로 연관 규칙을 탐사한다는 사실만 기존의 연관 규칙 탐사와 다를 뿐 기존의 연관 규칙 탐사에서 발생하는 모든 문제를 포함한다. 본 논문은 전 단계에 계산된 후보 항목집합에 대한 정보를 이용함으로써 성능 향상을 가져오는 효율적인 알고리즘을 제안한다. 제안된 알고리즘은 대화형 환경에서 기존의 알고리즘과 수행 시간 측면에서 비교되었다. 성능 비교의 결과로부터 제안하는 알고리즘이 기존의 방법보다 약 10~30% 정도의 상대적 성능 향상 효과가 있음을 알 수 있었다.

  • PDF

트랜잭션 연결 구조를 이용한 빈발 Closed 항목집합 마이닝 알고리즘 (An Efficient Algorithm for Mining Frequent Closed Itemsets Using Transaction Link Structure)

  • 한경록;김재련
    • 대한산업공학회지
    • /
    • 제32권3호
    • /
    • pp.242-252
    • /
    • 2006
  • Data mining is the exploration and analysis of huge amounts of data to discover meaningful patterns. One of the most important data mining problems is association rule mining. Recent studies of mining association rules have proposed a closure mechanism. It is no longer necessary to mine the set of all of the frequent itemsets and their association rules. Rather, it is sufficient to mine the frequent closed itemsets and their corresponding rules. In the past, a number of algorithms for mining frequent closed itemsets have been based on items. In this paper, we use the transaction itself for mining frequent closed itemsets. An efficient algorithm is proposed that is based on a link structure between transactions. Our experimental results show that our algorithm is faster than previously proposed methods. Furthermore, our approach is significantly more efficient for dense databases.

LSI 유사도를 이용한 효율적인 빈발항목 탐색 알고리즘 (Frequent Itemset Search Using LSI Similarity)

  • 고윤희;김현철;이원규
    • 컴퓨터교육학회논문지
    • /
    • 제6권1호
    • /
    • pp.1-8
    • /
    • 2003
  • 본 논문에서는 frequent itemset을 빠르게 발견해내기 위한 효율적인 vertical 마이닝 알고리즘을 제안한다. 본 알고리즘은 frequent itemset을 구하기 위해 아이템들을 Least Support Itemset(LSI) 과의 유사도에 의해 올림차순으로 정렬하여 탐색 트리를 구축하여 보다 빠르고 효율적으로 frequent itemset을 찾아낸다. 또한, 트리를 탐색 시, 2가지의 휴리스틱 방법을 사용하여 탐색의 초기에 많은 후보 아이템들을 탐색 트리로부터 제거함으로써 탐색 공간을 크게 줄인다. 본 논문에서 제안하는 알고리즘은 이전의 알고리즘들과 비교해, long pattern을 가지는 데이터 베이스에서 보다 빠르게 frequent itemset을 발견해 냄을 실험을 통해 발견하였다.

  • PDF

서열 분석을 위한 연관 규칙 탐사 (Association Rule Discovery for Sequence Analysis)

  • 김정자;이도헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.91-93
    • /
    • 2001
  • 최근 지놈(Genome) 프로젝트를 통해 핵산, 단백질 서열 정보가 밝혀짐에 따라 분자 수준의 유전자 정보를 다루는 기법들이 활발히 연구되면서 방대한 서열 정보를 데이터 베이스화하고, 부족하기 위한 효과적인 도구와 컴퓨터 알고리즘의 개발을 필요로 하고 있다. 본 논문에서는 여러 단백질에 공통적으로 존재하는 서열 정보간에 존재하는 연관성을 탐사하기 위한 서열 연관 규칙 알고리즘을 제안한다. 원자 항목을 취급하였던 기존 알고리즘과는 달리 중복을 반영해야 하는 서열 데이터의 특성을 고려하여야 한다. 실험을 단백질 서열 데이터를 대상으로 수행하였다. 먼저 여러 서열에 빈발하게 발생하는 부 서열 집합을 찾고, 부 서열 집합들간에 존재하는 관련성을 탐사한다. 본 연구의 결과는 탐사된 규칙으로부터 다른 단백질의 구조와 기능을 예측할 수 있고, 이 정보는 필요로 하는 생물학적 분석을 방향을 제시할 것이다. 이는 생물학적 실험 대상의 후부조합을 최소화함으로써 많은 시간과 노력 비용을 절감할 수 있다.

  • PDF

퍼지 개념 계층을 이용한 다중 수준 연관 규칙 마이닝의 상향식 접근 (A Bottom-Up Approach for Mining Multiple-Level Association Rules Using Fuzzy Concert Hierarchies)

  • 손봉기;한상훈;이건명
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1445-1448
    • /
    • 2000
  • 이 논문에서는 개념간의 애매한 관계를 적절히 표현할 수 있는 퍼지 개념 계층을 참조하여 최하위 개념 수준에서부터 최상위 개념 수준까지 각 수준에서 연관 규칙을 추출하는 다중 수준 상향식 연관규칙 마이닝 방법을 제안한다. 상위 개념 수준에서 빈발 항목 집합을 구하는데 필요한 상위 개념 수준의 트랜잭션 데이터베이스를 생성하는 방법을 소개한다. 또한 제안한 방법의 응용성을 보이기 위해 실험 과정과 결과를 보인다.

  • PDF

경보데이터 패턴분석을 위한 순차패턴 알고리즘의 구현 (Implementation of Sequential Pattern Mining algorithm For Analysis of Alert data.)

  • 김헌웅;신문선;류근호;장종수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1555-1558
    • /
    • 2003
  • 침입탐지란 컴퓨터와 네트워크 자원에 대한 유해한 침입 행동을 식별하고 대응하는 과정이다. 점차적으로 시스템에 대한 침입의 유형들이 복잡해지고 전문적으로 이루어지면서 빠르고 정확한 대응을 필요로 하는 시스템이 요구되고 있다. 이에 대용량의 데이터를 분석하여 의미 있는 정보를 추출하는 데이터 마이닝 기법을 적용하여 지능적이고 자동화된 탐지 및 경보데이터 분석에 이용할 수 있다. 마이닝 기법중의 하나인 순차 패턴 탐사 방법은 일정한 시퀸스 내의 빈발한 항목을 추출하여 순차적으로 패턴을 탐사하는 방법이며 이를 이용하여 시퀸스의 행동을 예측하거나 기술할 수 있는 규칙들을 생성할 수 있다. 이 논문에서는 대량의 경보 데이터를 효율적으로 분석하고 반복적인 공격 패턴에 능동적인 대응을 위한 방법으로 확장된 순차패턴 알고리즘인 PrefixSpan 알고리즘에 대해 제안하였고 이를 적용하므로써 침입탐지 시스템의 자동화 및 성능의 향상을 얻을 수 있다.

  • PDF

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.645-648
    • /
    • 2006
  • 생물학적 데이터 서열에는 크게 DNA 서열과 단백질 서열이 있다. 이들 서열 데이터들은 여러 데이터베이스에 걸쳐 매우 방대한 양을 가지고 있으며, 각각의 서열은 수백 또는 수천 개의 항목들을 가지고 있어 길이가 매우 길다. 일반적으로 유전적인 변형, 또는 변이로부터 보존된 영역이나 특정 패턴들을 서열 안에 포함하고 있는데 생물학적 서열 데이터에서 보존된 영역이나 패턴들은 계통발생학적 근거로 활용 될 수도 있으며 기능과 밀접한 관계를 가지기도 한다. 따라서 서열들로부터 빈번하게 발생하는 패턴을 발견하고자 하는 알고리즘 개발이 요구되고 있다. 초창기 Apriori 알고리즘을 변형하여 빈발 패턴을 발견하고자 하는 노력들로부터 근래에는 PrefixSpan 트리를 이용하여 효과적으로 성능을 개선하고 있지만 아직까지는 여러 번의 데이터베이스 접근이 요구되고 있어 성능저하가 발생한다. 이에 본 논문에서는 접미사 트리를 변형하여 데이터베이스 접근을 획기적으로 줄이고 많은 서열들로부터 빈번하게 발생하는 연속적인 서열을 효과적으로 발견하는 방법을 제안한다.

  • PDF

CPFP-tree를 적용한 연관분류 기반의 사용자 맞춤형 관광명소 추천 시스템 (Associative Classification based Customized Tourist Attraction Recommendation System applying CPFP-tree)

  • 김형수;박수호;이동규;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.134-136
    • /
    • 2012
  • u-City 환경에서 사용자 맞춤형 국토정보를 제공하기 위해 대용량의 데이터를 효과적으로 분석할 수 있는 데이터마이닝 기법이 적용되고 있다. 따라서 이 논문에서는 데이터마이닝 기법 중 연관분류기법을 적용하여 사용자 맞춤형 관광명소 추천 시스템을 개발하였다. 특히, CPFP-tree를 이용하여 빈발항목집합 탐사에 대한 시간을 단축하였으며, 연관분류를 통해 보다 높은 정확도로 결과를 예측 및 분류할 수 있게 하였다. 제시한 시스템은 공간정보에 대해 사용자 맞춤 서비스를 제공할 수 있음을 보였으며, 다양한 시나리오 적용을 통해 맞춤형 국토정보화 기술의 기반이 될 수 있다.