• 제목/요약/키워드: FP-Tree

검색결과 48건 처리시간 0.05초

FP-Tree를 이용한 문서 분류 (Text Document Categorization using FP-Tree)

  • 박용기;김황수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.589-591
    • /
    • 2005
  • 기존의 문서 분류 방법들은 대게 기존의 기계 학습의 방법을 그대로 가져오거나 문서라는 데이터에 맞춰 약간의 변형을 가한 방법들이 대부분이다. 본 논문에서는 기존의 방법에서 벗어나 데이터 마이닝 분야에서 쓰이는 FP-Tree 방법을 이용하여 문서내의 문장들의 패턴을 저장하고 이를 사용하여 문서 분류를 하는 방법을 소개한다.

  • PDF

대용량 데이터베이스에서 클러스터링을 이용한 빈발 패턴 생성 (Creation of Frequent Patterns using Clustering in Large Database)

  • 김의찬;황병연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.100-102
    • /
    • 2005
  • 데이터베이스에 저장되어 있는 데이터들을 통해서 의미있는 정보를 찾는 것이 데이터 마이닝이다. 많은 데이터 마이닝 기법들 중에 연관규칙을 다루는 연구가 많이 이루어지고 있다. 연관규칙 기법도 다양하게 연구되고 있는데 그 중 빈발 패턴 트리(FP-Tree)라는 방법을 이용하여 빈발 패턴을 찾아내는 연구가 활발히 진행되고 있다. 빈발 패턴 트리는 기존에 잘 알려져있는 연관규칙 생성 기법인 Apriori 기법보다 우수한 성능을 가지는 방법이다. 그러나 빈발 패턴 트리도 몇가지 문제점을 가지고 있다. 본 논문에서는 빈발 패턴 트리의 문제점 중 하나인 과도한 FP-Tree 생성을 줄이려 한다. 조건부 패턴 베이스를 통해 얻어지는 조건부 FP-Tree의 생성을 줄여 기존의 FP-Tree보다 더 나은 성능을 얻기 위해서 적절한 클리스터링을 이용하려 한다. 클러스터링 기법은 비트 트랜잭션을 이용한 클러스터링 방법을 이용한다.

  • PDF

변형된 FP-Tree를 기반한 상품 추천 시스템 (The Goods Recommendation System based on modified FP-Tree Algorithm)

  • 김종희;정순기
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권11호
    • /
    • pp.205-213
    • /
    • 2010
  • 연관규칙 마이닝 기법 중에 하나인 FP-트리 알고리즘을 이용하는 추천시스템이 시도되고 있다. 본 논문에서는 트랜�Ъ� 데이터베이스로부터 빈발 2-항목집합만을 추출하여 연관규칙을 생성하는 변형된 FP-알고리즘을 사용하는 추천시스템을 제안하였다. 제안된 추천시스템은 전처리 모듈, 학습 모듈, 추천 모듈 및 평가 모듈로 구성되었다. 제안된 추천시스템의 실험을 통하여 상품 추천의정확률과 재현율과 F-Measure와 성공률과 추천실행시간을 수행하였으며, 순차패턴 마이닝 기법을 사용하는 추천시스템과의 성능을 비교분석 하였다. 순차패턴 마이닝기법을 사용하는 추천시스템과 학습 성능, 추천 성능을 비교한 결과 학습 성능은 5배 이상 향상되었으며, 추천 성능은 20%이상 향상 되었다. 결론적으로, 순차패턴 추천시스템과 같은 데이터를 가지고 실험하여 추천시스템 성능의 타당성에는 보다 나은 시스템임을 입증 하였다.

FP-Tree를 기반으로 한 웹 사용 패턴에 대한 순차적 연관성 탐색 기법 . (A Sequential Association Rules Searching Methods for Web-Usage Patterns Based On Frequent-Pattern Tree)

  • 김영희;강우준;김응모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.25-27
    • /
    • 2004
  • 대용량 웹 데이터베이스로부터 필요한 관련 정보를 탐색하고, 다양한 형태의 정보로부터 지식을 창출하는 일은 매우 어려운 일이다. 본 논문은 복잡하고 다양한 형태의 패턴이 존재하고, 연속된 입력을 갖는 웹 데이터베이스에서 발생되는 빈발 패턴들을 효과적으로 저장할 수 있는 FP-Tree를 기반으로 하여 변화된 정보들을 능동적으로 유지하고 새로운 정보들에 U해 FP-Tree를 재구성하여 웹 페이지에 대한 유용한 패턴 정보와 사용자의 웹 사용 패턴 분석을 용이하게 한다. 그 결과 새로이 발견된 웹 사용 패턴들을 통해 웹 페이지의 구조적 정보와 구조적 연판 정보를 효과적으로 얻을 수 있다.

  • PDF

FP-growth 마이닝을 이용한 효율적인 여행경로 수립 기법 (A Technique for Making Efficient Travel Routes using the Mining Method of Frequent Patterns-growth)

  • 유기범;조경수;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.10-13
    • /
    • 2010
  • 컴퓨터의 활용이 다양해 지면서 예전과 다르게 다양한 이유로 많은 사람들이 여행을 하고 나서 여행에 대한 정보 블로그나 웹 상에 저장하고 공개한다. 이렇게 웹 상에 많은 양의 여행 관련 데이터가 존재함에도 불구하고 데이터들이 산발적으로 존재하고 체계적으로 데이터 베이스화 되어 있지 않아서 여전히 정보를 검색하고 여행 일정을 세우는 데에 많은 시간과 노력이 필요하다. 따라서 본 논문은 FP-tree 기반의 빈발 패턴 증가 기법을 이용한 여행 계획 수립 기법을 제안한다. 제안되는 기법에서 데이터들은 FP-tree 방식으로 저장되어 검색에 필요한 시간과 노력을 극적으로 줄이고, FP-growth 마이닝 기법을 이용해 효과적인 여행 경로를 선택할 수 있게 도와준다.

민감한 빈발항목집합을 숨기기 위한 경계기반 HSFI 알고리즘 (Border-based HSFI Algorithm for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1323-1334
    • /
    • 2011
  • 민감한 정보 숨기기 알고리즘은 민감한 정보를 보호하기 위하여 트랜잭션 데이터베이스를 삭제한다. 데이터 변경은 삭제 접근 방법들 중 하나이다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 서로 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 감소시키는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 경계기반의 HSFI(Hiding Sensitive Frequent Itemsets) 알고리즘을 제안한다. 본 알고리즘에서 FP-Tree의 노드 정보는 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 줄이기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 HSFI를 적용한 결과, 손실 항목을 크게 감소시킴으로써 기존 방법들에 비해 효과적임을 증명하였고, 보다 개선된 데이터베이스의 품질을 유지할 수가 있었다.

I-Tree: A Frequent Patterns Mining Approach without Candidate Generation or Support Constraint

  • Tanbeer, Syed Khairuzzaman;Sarkar, Jehad;Jeong, Byeong-Soo;Lee, Young-Koo;Lee, Sung-Young
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.31-33
    • /
    • 2007
  • Devising an efficient one-pass frequent pattern mining algorithm has been an issue in data mining research in recent past. Pattern growth algorithms like FP-Growth which are found more efficient than candidate generation and test algorithms still require two database scans. Moreover, FP-growth approach requires rebuilding the base-tree while mining with different support counts. In this paper we propose an item-based tree, called I-Tree that not only efficiently mines frequent patterns with single database scan but also provides multiple mining scopes with multiple support thresholds. The 'build-once-mine-many' property of I-Tree allows it to construct the tree only once and perform mining operation several times with the variation of support count values.

  • PDF

L2-tree를 이용한 효율적인 빈발항목 집합 탐사 (An Efficient Algorithm for mining frequent itemsets using L2-tree)

  • 박인창;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

스트림 데이터 환경에서 배치 가중치를 이용하여 사용자 특성을 반영한 빈발항목 집합 탐사 (Discovering Frequent Itemsets Reflected User Characteristics Using Weighted Batch based on Data Stream)

  • 서복일;김재인;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제11권1호
    • /
    • pp.56-64
    • /
    • 2011
  • 스트림데이터는 무한하고 연속적인 특성을 지니고 있기 때문에 전체 데이터를 기반으로 빈발 항목 집합을 탐사하는 것은 어렵다. 이 때문에 데이터의 특성과 사용자의 특성을 반영한 특수한 데이터마이닝 방법이 필요하다. 이 논문에서는 사용자가 최근에 발생한 데이터에 더 많은 관심이 있다는 특성을 반영하여 빈발 항목을 탐사하는 FIMWB 방법을 제안한다. FIMWB는 과거 데이터의 발생 시점과 현재 시점과의 시간 간격에 따라 가변적인 가중치를 배치에 부여하여 최신 데이터에 더 많은 관심과 중요성을 반영한다. FP-Digraph는 FIMWB를 통해 탐사된 빈발 항목으로 그래프를 구성하여 빈발 항목 집합을 탐사한다. 실험 결과로 FIMWB 방법이 불필요한 항목의 생성을 감소시키고 트리기반(FP-Tree)의 빈발 항목 집합 탐사에 비해 제안하는 FP-Digraph 방법이 스트림 데이터 환경에 더 적합함을 알 수 있다.

RHadoop 플랫폼기반 CAWFP-Tree를 이용한 적응 빈발 패턴 알고리즘 (Adaptive Frequent Pattern Algorithm using CAWFP-Tree based on RHadoop Platform)

  • 박인규
    • 디지털융복합연구
    • /
    • 제15권6호
    • /
    • pp.229-236
    • /
    • 2017
  • 효율적인 빈발 패턴 알고리즘은 연관 규칙 마이닝이나 융복합을 위한 마이닝 과정에서 필수적인 요소이며 많은 활용성을 가지고 있다. 패턴 마이닝을 위한 많은 모델들이 빈발 패턴에 관한 정보를 추출하여 FP-트리를 이용하여 저장하고 있다. 본 논문에서는 항목들의 무게중심을 이용한 새로운 빈발 패턴 알고리즘(CAWFP-Growth)을 제안하여 항목들이 가지는 가중치와 빈도수를 같이 고려하여 항목간의 중심을 계산하여 기존의 FP-Growth 알고리즘의 효율성을 향상시킨다. 제안한 방법은 하향 폐쇄의 성질을 유지하기 위한 기존의 전역적 최대치 가중치 지지도를 필요로 하지 않기 때문에 자연히 빈발 패턴의 탐색시간이 줄어들고 정보의 손실을 줄일 수 있다. 실험결과를 통하여 제안된 알고리즘이 기존의 동적가중치를 이용하는 다른 방법과 비교해볼 때, 항목들의 무게중심이 빈발패턴의 정확한 정보를 유지하고 FP-트리의 처리시간을 줄여주기 때문에 제안한 방법의 중요성을 보이고 있다 또한 가상 분산모드에서 맵리듀스 프레임을 기반으로 빅데이터를 모델링하고 향후 완전분산 모드에서 제안한 알고리즘의 모델링이 필요하다.