• 제목/요약/키워드: FP-Tree

검색결과 48건 처리시간 0.028초

Mining Frequent Itemsets with Normalized Weight in Continuous Data Streams

  • Kim, Young-Hee;Kim, Won-Young;Kim, Ung-Mo
    • Journal of Information Processing Systems
    • /
    • 제6권1호
    • /
    • pp.79-90
    • /
    • 2010
  • A data stream is a massive unbounded sequence of data elements continuously generated at a rapid rate. The continuous characteristic of streaming data necessitates the use of algorithms that require only one scan over the stream for knowledge discovery. Data mining over data streams should support the flexible trade-off between processing time and mining accuracy. In many application areas, mining frequent itemsets has been suggested to find important frequent itemsets by considering the weight of itemsets. In this paper, we present an efficient algorithm WSFI (Weighted Support Frequent Itemsets)-Mine with normalized weight over data streams. Moreover, we propose a novel tree structure, called the Weighted Support FP-Tree (WSFP-Tree), that stores compressed crucial information about frequent itemsets. Empirical results show that our algorithm outperforms comparative algorithms under the windowed streaming model.

NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출 (Text Assocation Pattern Extraction using NFP-tree Algorithm)

  • 유수경;김교정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF

FP-tree를 이용한 효율적인 수강신청 로드맵 제시 기법 (Roadmap of an application for attending the lecture by FP-tree)

  • 박영욱;이승철;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.243-246
    • /
    • 2007
  • 데이터베이스 시스템 사용이 거의 모든 분야에 걸쳐서 필수적인 요소가 되어가고 있다. 따라서 데이터베이스 내에 축적된 정보들의 양과 더불어 정보와 정보 사이의 연관성이 중요한 관심사로 대두되고 있다. 이를 충족하기 위한 구체적인 방안으로 데이터마이닝 기법이 개발되고 발전해나가고 있다. 현재 수강신청시 많은 학생들이 필수 로드맵이라는 단편적인 정보를 가지고 수업 시간표를 구성함으로써 개개인이 많은 시간을 허비하고 있다. 이에 본 논문에서는 관련성 있는 정보 추출에 용이한 FP-Growth 마이닝 기법을 이용하여 수강신청시 도움이 되는 수강신천 로드맵 기법을 제안한다.

  • PDF

엔터티 검색의 정확성을 높이기 위한 검색 키워드 마이닝 (Mining Search Keywords for Improving the Accuracy of Entity Search)

  • 이선구;온병원;정수목
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권9호
    • /
    • pp.451-464
    • /
    • 2016
  • 최근 Google Product Search와 Yahoo Pipes와 같은 엔터티 검색이 각광을 받고 있다. 특정 엔터티와 관련 있는 웹 페이지를 검색하기 위해 엔터티 검색이 사용된다. 그러나 엔터티(예를 들면, 차이나타운 영화)가 다양한 의미(예를 들면, 차이나타운 영화, 차이나타운 음식점, 인천 차이나타운 등)을 포함하고 있다면 엔터티 검색의 정확성은 크게 떨어진다. 이러한 문제를 해결하기 위해, 본 논문에서는 웹 페이지의 빈도수와 엔터티 관련성 간의 상관관계를 고려하여, Frequent Pattern (FP)-Tree에 기반을 둔 질의어의 중요도를 측정하고 베스트 질의어를 제안하는 새로운 방안을 제안한다. 본 논문의 실험 결과에 의하면, 기존 방안의 정확도가 10% 미만인데 비해, 제안 방안의 평균 정확도는 59%로, 약 5배 향상시킨다.

변형된 FP-트리 기반의 적응형 비즈니스 프로세스 마이닝 알고리즘 (An Adaptive Business Process Mining Algorithm based on Modified FP-Tree)

  • 김건우;이승훈;김재형;서혜명;손진현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.301-315
    • /
    • 2010
  • 기업 간의 경쟁이 심화되고 새로운 비즈니스 가치 창출을 위한 필요성이 증대되고 있는 상황에서, 기업들은 비즈니스 프로세스 관리 기술에 많은 관심을 기울이고 있다. 하지만 비즈니스 분석가와 시스템 개발자간의 이해 정도 및 의견 불일치 등으로 인하여 프로세스가 의도한대로 실행되지 않거나 효율이 떨어지는 프로세스 등이 설계될 수 있다. 이러한 문제점을 해결하기 위하여 비즈니스 프로세스 재설계의 근거로 사용될 수 있는 비즈니스 프로세스 마이닝이 중요한 개념으로 인식되고 있다. 하지만 기존의 프로세스 마이닝에 관한 연구에서는 완성되어 있는 프로세스 로그를 기반으로 워크플로우 기반의 프로세스 모델을 추출하는 단조로운 형태였기 때문에 다양한 형태의 비즈니스 프로세스를 표현하는데 한계가 있었으며, 새로운 프로세스 로그가 추가될 때마다 로그 정보들을 재 스캔해야함으로 프로세스 검출 및 로그정보 탐색시간이 느려지는 단점이 존재하였다. 본 논문에서는 데이터 마이닝의 연관성 분석에 사용되는 FP-트라를 비즈니스 프로세스에 적합하게 변형하여 추가되는 대량의 프로세스 로그 정보를 재 스캔과정 없이 사용자가 원하는 수준의 프로세스 모델을 검출하도록 지원하는 변형된 FP-트리 기반의 프로세스 마이닝 알고리즘을 제시하고자 한다.

DISCOVERY TEMPORAL FREQUENT PATTERNS USING TFP-TREE

  • Jin Long;Lee Yongmi;Seo Sungbo;Ryu Keun Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.454-457
    • /
    • 2005
  • Mining frequent patterns in transaction databases, time-series databases, and many other kinds of databases has been studied popularly in data mining research. Most of the previous studies adopt an Apriori-like candidate set generation-and-test approach. However, candidate set generation is still costly, especially when there exist prolific patterns and/or long patterns. And calendar based on temporal association rules proposes the discovery of association rules along with their temporal patterns in terms of calendar schemas, but this approach is also adopt an Apriori-like candidate set generation. In this paper, we propose an efficient temporal frequent pattern mining using TFP-tree (Temporal Frequent Pattern tree). This approach has three advantages: (1) this method separates many partitions by according to maximum size domain and only scans the transaction once for reducing the I/O cost. (2) This method maintains all of transactions using FP-trees. (3) We only have the FP-trees of I-star pattern and other star pattern nodes only link them step by step for efficient mining and the saving memory. Our performance study shows that the TFP-tree is efficient and scalable for mining, and is about an order of magnitude faster than the Apriori algorithm and also faster than calendar based on temporal frequent pattern mining methods.

  • PDF

개인화된 사용자 학습을 위한 연관 객체 추출 설계 및 구현 (Assocate Object Extraction Using personalized user Learning)

  • 유수경;김교정
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.636-639
    • /
    • 2004
  • 본 논문은 웹 도큐먼트를 기반으로 사용자에게 의미 있는 정보를 찾아주기 위한 연관 객체 추출 기법인 PMPL(Personalized Multi-Strategey Pattern Loaming) 시스템을 제안하고자 한다. PMPL 모듈은 인터넷의 정보를 여과하여 필터링하고, 사용자 개인화의 키워드를 중심으로 연관된 객체를 추출한다. 이때 연관된 객체 추출 시 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관 탐색 기법인 Fp-Tree와 Fp-Growth 알고리즘을 적용시켰으며, 연관규칙 탐색을 보완하기 위해 가중치 기법인 만유인력 기법을 적용시켰다. PMPL 시스템을 실행한 결과 개인화된 사용자 중심어 기초로 기존의 단일 학습 기법에 비해 더 많은 의미 있는 연관 지식을 추출한 결과가 보였다.

  • PDF

예측 FP-tree를 이용한 어종별 어장 기법 (Usage of FP-tree for forecasting technique of the fishery)

  • 정희연;조경수;김응모
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.424-427
    • /
    • 2010
  • 정보화 사회로의 진입이 본격화 되면서 사회의 전반적인 분야에 걸쳐 다양한 용도로 컴퓨터 시스템이 사용되고 있다. 그에 따라 데이터의 방대한 양적 팽창이 이루어졌고, 이러한 데이터를 유용한 정보와 지식으로 바꿔야 하는 필요성들이 생겨났다. 이에 데이터 마이닝이라는 개념이 등장했고 현재 점점 더 많은 분야에서 사용되고 있고 다양한 각도에서 활발한 연구가 진행되고 있다. 현재 어장의 예측 방법은 주관적인 경험에 대부분 의존하고 객관적인 신뢰성이 떨어진다. 이에 본 논문은 데이터 마이닝 기법을 적용하여 데이터베이스의 정보를 이용해 어종별로 가장 빈번하게 이용되어지는 어장을 선별해 주는 기법을 제안한다.

  • PDF

FP-tree를 이용한 사용자 선호도 조사 : 헬스클럽에 적용 (User Preference survey by FP-tree : Apply to fitness club)

  • 홍의찬;김원영;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.753-754
    • /
    • 2009
  • 오늘날 산업 전반에 걸쳐 데이터베이스 시스템이 사용되고 있다. 이에 따라 데이터베이스의 양은 점차 증가하고 방대한 양의 데이터에서 유용한 정보를 얻는 데이터 마이닝 기법이 중요한 기술로 발전해 나가고 있다. 최근 헬스클럽과 같은 개인의 취미와 여가를 위한 공간의 중요성이 대두되고 있는데 반해 사용자의 증가로 인한 불편이 문제가 되고 있다. 본 논문에서는 헬스클럽을 통해 사용자들의 선호도를 조사하여 불편을 줄이고 나아가 효율적인 시간 분배 방법을 제시해 보고자 한다.

FP-tree를 이용한 유사 패턴 주식종목 추출 (Mining of Stocks Having Similar Pattern using FP-Tree)

  • 심종보;김원영;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.727-728
    • /
    • 2009
  • 최근 컴퓨터와 인터넷의 발달로 과거 창구거래를 이용하던 방법에서 HTS(Home Trading System)을 이용하여 거래하게 됨으로써 개인투자자들도 쉽게 주식투자를 할 수 있게 되었다. 그러나 개인들이 방대한 양의 과거 데이터를 분석하기에는 상당한 어려움이 있다. 본 논문에서는 주식 데이터베이스로부터 과거 특정 종목들 간 연관성을 추출하여 투자자들로 하여금 주식 선별에 참고가 될 수 있는 방안에 관하여 논의한다. 기존의 논문에서 제안된 과거 패턴을 이용하여 미래의 주가변화를 예측하는 것과 달리, 종목들 간에 연관성을 통하여 하나의 테마가 형성 되었을 때 주도주의 변화로 관련주의 변화를 파악하여 투자에 유익한 정보를 제공하는데 목적이 있다.