• 제목/요약/키워드: Real-Time Data Mining

검색결과 242건 처리시간 0.025초

랜드마크 윈도우 기반의 빈발 패턴 마이닝 기법의 분석 및 성능평가 (Analysis and Evaluation of Frequent Pattern Mining Technique based on Landmark Window)

  • 편광범;윤은일
    • 인터넷정보학회논문지
    • /
    • 제15권3호
    • /
    • pp.101-107
    • /
    • 2014
  • 본 논문에서는 랜드마크 윈도우 기반의 빈발 패턴 마이닝 기법을 분석하고 성능을 평가한다. 본 논문에서는 Lossy counting 알고리즘과 hMiner 알고리즘에 대한 분석을 진행한다. 최신의 랜드마크 알고리즘인 hMiner는 트랜잭션이 발생할 때 마다 빈발 패턴을 마이닝 하는 방법이다. 그래서 hMiner와 같은 랜드마크 기반의 빈발 패턴 마이닝을 온라인 마이닝이라고 한다. 본 논문에서는 랜드마크 윈도우 마이닝의 초기 알고리즘인 Lossy counting와 최신 알고리즘인 hMiner의 성능을 평가하고 분석한다. 우리는 성능평가의 척도로 마이닝 시간과 트랜잭션 당 평균 처리 시간을 평가한다. 그리고 우리는 저장 구조의 효율성을 평가하기 위하여 최대 메모리 사용량을 평가한다. 마지막으로 우리는 알고리즘이 안정적으로 마이닝이 가능한지 평가하기 위해 데이터베이스의 아이템 수를 변화시키면서 평가하는 확장성 평가를 수행한다. 두 알고리즘의 평가 결과로, 랜드마크 윈도우 기반의 빈발 패턴 마이닝은 실시간 시스템에 적합한 마이닝 방식을 가지고 있지만 메모리를 많이 사용했다.

침입탐지시스템의 경보데이터 분석을 위한 데이터 마이닝 프레임워크 (An Alert Data Mining Framework for Intrusion Detection System)

  • 신문선
    • 한국산학기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.459-466
    • /
    • 2011
  • 이 논문에서는 침입 탐지시스템의 체계적인 경보데이터관리 및 경보데이터 상관관계 분석을 위하여 데이터 마이닝 기법을 적용한 경보 데이터 마이닝 프레임워크를 제안한다. 적용된 마이닝 기법은 속성기반 연관규칙, 속성기반 빈발에피소드, 오경보 분류, 그리고 순서기반 클러스터링이다. 이들 구성요소들은 각각 대량의 경보 데이터들로부터 알려지지 않은 패턴을 탐사하여 공격시나리오를 유추하거나, 공격 순서를 예측하는 것이 가능하며, 데이터의 그룹화를 통해 고수준의 의미를 추출할 수 있게 해준다. 실험 및 평가를 위하여 제안된 경보데이터 마이닝 프레임워크의 프로토타입을 구축하였으며 프레임워크의 기능을 검증하였다. 이 논문에서 제안한 경보 데이터 마이닝 프레임워크는 기존의 경보데이터 상관관계분석에서는 해결하지 못했던 통합적인 경보 상관관계 분석 기능을 수행할 뿐만 아니라 대량의 경보데이터에 대한 필터링을 수행하는 장점을 가진다. 또한 추출된 규칙 및 공격시나리오는 침입탐지시스템의 실시간 대응에 활용될 수 있다.

Stream-based Biomedical Classification Algorithms for Analyzing Biosignals

  • Fong, Simon;Hang, Yang;Mohammed, Sabah;Fiaidhi, Jinan
    • Journal of Information Processing Systems
    • /
    • 제7권4호
    • /
    • pp.717-732
    • /
    • 2011
  • Classification in biomedical applications is an important task that predicts or classifies an outcome based on a given set of input variables such as diagnostic tests or the symptoms of a patient. Traditionally the classification algorithms would have to digest a stationary set of historical data in order to train up a decision-tree model and the learned model could then be used for testing new samples. However, a new breed of classification called stream-based classification can handle continuous data streams, which are ever evolving, unbound, and unstructured, for instance--biosignal live feeds. These emerging algorithms can potentially be used for real-time classification over biosignal data streams like EEG and ECG, etc. This paper presents a pioneer effort that studies the feasibility of classification algorithms for analyzing biosignals in the forms of infinite data streams. First, a performance comparison is made between traditional and stream-based classification. The results show that accuracy declines intermittently for traditional classification due to the requirement of model re-learning as new data arrives. Second, we show by a simulation that biosignal data streams can be processed with a satisfactory level of performance in terms of accuracy, memory requirement, and speed, by using a collection of stream-mining algorithms called Optimized Very Fast Decision Trees. The algorithms can effectively serve as a corner-stone technology for real-time classification in future biomedical applications.

GIS-AMR 시스템에서 시공간 데이터마이닝 기법을 이용한 전력 소비 패턴의 분석 및 예측 (Analysis and Prediction of Power Consumption Pattern Using Spatiotemporal Data Mining Techniques in GIS-AMR System)

  • 박진형;이헌규;신진호;류근호
    • 정보처리학회논문지D
    • /
    • 제16D권3호
    • /
    • pp.307-316
    • /
    • 2009
  • 이 논문에서는 자동 원격 검침(AMR) 시스템에서 수집되는 전력 사용량 데이터의 분석 결과를 실세계에 적용하기 위하여 시간과 공간의 변화에 따른 전력 소비 패턴의 주기성 탐사를 위한 시공간 데이터마이닝 기법을 제안하였다. 첫째, 고객의 전력 사용 목적에 따른 군집 분석을 위하여 분할 군집화 기법을 적용하였다. 둘째, 3차원 큐브 마이닝 기법을 적용하여 고객의 전력 소비 데이터가 갖는 시간 속성과 공간 속성에 대한 패턴을 탐색하였다. 셋째, 다양한 시간 도메인에서의 주기 패턴 발견을 위한 캘린더 패턴 마이닝 기법을 이용하여 탐사된 패턴들이 갖고 있는 시간 속성의 의미와 관계를 분석 및 예측하였다. 제안된 시공간 데이터마이닝 기법을 평가하기 위해 한국 전력 연구원에서 구축된 GIS-AMR 시스템에 의해 제공되는 고압 전력 소비 고객 3,256명의 2007년 1월부터 4월까지 총 266,426건의 데이터로부터 시간의 주기성 및 공간적 특성을 포함한 전력 소비 패턴을 분석하였다. 제안한 분석 기법을 통하여 특정 그룹에 속한 각각의 대표 프로파일이 시간과 공간상에서 갖는 주기성을 발견하였다.

Multi-Sized cumulative Summary Structure Driven Light Weight in Frequent Closed Itemset Mining to Increase High Utility

  • Siva S;Shilpa Chaudhari
    • Journal of information and communication convergence engineering
    • /
    • 제21권2호
    • /
    • pp.117-129
    • /
    • 2023
  • High-utility itemset mining (HIUM) has emerged as a key data-mining paradigm for object-of-interest identification and recommendation systems that serve as frequent itemset identification tools, product or service recommendation systems, etc. Recently, it has gained widespread attention owing to its increasing role in business intelligence, top-N recommendation, and other enterprise solutions. Despite the increasing significance and the inability to provide swift and more accurate predictions, most at-hand solutions, including frequent itemset mining, HUIM, and high average- and fast high-utility itemset mining, are limited to coping with real-time enterprise demands. Moreover, complex computations and high memory exhaustion limit their scalability as enterprise solutions. To address these limitations, this study proposes a model to extract high-utility frequent closed itemsets based on an improved cumulative summary list structure (CSLFC-HUIM) to reduce an optimal set of candidate items in the search space. Moreover, it employs the lift score as the minimum threshold, called the cumulative utility threshold, to prune the search space optimal set of itemsets in a nested-list structure that improves computational time, costs, and memory exhaustion. Simulations over different datasets revealed that the proposed CSLFC-HUIM model outperforms other existing methods, such as closed- and frequent closed-HUIM variants, in terms of execution time and memory consumption, making it suitable for different mined items and allied intelligence of business goals.

Subspace Projection-Based Clustering and Temporal ACRs Mining on MapReduce for Direct Marketing Service

  • Lee, Heon Gyu;Choi, Yong Hoon;Jung, Hoon;Shin, Yong Ho
    • ETRI Journal
    • /
    • 제37권2호
    • /
    • pp.317-327
    • /
    • 2015
  • A reliable analysis of consumer preference from a large amount of purchase data acquired in real time and an accurate customer characterization technique are essential for successful direct marketing campaigns. In this study, an optimal segmentation of post office customers in Korea is performed using a subspace projection-based clustering method to generate an accurate customer characterization from a high-dimensional census dataset. Moreover, a traditional temporal mining method is extended to an algorithm using the MapReduce framework for a consumer preference analysis. The experimental results show that it is possible to use parallel mining through a MapReduce-based algorithm and that the execution time of the algorithm is faster than that of a traditional method.

실시간 웹로그 스트림데이터를 이용한 고객행동평가시스템 구현 (Implementation of Customer Behavior Evaluation System Using Real-time Web Log Stream Data)

  • 이한주;박홍규;이원석
    • 한국정보기술학회논문지
    • /
    • 제16권12호
    • /
    • pp.1-11
    • /
    • 2018
  • 최근 온라인 쇼핑 유통시장의 규모는 지속적이고 빠르게 성장하고 있기 때문에 고객 행동평가분석을 통한 맞춤형 쇼핑서비스가 매우 중요해지고 있다. 하지만 기존의 분석 방식은 소비자의 프로파일 및 행동에 대한 분석 데이터만을 제공하고, 디스크기반 마이닝 탐사로 인해 실시간 분석의 한계가 존재했다. 그러므로 실시간 처리 및 분석이 필요한 웹 서비스와 같은 분야에 기존 방식을 적용하기에는 정확성의 문제와 시스템 성능 문제가 존재한다. 본 연구에서는 실시간으로 발생되는 웹 클릭 로그 스트림을 분석하고 특정 상품에 대한 집중도를 분석하여 상품 구매 의지가 있는 관심고객을 찾아내며, 이를 바탕으로 전체 고객 대상이 아닌 관심고객 중심의 상품 프로모션을 진행할 수 있는 시스템을 구현하고 이들의 효율성과 정확성을 검증한다.

제주 실시간 일사량의 기계학습 예측 기법 연구 (A Study on Prediction Techniques through Machine Learning of Real-time Solar Radiation in Jeju)

  • 이영미;배주현;박정근
    • 한국환경과학회지
    • /
    • 제26권4호
    • /
    • pp.521-527
    • /
    • 2017
  • Solar radiation forecasts are important for predicting the amount of ice on road and the potential solar energy. In an attempt to improve solar radiation predictability in Jeju, we conducted machine learning with various data mining techniques such as tree models, conditional inference tree, random forest, support vector machines and logistic regression. To validate machine learning models, the results from the simulation was compared with the solar radiation data observed over Jeju observation site. According to the model assesment, it can be seen that the solar radiation prediction using random forest is the most effective method. The error rate proposed by random forest data mining is 17%.

ITS를 위한 데이터 마이닝과 인공지능 기법 연구 (Data Mining and Artificial Intelligence Approach for Intelligent Transportation System)

  • ;이경현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.894-897
    • /
    • 2014
  • The speed of processes and the extremely large amount of data to be used in Intelligence Transportations System (ITS) cannot be handling by humans without considerable automation. However, it is difficult to develop software with conventional fixed algorithms (hard-wired logic on decision making level) for effectively manipulate dynamically evolving real time transportation environment. This situation can be resolved by applying methods of artificial intelligence and data mining that provide flexibility and learning capability. This paper presents a brief introduction of data mining and artificial intelligence (AI) applications in Intelligence Transportation System (ITS), analyzing the prospects of enhancing the capabilities by means of knowledge discovery and accumulating intelligence to support in decision making.

SENSOR DATA MINING TECHNIQUES AND MIDDLEWARE STRUCTURE FOR USN ENVIRONMENT

  • Jin, Cheng-Hao;Lee, Yong-Mi;Kim, Hi-Seok;Pok, Gou-Chol;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 Proceedings of ISRS 2007
    • /
    • pp.353-356
    • /
    • 2007
  • With advances in sensor technology, current researches on the pertinent techniques are actively directed toward the way which enables the USN computing service. For many applications using sensor networks, the incoming data are by nature characterized as high-speed, continuous, real-time and infinite. Due to such uniqueness of sensor data characteristics, for some instances a finite-sized buffer may not accommodate the entire incoming data, which leads to inevitable loss of data, and requirement for fast processing makes it impossible to conduct a thorough investigation of data. In addition to the potential problem of loss of data, incoming data in its raw form may exhibit high degree of complexity which evades simple query or alerting services for capturing and extracting useful information. Furthermore, as traditional mining techniques are developed to handle fixed, static historical data, they are not useful and directly applicable for analyzing the sensor data. In this paper, (1) describe how three mining techniques (sensor data outlier analysis, sensor pattern analysis, and sensor data prediction analysis) are appropriate for the USN middleware structure, with their application to the stream data in ocean environment. (2) Another proposal is a middleware structure based on USN environment adaptive to above mining techniques. This middleware structure includes sensor nodes, sensor network common interface, sensor data processor, sensor query processor, database, sensor data mining engine, user interface and so on.

  • PDF