• Title/Summary/Keyword: 데이타 마이닝

Search Result 106, Processing Time 0.026 seconds

Explanation-based Data Mining in Data Warehouse (데이타 웨어하우스 환경에서의 설명기반 데이타 마이닝)

  • 김현수;이창호
    • Proceedings of the Korea Database Society Conference
    • /
    • 1999.06a
    • /
    • pp.115-123
    • /
    • 1999
  • 산업계 전반에 걸친 오랜 정보시스템 운용의 결과로 대용량의 데이타들이 축적되고 있다. 이러한 데이타로부터 유용한 지식을 추출하기 위해 여러 가지 데이타 마이닝 기법들이 연구되어왔다. 특히 데이타 웨어하우스의 등장은 이러한 데이타 마이닝에 있어 필요한 데이타 제공 환경을 제공해 주고 있다. 그러나 전문가의 적절한 판단과 해석을 거치지 않은 데이타 마이닝의 결과는 당연한 사실이거나, 사실과 다른 가짜이거나 또는 관련성이 없는(trivial, spurious and irrelevant) 내용만 무수히 쏟아낼 수 있다. 그러므로 데이타 마이닝의 결과가 비록 통계적 유의성을 가진다 하더라고 그 정당성과 유용성에 대한 검증과정과 방법론의 정립이 필요하다. 데이타 마이닝의 가장 어려운 점은 귀납적 오류를 없애기 위해 사람이 직접 그 결과를 해석하고 판단하며 아울러 새로운 탐색 방향을 제시해야 한다는 것이다. 본 논문의 목적은 이러한 데이타 마이닝에서 추출된 결과를 검증하고 아울러 새로운 지식 탐색 방향을 제시하는 방법론을 정립하는데 있다. 본 논문에서는 데이타 마이닝 기법 중 연관규칙탐사로 얻어진 결과를 설명가능성 여부의 판단을 통해 검증하는 기법을 제안하며, 이를 통해 얻어진 검증된 지식을 토대로 일반화를 통한 새로운 가설을 생성하여 데이타 웨어하우스로부터 연관규칙을 검증하는 일련의 아키텍쳐(architecture)를 제시하고자 한다. 먼저 데이타 마이닝 결과에 대한 설명의 필요성을 제시하고, 데이타 웨어하우스와 데이타 마이닝 기법들에 대한 간략한 설명과 연관규칙탐사에 대한 정의 및 방법을 보이고, 대상 영역에 대한 데이타 웨어하우스의 스키마를 보였다. 다음으로 도메인 지식(domain knowledge)과 연관규칙탐사를 통해 얻어진 결과를 표현하기 위한 지식표현 방법으로 Relational predicate Logic을 제안하였다. 연관규칙탐사로 얻어진 결과를 설명하기 위한 방법으로는 연관규칙탐사로 얻어진 연관규칙에 대해 Relational Predicate Logic으로 표현된 도메인 지식으로서 설명됨을 보이게 한다. 또한 이러한 설명(explanation)을 토대로 검증된 지식을 일반화하여 새로운 가설을 연역적으로 생성하고 이를 연관규칙탐사론 통해 검증한 후 새로운 지식을 얻는 반복적인 Explanation-based Data Mining Architecture를 제시하였다. 본 연구의 의의로는 데이타 마이닝을 통한 귀납적 지식생성에 있어 귀납적 오류의 발생을 고메인 지식을 통해 설명가능 함을 보임으로 검증하고 아울러 이러한 설명을 통해 연역적으로 새로운 가설지식을 생성시켜 이를 가설검증방식으로 검증함으로써 귀납적 접근과 연역적 접근의 통합 데이타 마이닝 접근을 제시하였다는데 있다.

  • PDF

Temporal Data Mining Framework (시간 데이타마이닝 프레임워크)

  • Lee, Jun-Uk;Lee, Yong-Jun;Ryu, Geun-Ho
    • The KIPS Transactions:PartD
    • /
    • v.9D no.3
    • /
    • pp.365-380
    • /
    • 2002
  • Temporal data mining, the incorporation of temporal semantics to existing data mining techniques, refers to a set of techniques for discovering implicit and useful temporal knowledge from large quantities of temporal data. Temporal knowledge, expressible in the form of rules, is knowledge with temporal semantics and relationships, such as cyclic pattern, calendric pattern, trends, etc. There are many examples of temporal data, including patient histories, purchaser histories, and web log that it can discover useful temporal knowledge from. Many studies on data mining have been pursued and some of them have involved issues of temporal data mining for discovering temporal knowledge from temporal data, such as sequential pattern, similar time sequence, cyclic and temporal association rules, etc. However, all of the works treated data in database at best as data series in chronological order and did not consider temporal semantics and temporal relationships containing data. In order to solve this problem, we propose a theoretical framework for temporal data mining. This paper surveys the work to date and explores the issues involved in temporal data mining. We then define a model for temporal data mining and suggest SQL-like mining language with ability to express the task of temporal mining and show architecture of temporal mining system.

A Data Mining Tool for Massive Trajectory Data (대규모 궤적 데이타를 위한 데이타 마이닝 툴)

  • Lee, Jae-Gil
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.3
    • /
    • pp.145-153
    • /
    • 2009
  • Trajectory data are ubiquitous in the real world. Recent progress on satellite, sensor, RFID, video, and wireless technologies has made it possible to systematically track object movements and collect huge amounts of trajectory data. Accordingly, there is an ever-increasing interest in performing data analysis over trajectory data. In this paper, we develop a data mining tool for massive trajectory data. This mining tool supports three operations, clustering, classification, and outlier detection, which are the most widely used ones. Trajectory clustering discovers common movement patterns, trajectory classification predicts the class labels of moving objects based on their trajectories, and trajectory outlier detection finds trajectories that are grossly different from or inconsistent with the remaining set of trajectories. The primary advantage of the mining tool is to take advantage of the information of partial trajectories in the process of data mining. The effectiveness of the mining tool is shown using various real trajectory data sets. We believe that we have provided practical software for trajectory data mining which can be used in many real applications.

A Study on the MultiMedia Data Mining using Multi-dimensional DataCube (다차원 데이터큐브를 이용한 멀티미디어 데이터 마이닝 연구)

  • 김진옥;황대준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.151-153
    • /
    • 2001
  • 멀티미디어 데이터의 증가와 마이닝 기술의 발전으로 인해 멀티미디어 마이닝에 대한 관심이 증가하고 있다. 본 논문에서는 내용기반의 정보검색 기술과 다차원 다중 데이터큐브 구축기술을 통해 멀터미디어데이타의 마이닝을 구현하는 시스템에 대해 제안한다. 제안 시스템은 멀티미디어 데이터에 내용기반의 정보추출 시스템을 적용하여 성분백터를 추출하고 이를 메타데이타로 한 데이스베이스를 구축한다. 그리고 데이타베이스로부터 지식을 마이닝할 수 있도록 다차원 데이터큐브를 구축하여 빠른 데이터검색과 마이닝결과을 이용자에게 보여주는 모듈로 구성된다. 다차원 데이터큐브는 다중 어레이 구조로써 다차원 데이터를 저장하고, 저장된 여러 데이터 레벨 정보에서 가장 중요한 주제를 통합 생성하여 효율적으로 처리하므로 멀티미디어 데이터를 마이닝하는데 효과적인 방법이다. 또만 다차원데이타큐브를 다중으로 생성하는 방법은 데이터 마이닝 속도를 높이는데 효율적이다.

  • PDF

Privacy Preserving Sequential Patterns Mining for Network Traffic Data (사이트의 접속 정보 유출이 없는 네트워크 트래픽 데이타에 대한 순차 패턴 마이닝)

  • Kim, Seung-Woo;Park, Sang-Hyun;Won, Jung-Im
    • Journal of KIISE:Databases
    • /
    • v.33 no.7
    • /
    • pp.741-753
    • /
    • 2006
  • As the total amount of traffic data in network has been growing at an alarming rate, many researches to mine traffic data with the purpose of getting useful information are currently being performed. However, network users' privacy can be compromised during the mining process. In this paper, we propose an efficient and practical privacy preserving sequential pattern mining method on network traffic data. In order to discover frequent sequential patterns without violating privacy, our method uses the N-repository server model and the retention replacement technique. In addition, our method accelerates the overall mining process by maintaining the meta tables so as to quickly determine whether candidate patterns have ever occurred. The various experiments with real network traffic data revealed tile efficiency of the proposed method.

A Data Mining System for Supporting of Business Intelligence in e-Business (e-Business에서의 BI지원 데이타마이닝 시스템)

  • Lee, Jun-Wook;Baek, Ok-Hyun;Ryu, Keun-Ho
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.8 no.5
    • /
    • pp.489-500
    • /
    • 2002
  • As the interest in business interest is increased, data mining is increasingly used in BI as the core technique. To support Business Intelligence in e-business environment, the integrated data mining system which included in various mining operations should be able to flexibly integrate with database system and also it must provide the easy and efficient interface to implement the marketing process in various business applications. In this paper, we have implemented the EC-DaMiner system to support business intelligence in e-business area. The implemented system can be integrated with the conventional database system with the standard interface. Business applications can use MQL mining query language to discover the rules and mining result is modeled in marketing database, and the EC-DaMiner system make the implementation of business marketing process more easy.

gCRM and Spatial Data Mining (gCRM과 공간데이타마이닝)

  • Hwang, Jung-Rae;Li, Ki-Joune
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2002.03a
    • /
    • pp.38-44
    • /
    • 2002
  • 고객관계관리(CRM)나 마케팅과 같은 경영방식에서도 대용량의 공간 데이터베이스를 사용하는 지리정보시스템(GIS)과 같은 응용분야를 접목하고 있다. gCRM은 지리정보시스템과 고객관계관리를 결합한 것으로, 이러한 실정을 단적으로 보여 주고 있는 경영방식이다. gCRM은 대용량의 데이터베이스로부터 관심 있는 분야를 찾아내고 분석하게 된다. 그러기 위해서는 데이터마이닝이라는 기술이 필요하다. 하지만, gCRM은 일반적인 데이터베이스뿐만 아니라 공간 데이터베이스 역시 많이 사용되어진다. 이러한 공간데이터베이스로부터 관심 있는 부분이나 관계 그리고 특성 등을 찾아내기 위해서는 공간데이타마이닝이 요구된다. 본 논문에서는 gCRM 솔루션들의 기능을 중심으로 다양한 공간데이타마이닝 기법과 어떠한 관계가 있는지를 살펴봄으로써 gCRM과 공간데이타마이닝이 접목할 수 있는 부분에 대하여 정리하였다.

  • PDF

Data Mining Approach to Analyzing the Effect of Cognitive Style and Physiological Phenomena in Judgemental Time Series Forecasting (시계열 예측에 대한 의사결정자의 인지 유형과 생리적 반응 특성의 상관분석을 위한 데이터 마이닝 접근방법)

  • 송병호;박흥국
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 1999.11a
    • /
    • pp.47-52
    • /
    • 1999
  • 데이타 마이닝이란 축적된 방대한 양의 실제 데이타로부터 이전에는 알지 못했던, 숨겨진 임의의 규칙성들을 비전통적인 방식으로 발견해 내는 작업을 말한다. 많은 데이타로부터 무엇인가 흥미로운 경향이나 패턴을 발굴해 내는 것이 데이타 마이닝의 목적이다. 본 연구에서는 다양한 측정값으로 표현되는 \circled1 인지 유형 데이타와, \circled2 생리적 반응 특성 데이터가 \circled3 직관적 예측의 성과에 미치는 영향을 데이타 마이닝 기술을 이용하여 분석함으로써 존재하는 규칙적인 관련성을 탐사하였다. 현재까지 분석한 바로는 첫째, 분석적인 사람이 직관적인 사람보다 예측이 더 정확한 경향이 있었다. 둘째, 실험 전과 실험중 간의 뇌파증가율이 높거나 뇌파량이 적으면 분석적인 사람일 가능성이 많았다. 셋째, 분석적인 사람은 실험 전에 뇌파량이 적을수록 더 정확해지며, 직관적인 사람은 실험전에 뇌파량이 많을수록 더 정확해지는 것으로 관측되었다.

  • PDF

Mining Quantitative Association Rules using Commercial Data Mining Tools (상용 데이타 마이닝 도구를 사용한 정량적 연관규칙 마이닝)

  • Kang, Gong-Mi;Moon, Yang-Sae;Choi, Hun-Young;Kim, Jin-Ho
    • Journal of KIISE:Databases
    • /
    • v.35 no.2
    • /
    • pp.97-111
    • /
    • 2008
  • Commercial data mining tools basically support binary attributes only in mining association rules, that is, they can mine binary association rules only. In general, however. transaction databases contain not only binary attributes but also quantitative attributes. Thus, in this paper we propose a systematic approach to mine quantitative association rules---association rules which contain quantitative attributes---using commercial mining tools. To achieve this goal, we first propose an overall working framework that mines quantitative association rules based on commercial mining tools. The proposed framework consists of two steps: 1) a pre-processing step which converts quantitative attributes into binary attributes and 2) a post-processing step which reconverts binary association rules into quantitative association rules. As the pre-processing step, we present the concept of domain partition, and based on the domain partition, we formally redefine the previous bipartition and multi-partition techniques, which are mean-based or median-based techniques for bipartition, and are equi-width or equi-depth techniques for multi-partition. These previous partition techniques, however, have the problem of not considering distribution characteristics of attribute values. To solve this problem, in this paper we propose an intuitive partition technique, named standard deviation minimization. In our standard deviation minimization, adjacent attributes are included in the same partition if the change of their standard deviations is small, but they are divided into different partitions if the change is large. We also propose the post-processing step that integrates binary association rules and reconverts them into the corresponding quantitative rules. Through extensive experiments, we argue that our framework works correctly, and we show that our standard deviation minimization is superior to other partition techniques. According to these results, we believe that our framework is practically applicable for naive users to mine quantitative association rules using commercial data mining tools.

Temporal Associative Classification based on Calendar Patterns (캘린더 패턴 기반의 시간 연관적 분류 기법)

  • Lee Heon Gyu;Noh Gi Young;Seo Sungbo;Ryu Keun Ho
    • Journal of KIISE:Databases
    • /
    • v.32 no.6
    • /
    • pp.567-584
    • /
    • 2005
  • Temporal data mining, the incorporation of temporal semantics to existing data mining techniques, refers to a set of techniques for discovering implicit and useful temporal knowledge from temporal data. Association rules and classification are applied to various applications which are the typical data mining problems. However, these approaches do not consider temporal attribute and have been pursued for discovering knowledge from static data although a large proportion of data contains temporal dimension. Also, data mining researches from temporal data treat problems for discovering knowledge from data stamped with time point and adding time constraint. Therefore, these do not consider temporal semantics and temporal relationships containing data. This paper suggests that temporal associative classification technique based on temporal class association rules. This temporal classification applies rules discovered by temporal class association rules which extends existing associative classification by containing temporal dimension for generating temporal classification rules. Therefore, this technique can discover more useful knowledge in compared with typical classification techniques.