• 제목/요약/키워드: Steps of Data Mining Process

검색결과 22건 처리시간 0.021초

올바른 연관성 규칙 생성을 위한 의사결정과정의 제안 (Decision process for right association rule generation)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권2호
    • /
    • pp.263-270
    • /
    • 2010
  • 데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 체계적이고도 자동적으로 찾아내는 기법이다. 데이터마이닝의 중요한 목표 중의 하나는 여러 변수들 간의 관계를 발견하고 결정하는 것이다. 연관성 규칙은 항목 집합으로 표현된 트랜잭션에서 각 항목간의 연관성을 반영하는 규칙으로서, 항목 집합간의 관계를 지지도, 신뢰도, 순수 신뢰도 등과 같은 흥미도 측도에 의해 명확히 수치화함으로써 두 개 이상의 항목집합간의 관련성을 표시해주기 때문에 현업에서 많이 활용되고 있다. 본 논문에서는 기존에 많이 활용되고 있는 흥미도 측도인 신뢰도와 순수 신뢰도의 문제점을 보완하여 연관성 규칙을 올바르게 생성하기 위한 새로운 의사결정과정을 제안하고자 한다. 본 논문에서 제안하는 의사결정과정은 특히 스트리밍 데이터베이스에서의 연관성 규칙을 탐색하는 데 효율적이다.

Artificial Intelligence and Pattern Recognition Using Data Mining Algorithms

  • Al-Shamiri, Abdulkawi Yahya Radman
    • International Journal of Computer Science & Network Security
    • /
    • 제21권7호
    • /
    • pp.221-232
    • /
    • 2021
  • In recent years, with the existence of huge amounts of data stored in huge databases, the need for developing accurate tools for analyzing data and extracting information and knowledge from the huge and multi-source databases have been increased. Hence, new and modern techniques have emerged that will contribute to the development of all other sciences. Knowledge discovery techniques are among these technologies, one popular technique of knowledge discovery techniques is data mining which aims to knowledge discovery from huge amounts of data. Such modern technologies of knowledge discovery will contribute to the development of all other fields. Data mining is important, interesting technique, and has many different and varied algorithms; Therefore, this paper aims to present overview of data mining, and clarify the most important of those algorithms and their uses.

데이터 마이닝 기반의 품질설계지원시스템 (Quality Design Support System based on Data Mining Approach)

  • 지원철
    • 한국경영과학회지
    • /
    • 제28권3호
    • /
    • pp.31-47
    • /
    • 2003
  • Quality design in practice highly depends on human designer's intuition and past experiences due to lack of formal knowledge about the relationship among 10 variables. This paper represents an data mining approach for developing quality design support system that integrates Case Based Reasoning (CBR) and Artificial Neural Networks (ANN) to effectively support all the steps in quality design process. CBR stores design cases in a systematic way and retrieve them quickly and accurately. ANN predicts the resulting quality attributes of design alternatives that are generated from CBR's adaptation process. When the predicted attributes fail to meet the target values, quality design simulation starts to further adapt the alternatives to the customer's new orders. To implement the quality design simulation, this paper suggests (1) the data screening method based on ξ-$\delta$ Ball to obtain the robust ANN models from the large production data bases, (2) the procedure of quality design simulation using ANN and (3) model management system that helps users find the appropriate one from the ANN model base. The integration of CBR and ANN provides quality design engineers the way that produces consistent and reliable design solutions in the remarkably reduced time.

데이터마이닝을 이용한 단기부하예측 (Short-term demand forecasting Using Data Mining Method)

  • 최상열;김형중
    • 조명전기설비학회논문지
    • /
    • 제21권10호
    • /
    • pp.126-133
    • /
    • 2007
  • 본 연구에서는 데이터 마이닝 기법을 이용하여 전력계통의 단기 부하 예측을 하는 방안을 제시한다. 기존의 단기 부하 예측은 시계열 분석 방법이 주를 이루었으며, 이러한 방법은 방대한 양의 자료를 기반으로 데이터베이스를 만들고 이를 이용하여 여러 가지 계수를 이용하여 수요를 예측함으로써 많은 시간과 노력이 소요되고 있다. 따라서 본 연구에서는 좀 더 적은 시간과 노력으로 부하예측이 가능하도록 데이터마이닝 기법을 이용하여 요일별 그리고 특수 일의 패턴을 분석하고 의사결정트리를 이용한 예측방법을 제시하고자 한다. 그리고 현재 전력거래소를 통해 거래되고 있는 계통한계가격과의 관계를 분석하여 예측 계수에 계통한계가격을 추가하여 예측방법을 제시하고자 한다.

데이터 마이닝을 이용한 시멘트 소성공정 질소산화물(NOx)배출 관리 방법에 관한 연구 (A Study on NOx Emission Control Methods in the Cement Firing Process Using Data Mining Techniques)

  • 박철홍;김용수
    • 품질경영학회지
    • /
    • 제46권3호
    • /
    • pp.739-752
    • /
    • 2018
  • Purpose: The purpose of this study was to investigate the relationship between kiln processing parameters and NOx emissions that occur in the sintering and calcination steps of the cement manufacturing process and to derive the main factors responsible for producing emissions outside emission limit criteria, as determined by category models and classification rules, using data mining techniques. The results from this study are expected to be useful as guidelines for NOx emission control standards. Methods: Data were collected from Precalciner Kiln No.3 used in one of the domestic cement plants in Korea. Thirty-four independent variables affecting NOx generation and dependent variables that exceeded or were below the NOx emiision limit (>1 and <0, respectively) were examined during kiln processing. These data were used to construct a detection model of NOx emission, in which emissions exceeded or were below the set limits. The model was validated using SPSS MODELER 18.0, artificial neural network, decision treee (C5.0), and logistic regression analysis data mining techniques. Results: The decision tree (C5.0) algorithm best represented NOx emission behavior and was used to identify 10 processing variables that resulted in NOx emissions outside limit criteria. Conclusion: The results of this study indicate that the decision tree (C5.0) can be applied for real-time monitoring and management of NOx emissions during the cement firing process to satisfy NOx emission control standards and to provide for a more eco-friendly cement product.

반응표면 데이터마이닝 기법을 이용한 원전 종사자의 강건 직무 스트레스 관리 방법에 관한 연구 (A Study on the Methods for the Robust Job Stress Management for Nuclear Power Plant Workers using Response Surface Data Mining)

  • 이용희;장통일;이용희
    • 한국안전학회지
    • /
    • 제28권1호
    • /
    • pp.158-163
    • /
    • 2013
  • While job stress evaluations are reported in the recent surveys upon the nuclear power plants(NPPs), any significant advance in the types of questionnaires is not currently found. There are limitations to their usefulness as analytic tools for the management of safety resources in NPPs. Data mining(DM) has emerged as one of the key features for data computing and analysis to conduct a survey analysis. There are still limitations to its capability such as dimensionality associated with many survey questions and quality of information. Even though some survey methods may have significant advantages, often these methods do not provide enough evidence of causal relationships and the statistical inferences among a large number of input factors and responses. In order to address these limitations on the data computing and analysis capabilities, we propose an advanced procedure of survey analysis incorporating the DM method into a statistical analysis. The DM method can reduce dimensionality of risk factors, but DM method may not discuss the robustness of solutions, either by considering data preprocesses for outliers and missing values, or by considering uncontrollable noise factors. We propose three steps to address these limitations. The first step shows data mining with response surface method(RSM), to deal with specific situations by creating a new method called response surface data mining(RSDM). The second step follows the RSDM with detailed statistical relationships between the risk factors and the response of interest, and shows the demonstration the proposed RSDM can effectively find significant physical, psycho-social, and environmental risk factors by reducing the dimensionality with the process providing detailed statistical inferences. The final step suggest a robust stress management system which effectively manage job stress of the workers in NPPs as a part of a safety resource management using the surrogate variable concept.

지열 히트펌프 시스템의 데이터 마이닝 기반 성능 예측 기술 (Data Mining-Based Performance Prediction Technology of Geothermal Heat Pump System)

  • 황민혜;박명규;전인기;손병후
    • 대한기계학회논문집 C: 기술과 교육
    • /
    • 제4권1호
    • /
    • pp.27-34
    • /
    • 2016
  • 지열 시스템을 대상으로 데이터 마이닝 기반 성능 예측 모델을 구축하였다. 지열 시스템의 실시간 성능 분석과 예측에 필요한 데이터의 기본 조건을 검토한 후, 데이터베이스의 구조를 설계하였다. 먼저 시스템 성능계수(COP)와 전력 소비량을 분석 대상으로 설정한 후, 이들 물리량의 추출 주기(1분 5분 10분 30분 60분 간격)가 예측 결과에 미치는 영향을 분석하였다. 이어서 범주형과 수치형 의사결정나무 모델을 적용하여 시스템의 성능을 예측하였다. 범주형 의사결정나무 모델을 적용했을 때, 10분 주기의 예측 결과의 정확도는 97.7%로 가장 높았다. 또한 수치형 의사결정나무 분석 결과를 통해 COP가 변하는 순간의 임계값을 찾을 수 있었다. 본 논문에서 제안한 방법은 지열 시스템의 실시간 성능 분석과 운전 상태 등에 적용할 수 있을 것으로 판단된다.

조선 산업에서 프로세스 마이닝을 이용한 블록 조립 프로세스의 계획 및 실적 비교 분석 (Comparison between Planned and Actual Data of Block Assembly Process using Process Mining in Shipyards)

  • 이동하;박재훈;배혜림
    • 한국전자거래학회지
    • /
    • 제18권4호
    • /
    • pp.145-167
    • /
    • 2013
  • 본 논문에서는 조선 산업에서 블록 조립 작업에 대한 계획 프로세스와 실적 프로세스를 비교하는 방법을 제안한다. 제안한 방법은 계획과 실적 데이터 기반으로 프로세스 마이닝 기법을 이용하여 프로세스 모델을 도출하고 비교 분석을 수행하는데, 분석 절차는 1) 데이터 전처리, 2) 분석 수준의 정의, 3) 조립 블록 군집화, 4) 군집별 프로세스 모델 도출, 5) 계획과 실적 프로세스 모델 비교, 다섯 단계로 구성된다. 단계 5에서는 프로세스 모델, 작업, 프로세스 인스턴스, 모델 적합도와 같은 다양한 관점에서 계획과 실적의 프로세스를 비교할 것을 제안하고, 각 관점별 비교 인자들을 정의한다. 특히, 적합도 관점에서는 교차 적합도를 정의하여, 도출된 프로세스 모델에 대해 자신의 데이터에 대한 적합도뿐만 아니라, 상대 데이터(계획 모델의 경우 실적 데이터, 실적 모델의 경우 계획 데이터)에 대한 적합도를 계산하고 비교 분석할 것을 제안한다. 제안한 방법의 효용성은 세계 최고 수준의 국내 조선 업체의 블록 조립 계획 시스템과 블록 조립 모니터링 시스템의 실제 데이터를 이용하여 사례 연구를 통해 설명하고 검증하였다.

TIME SERIES PREDICTION USING INCREMENTAL REGRESSION

  • Kim, Sung-Hyun;Lee, Yong-Mi;Jin, Long;Chai, Duck-Jin;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume II
    • /
    • pp.635-638
    • /
    • 2006
  • Regression of conventional prediction techniques in data mining uses the model which is generated from the training step. This model is applied to new input data without any change. If this model is applied directly to time series, the rate of prediction accuracy will be decreased. This paper proposes an incremental regression for time series prediction like typhoon track prediction. This technique considers the characteristic of time series which may be changed over time. It is composed of two steps. The first step executes a fractional process for applying input data to the regression model. The second step updates the model by using its information as new data. Additionally, the model is maintained by only recent data in a queue. This approach has the following two advantages. It maintains the minimum information of the model by using a matrix, so space complexity is reduced. Moreover, it prevents the increment of error rate by updating the model over time. Accuracy rate of the proposed method is measured by RME(Relative Mean Error) and RMSE(Root Mean Square Error). The results of typhoon track prediction experiment are performed by the proposed technique IMLR(Incremental Multiple Linear Regression) is more efficient than those of MLR(Multiple Linear Regression) and SVR(Support Vector Regression).

  • PDF

소비자정보시스템 구축을 위한 기반 연구 (Baseline Study to Develop a Consumer Information System)

  • 남수정;김기옥
    • 가정과삶의질연구
    • /
    • 제23권1호
    • /
    • pp.125-137
    • /
    • 2005
  • Information technology is an important driving force that has changed consumer information environments. In order to adjust in the new environments, consumers need an innovative information system. The purpose of this study was to develop a Consumer Information System (CIS). CIS is a device that supports consumer's decision-making process and elevates consumer information competence. The CIS was constructed by the following steps: (1) organization of developers, (2) systematization of consumer information, (3) data loading, (4) integration of consumer database: data warehouse, (5) data distribution, (6) composition of data mart, (7) use of data access tools: data-mining, OLAP, statistical analysis, Q+R, (8) data visualization: web server.