• 제목/요약/키워드: C4.5 Decision Tree

검색결과 84건 처리시간 0.023초

국방 C5ISR 분야 품질문제의 빅데이터 분석 및 예측 모델에 대한 연구 (A Study on the Big Data Analysis and Predictive Models for Quality Issues in Defense C5ISR)

  • 허형조;고수진;백승현
    • 품질경영학회지
    • /
    • 제51권4호
    • /
    • pp.551-571
    • /
    • 2023
  • Purpose: The purpose of this study is to propose useful suggestions by analyzing the causal effect relationship between the failure rate of quality and the process variables in the C5ISR domain of the defense industry. Methods: The collected data through the in house Systems were analyzed using Big data analysis. Data analysis between quality data and A/S history data was conducted using the CRISP-DM(Cross-Industry Standard Process for Data Mining) analysis process. Results: The results of this study are as follows: After evaluating the performance of candidate models for the influence of inspection data and A/S history data, logistic regression was selected as the final model because it performed relatively well compared to the decision tree with an accuracy of 82%/67% and an AUC of 0.66/0.57. Based on this model, we estimated the coefficients using 'R', a data analysis tool, and found that a specific variable(continuous maximum discharge current time) had a statistically significant effect on the A/S quality failure rate and it was analysed that 82% of the failure rate could be predicted. Conclusion: As the first case of applying big data analysis to quality issues in the defense industry, this study confirms that it is possible to improve the market failure rates of defense products by focusing on the measured values of the main causes of failures derived through the big data analysis process, and identifies improvements, such as the number of data samples and data collection limitations, to be addressed in subsequent studies for a more reliable analysis model.

Data Mining for Knowledge Management in a Health Insurance Domain

  • Chae, Young-Moon;Ho, Seung-Hee;Cho, Kyoung-Won;Lee, Dong-Ha;Ji, Sun-Ha
    • 지능정보연구
    • /
    • 제6권1호
    • /
    • pp.73-82
    • /
    • 2000
  • This study examined the characteristicso f the knowledge discovery and data mining algorithms to demonstrate how they can be used to predict health outcomes and provide policy information for hypertension management using the Korea Medical Insurance Corporation database. Specifically this study validated the predictive power of data mining algorithms by comparing the performance of logistic regression and two decision tree algorithms CHAID (Chi-squared Automatic Interaction Detection) and C5.0 (a variant of C4.5) since logistic regression has assumed a major position in the healthcare field as a method for predicting or classifying health outcomes based on the specific characteristics of each individual case. This comparison was performed using the test set of 4,588 beneficiaries and the training set of 13,689 beneficiaries that were used to develop the models. On the contrary to the previous study CHAID algorithm performed better than logistic regression in predicting hypertension but C5.0 had the lowest predictive power. In addition CHAID algorithm and association rule also provided the segment characteristics for the risk factors that may be used in developing hypertension management programs. This showed that data mining approach can be a useful analytic tool for predicting and classifying health outcomes data.

  • PDF

앙상블 학습을 이용한 DRAM 모듈 출하 품질보증 검사 불량 예측 (Fail Prediction of DRAM Module Outgoing Quality Assurance Inspection using Ensemble Learning Algorithm)

  • 김민석;백준걸
    • 산업공학
    • /
    • 제25권2호
    • /
    • pp.178-186
    • /
    • 2012
  • The DRAM module is an important part of servers, workstations and personal computer. Its malfunction causes a lot of damage on customer system. Therefore, customers demand the highest quality products. The company applies DRAM module Outgoing Quality Assurance Inspection(OQA) to secures the highest quality. It is the key process to decides shipment of products through sample inspection method with customer oriented tests. High fraction of defectives entering to OQA causes inevitable high quality cost. This article proposes the application of ensemble learning to classify the lot status to minimize the ratio of wrong decision in OQA, observing a potential in reducing the wrong decision.

데이터마이닝 기법을 이용한 전공이탈자 분류를 위한 성능평가 (Evaluation on Performance for Classification of Students Leaving Their Majors Using Data Mining Technique)

  • 임영문;유창현
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2006년도 추계공동학술대회
    • /
    • pp.293-297
    • /
    • 2006
  • Recently most universities are suffering from students leaving their majors. In order to make a countermeasure for reducing major separation rate, many universities are trying to find a proper solution. As a similar endeavor, this paper uses decision tree algorithm which is one of the data mining techniques which conduct grouping or prediction into several sub-groups from interested groups. This technique can analyze a feature of type on students leaving their majors. The dataset consists of 5,115 features through data selection from total data of 13,346 collected from a university in Kangwon-Do during seven years(2000.3.1 $\sim$ 2006.6.30). The main objective of this study is to evaluate performance of algorithms including CHAID, CART and C4.5 for classification of students leaving their majors with ROC Chart, Lift Chart and Gains Chart. Also, this study provides values about accuracy, sensitivity, specificity using classification table. According to the analysis result, CART showed the best performance for classification of students leaving their majors.

  • PDF

전자상거래 배송업무의 예외처리용 프로세스 저장소의 효과적 관리를 위한 검색트리 생성 (Search Tree Generation for Efficient Management of Business Process Repository in e-commerce Delivery Exception Handling)

  • 최덕원;신진규
    • 지능정보연구
    • /
    • 제14권4호
    • /
    • pp.147-160
    • /
    • 2008
  • 업무프로세스 관리시스템(BPMS:business process management system)을 이용하면 새로운 프로세스를 정의하거나 기존의 프로세스를 갱신하는 일이 매우 용이하다. 대체로 표준화되고 일상적인 업무를 대상으로 프로세스를 관리하는 것은 이러한 소프트웨어를 사용하여 효율성을 높일 수 있겠으나, 비일상적인 예외상황에 대한 처리를 위해서는 별도의 전문가 참여나 특수한 의사결정 과정을 거쳐야 하는 경우가 많다. 본 논문은 다수의 예외처리용 업무 프로세스가 저장소에 축적된 상황을 전제로 예외처리 프로세스 선정의 자동화 방안을 제시한다. 예외처리에 가장 적합한 프로세스를 검색하는 것은 예외상황에 관한 충분한 이해가 필요하기 때문에 상황의 인지(context awareness)는 매우 중요한 과제이다. 예외상황의 이해를 원활히 하고, 예외처리 프로세스의 효율적인 선정을 위해 본 연구에서는 '상황변수'와 '의사결정변수' 자료구조를 도입하였다. 전자상거래의 배송과정의 예외사례를 사용하여 제시한 변수구조가 어떻게 검색트리 생성에 활용되는지를 예시하였다. C5.0 알고리즘은 최적검색트리를 생성해주며, 그것은 또한 문제의 상황에 최적인 예외처리 프로세스의 선정을 위한 검색경로를 설정한 것임을 보여준다.

  • PDF

데이터마이닝을 위한 혼합 데이터베이스에서의 속성선택

  • 차운옥;허문열
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.103-108
    • /
    • 2003
  • 데이터마이닝을 위한 대용량 데이터베이스를 축소시키는 방법 중에 속성선택 방법이 많이 사용되고 있다. 본 논문에서는 세 가지 속성선택 방법을 사용하여 조건속성 수를 60%이상 축소시켜 결정나무와 로지스틱 회귀모형에 적용시켜보고 이들의 효율을 비교해 본다. 세 가지 속성선택 방법은 MDI, 정보획득, ReliefF 방법이다. 결정나무 방법은 QUEST, CART, C4.5를 사용하였다. 속성선택 방법들의 분류 정확성은 UCI 데이터베이스에 주어진 Credit 승인 데이터베이스와 German Credit 데이터베이스를 사용하여 10층-교차확인 방법으로 평가하였다.

  • PDF

Selecting variables for evidence-diagnosis of paralysis disease using CHAID algorithm

  • Shin, Yan-Kyu
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2001년도 추계학술대회
    • /
    • pp.76-78
    • /
    • 2001
  • Variable selection in oriental medical research is considered. Decision tree analysis algorithms such as CHAID, CART, C4.5 and QUEST have been successfully applied to a medical research. Paralysis disease is a highly dangerous and murderous disease which accompanied with a great deal of severe physical handicap. In this paper, we explore the use of CHAID algorithm for selecting variables for evidence-diagnosis of paralysis, disease. Empirical results comparing our proposed method to the method using Wilks $\lambda$ given.

  • PDF

의사결정나무에서 순서형 분리변수 선택에 관한 연구 (Ordinal Variable Selection in Decision Trees)

  • 김현중
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.149-161
    • /
    • 2006
  • CART로 대표되는 의사결정나무의 알고리즘에서 가장 중요한 요소는 분리변수의 선택방법이다. 대부분의 알고리즘은 변수의 형태가 연속형인지, 혹은 명목형(nominal)인지에 따라 별개의 변수선택방법을 적용한다. 하지만 변수의 형태가 순서형(ordinal)인 경우에는 그 변수를 연속형으로 취급하여 연속형 변수선택방법을 적용하는 것이 대부분이다. 이것은 CART와 같은 Greedy탐색을 이용하는 방법에는 문제점이 발생하지 않는다. 하지만 Greedy탐색의 약점을 보완하기 위해 통계이론을 이용하여 개발된 최근의 방법들에는 최선의 대처방법이 아니다. 따라서 본 연구에서는 의사결정 나무에서 분리변수를 선택하는데 있어서 비모수적 접근 방법인 Clamor-von Mises 검정을 이용한 방법을 순서형 변수에 사용하는 것을 제안하고, CART, C4.5, QUEST, CRUISE등 기존 알고리즘과 본 연구에서 제안하는 방법의 순서형 변수 선택력을 비교하였다. 모의실험의 결과, Clamor-von Mises 검정을 이용한 변수선택방법은 순서형 변수의 분류력을 기존 방법들에 비해 더 정확히 예측하는 좋은 성과를 보여주었다.

경영분석지표와 의사결정나무기법을 이용한 유상증자 예측모형 개발 (Development of Predictive Models for Rights Issues Using Financial Analysis Indices and Decision Tree Technique)

  • 김명균;조윤호
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.59-77
    • /
    • 2012
  • 기업의 성장성, 수익성, 안정성, 활동성, 생산성 등에 대한 다양한 분석이 은행, 신용평가기관, 투자자 등 많은 이해관계자에 의해 실시되고 있고, 이에 대한 다양한 경영분석 지표들 또한 정기적으로 발표되고 있다. 본 연구에서는 이러한 경영분석 지표를 이용하여 어떤 기업이 가까운 미래에 유상증자를 실시하는지를 데이터마이닝을 통해 예측하고자 한다. 본 연구를 통해 어떠한 지표가 유상증자 여부를 예측하는데 도움이 되는가를 살펴 볼 것이며, 그 지표들을 이용하여 예측할 경우 그 예측의 정확도가 어느 정도인지를 분석하고자 한다. 특히 1997년 IMF 금융위기 전후로 유상증자를 결정하는 변수들이 변화하는지, 그리고 예측의 정확성에 분명한 차이가 존재하는지 분석한다. 또한 유상증자 실시 시기를 경영분석 지표 발표 후 1년 내, 1~2년 내, 2~3년 내로 나누어 예측 시기에 따라 예측의 정확성과 결정 변수들의 차이가 존재하는지도 분석한다. 658개의 유가증권상장법인의 경영분석 데이터를 이용하여 실증 분석한 결과, IMF 이후의 유상증자 예측모형이 IMF 이전의 예측모형에 비해 예측 정확도가 높았고, 학습용 데이터의 예측 정확도와 검증용 데이터의 예측 정확도 차이도 IMF 이후가 낮게 나타났다. 이러한 결과는 IMF 이후 재무자료의 정확도가 높아졌고, 기업에게 유상증자의 목적이 더욱 명확해졌다고 해석될 수 있다. 또한 예측기간이 단기인 경우 경영분석 지표 중 안전성에 관련된 지표들의 중요성이 부각되었고, 장기인 경우에는 수익성과 안전성뿐만 아니라 활동성과 생산성 관련지표도 유상증자를 예측하는 데 중요한 것으로 파악되었다. 그리고 모든 예측모형에서 산업코드가 유상증자를 예측하는 중요변수로 포함되었는데 이는 산업별로 서로 다른 유상증자 유형이 존재한다는 점을 시사한다. 본 연구는 투자자나 재무담당자가 유상증자 여부를 장단기 시점에서 예측하고자 할 때 어떠한 경영분석지표를 고려하여 분석하는 것이 바람직한지에 대한 지침을 제공하는데 그 의의가 있다.

Predicting Stock Liquidity by Using Ensemble Data Mining Methods

  • Bae, Eun Chan;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권6호
    • /
    • pp.9-19
    • /
    • 2016
  • In finance literature, stock liquidity showing how stocks can be cashed out in the market has received rich attentions from both academicians and practitioners. The reasons are plenty. First, it is known that stock liquidity affects significantly asset pricing. Second, macroeconomic announcements influence liquidity in the stock market. Therefore, stock liquidity itself affects investors' decision and managers' decision as well. Though there exist a great deal of literature about stock liquidity in finance literature, it is quite clear that there are no studies attempting to investigate the stock liquidity issue as one of decision making problems. In finance literature, most of stock liquidity studies had dealt with limited views such as how much it influences stock price, which variables are associated with describing the stock liquidity significantly, etc. However, this paper posits that stock liquidity issue may become a serious decision-making problem, and then be handled by using data mining techniques to estimate its future extent with statistical validity. In this sense, we collected financial data set from a number of manufacturing companies listed in KRX (Korea Exchange) during the period of 2010 to 2013. The reason why we selected dataset from 2010 was to avoid the after-shocks of financial crisis that occurred in 2008. We used Fn-GuidPro system to gather total 5,700 financial data set. Stock liquidity measure was computed by the procedures proposed by Amihud (2002) which is known to show best metrics for showing relationship with daily return. We applied five data mining techniques (or classifiers) such as Bayesian network, support vector machine (SVM), decision tree, neural network, and ensemble method. Bayesian networks include GBN (General Bayesian Network), NBN (Naive BN), TAN (Tree Augmented NBN). Decision tree uses CART and C4.5. Regression result was used as a benchmarking performance. Ensemble method uses two types-integration of two classifiers, and three classifiers. Ensemble method is based on voting for the sake of integrating classifiers. Among the single classifiers, CART showed best performance with 48.2%, compared with 37.18% by regression. Among the ensemble methods, the result from integrating TAN, CART, and SVM was best with 49.25%. Through the additional analysis in individual industries, those relatively stabilized industries like electronic appliances, wholesale & retailing, woods, leather-bags-shoes showed better performance over 50%.