• 제목/요약/키워드: Classification and Regression Trees

검색결과 64건 처리시간 0.021초

분류와 회귀나무분석에 관한 소고 (Note on classification and regression tree analysis)

  • 임용빈;오만숙
    • 품질경영학회지
    • /
    • 제30권1호
    • /
    • pp.152-161
    • /
    • 2002
  • The analysis of large data sets with hundreds of thousands observations and thousands of independent variables is a formidable computational task. A less parametric method, capable of identifying important independent variables and their interactions, is a tree structured approach to regression and classification. It gives a graphical and often illuminating way of looking at data in classification and regression problems. In this paper, we have reviewed and summarized tile methodology used to construct a tree, multiple trees and the sequential strategy for identifying active compounds in large chemical databases.

A review of tree-based Bayesian methods

  • Linero, Antonio R.
    • Communications for Statistical Applications and Methods
    • /
    • 제24권6호
    • /
    • pp.543-559
    • /
    • 2017
  • Tree-based regression and classification ensembles form a standard part of the data-science toolkit. Many commonly used methods take an algorithmic view, proposing greedy methods for constructing decision trees; examples include the classification and regression trees algorithm, boosted decision trees, and random forests. Recent history has seen a surge of interest in Bayesian techniques for constructing decision tree ensembles, with these methods frequently outperforming their algorithmic counterparts. The goal of this article is to survey the landscape surrounding Bayesian decision tree methods, and to discuss recent modeling and computational developments. We provide connections between Bayesian tree-based methods and existing machine learning techniques, and outline several recent theoretical developments establishing frequentist consistency and rates of convergence for the posterior distribution. The methodology we present is applicable for a wide variety of statistical tasks including regression, classification, modeling of count data, and many others. We illustrate the methodology on both simulated and real datasets.

퍼지의사결정을 이용한 RC구조물의 건전성평가 (Integrity Assessment for Reinforced Concrete Structures Using Fuzzy Decision Making)

  • 박철수;손용우;이증빈
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2002년도 봄 학술발표회 논문집
    • /
    • pp.274-283
    • /
    • 2002
  • This paper presents an efficient models for reinforeced concrete structures using CART-ANFIS(classification and regression tree-adaptive neuro fuzzy inference system). a fuzzy decision tree parttitions the input space of a data set into mutually exclusive regions, each of which is assigned a label, a value, or an action to characterize its data points. Fuzzy decision trees used for classification problems are often called fuzzy classification trees, and each terminal node contains a label that indicates the predicted class of a given feature vector. In the same vein, decision trees used for regression problems are often called fuzzy regression trees, and the terminal node labels may be constants or equations that specify the Predicted output value of a given input vector. Note that CART can select relevant inputs and do tree partitioning of the input space, while ANFIS refines the regression and makes it everywhere continuous and smooth. Thus it can be seen that CART and ANFIS are complementary and their combination constitutes a solid approach to fuzzy modeling.

  • PDF

데이터마이닝기법상에서 적합된 예측모형의 평가 -4개분류예측모형의 오분류율 및 훈련시간 비교평가 중심으로 (Evaluations of predicted models fitted for data mining - comparisons of classification accuracy and training time for 4 algorithms)

  • 이상복
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권2호
    • /
    • pp.113-124
    • /
    • 2001
  • 의사결정나무모형 가운데 하나인 CHAID, 로지스틱 회귀모형, 이들을 이용한 각각의 베깅모형 등 4가지 예측분류모형에 대한 오분류율과 훈련시간을 표본크기별로 계산하고, 이들 모형에 대한 모의실험 비교를 통하여 주어진 알고리즘들의 효율성을 평가하였다. 베깅 의사결정나무모형은 오분류율은 낮았으나 상대적으로 훈련시간이 가장 길었다.

  • PDF

CART 분석을 이용한 지하철 소음모형 개발 및 특성 연구 (The Development of Models and the Characteristics for Subway Noise Using the Classification and Regression Trees)

  • 김태호;이재명;원제무;송인석
    • 한국철도학회논문집
    • /
    • 제10권5호
    • /
    • pp.480-486
    • /
    • 2007
  • 대도시에서 지하철은 많은 도시민들에게 필요한 대중교통수단이다. 그러나 이용수요가 증가함에 따라 환경에 관련된 많은 문제가 발생하였다. 본 연구는 최근 사회적 관심사가 되어 있는 지하철 차내소음 문제를 연구대상으로 선정하였다. 지하철 5호선의 기하구조 및 운영요인을 수집하고, CART분석을 통해 소음자료 특성을 반영한 소음 영향모형을 개발하였다. 모형개발결과 지하철 기하구조 및 운영적 측면의 유형별로 소음에 미치는 영향들에 차이가 있는 것으로 나타났다.

퍼지의사결정을 이용한 교량 구조물의 건전성평가 모델 (Integrity Assessment Models for Bridge Structures Using Fuzzy Decision-Making)

  • 안영기;김성칠
    • 콘크리트학회논문집
    • /
    • 제14권6호
    • /
    • pp.1022-1031
    • /
    • 2002
  • 본 연구에서는 분규ㆍ회귀목-적응 뉴고 퍼지추론 시스템을 사용하여 교량 구조물에 대한 유용한 모델을 제시하였다. 퍼지결정목은 데이터집합의 입력영역이 서로 다른 영역으로 분류되고 하나의 부호나 값으로 나타내지며 데이터 정점에서 특정화시키기 위한 활동영역으로 할당되기도 한다. 분류문제로 사용되는 결정목은 가끔 퍼지결정목이라고 불려지는데, 각 최종점은 주어진 특정백터의 예측등급을 나타낸다. 회귀문제에 사용되는 결정목을 가끔 퍼지회귀목이라고 하는데, 이 때 최종점 영역은 주어진 입력백터의 예측 출력 값을 상수나 방정식으로 나타낼 수 있다. 분류ㆍ회귀목은 관련된 입력값을 선택하여 입력구역에서 분류 할 수 있는 반면에 적응 뉴로 퍼지추론 시스템은 회귀문제를 수정하고 이틀의 회귀문제를 보다 연속적이면서 간략하게 만들 수 있음을 주목해야 한다. 따라서 분류ㆍ회귀목과 적응 뉴로 퍼지추론 시스템은 서로 상보적인 것이며, 이들의 조합은 퍼지모델링을 위해 실직적인 근사식으로 구성된다.

공간통계학적 방법에 의한 소나무 재선충 피해의 자연적 확산유형분석 (Natural Spread Pattern of Damaged Area by Pine Wilt Disease Using Geostatistical Analysis)

  • 손민호;이우균;이승호;조현국;이준학
    • 한국산림과학회지
    • /
    • 제95권3호
    • /
    • pp.240-249
    • /
    • 2006
  • 최근, 소나무재선충(Bursaphelenchus xylophilus)에 의한 소나무림의 피해에 대한 사회적 심각성이 크게 대두되고 있다. 소나무 재선충에 의한 산림피해는 피해지 내에서는 매개충인 솔수염하늘소의 자연적인 영역확장에 의해 확산되는 반면, 전국적으로는 감염목의 인위적 반출 및 이동에 의해 확산이 진행되고 있다. 본 연구에서는 부산 대변항의 재선충 피해지내에서 항공사진 및 현지조사에 의해 피해목의 공간적인 위치를 파악하였고, 공간통계학적인 방법을 통하여 피해목의 공간분포유형, 피해발생과 지형인자간의 관계를 분석하였다. 또한, 지형공간자료를 통계학적 Tree 모형에 적용한 CART(Classification and Regression Trees)모형을 이용하여 재선충 피해의 자연적인 확산 예측 지도를 작성하였다. 본 연구를 통해 공간통계학적인 분석과 CART모형이 소나무재선충 피해의 공간분포 및 자연적 확산유형을 파악하는데 유용한 도구로 활용될 수 있음을 확인할 수 있었다.

SUPPORT Applications for Classification Trees

  • Lee, Sang-Bock;Park, Sun-Young
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권3호
    • /
    • pp.565-574
    • /
    • 2004
  • Classification tree algorithms including as CART by Brieman et al.(1984) in some aspects, recursively partition the data space with the aim of making the distribution of the class variable as pure as within each partition and consist of several steps. SUPPORT(smoothed and unsmoothed piecewise-polynomial regression trees) method of Chaudhuri et al(1994), a weighted averaging technique is used to combine piecewise polynomial fits into a smooth one. We focus on applying SUPPORT to a binary class variable. Logistic model is considered in the caculation techniques and the results are shown good classification rates compared with other methods as CART, QUEST, and CHAID.

  • PDF

마할라노비스-다구치 시스템과 로지스틱 회귀의 성능비교 : 사례연구 (Performance Comparison of Mahalanobis-Taguchi System and Logistic Regression : A Case Study)

  • 이승훈;임근
    • 대한산업공학회지
    • /
    • 제39권5호
    • /
    • pp.393-402
    • /
    • 2013
  • The Mahalanobis-Taguchi System (MTS) is a diagnostic and predictive method for multivariate data. In the MTS, the Mahalanobis space (MS) of reference group is obtained using the standardized variables of normal data. The Mahalanobis space can be used for multi-class classification. Once this MS is established, the useful set of variables is identified to assist in the model analysis or diagnosis using orthogonal arrays and signal-to-noise ratios. And other several techniques have already been used for classification, such as linear discriminant analysis and logistic regression, decision trees, neural networks, etc. The goal of this case study is to compare the ability of the Mahalanobis-Taguchi System and logistic regression using a data set.

A Comparative Study of Medical Data Classification Methods Based on Decision Tree and System Reconstruction Analysis

  • Tang, Tzung-I;Zheng, Gang;Huang, Yalou;Shu, Guangfu;Wang, Pengtao
    • Industrial Engineering and Management Systems
    • /
    • 제4권1호
    • /
    • pp.102-108
    • /
    • 2005
  • This paper studies medical data classification methods, comparing decision tree and system reconstruction analysis as applied to heart disease medical data mining. The data we study is collected from patients with coronary heart disease. It has 1,723 records of 71 attributes each. We use the system-reconstruction method to weight it. We use decision tree algorithms, such as induction of decision trees (ID3), classification and regression tree (C4.5), classification and regression tree (CART), Chi-square automatic interaction detector (CHAID), and exhausted CHAID. We use the results to compare the correction rate, leaf number, and tree depth of different decision-tree algorithms. According to the experiments, we know that weighted data can improve the correction rate of coronary heart disease data but has little effect on the tree depth and leaf number.