• 제목/요약/키워드: Classification and regression tree(CART)

검색결과 92건 처리시간 0.028초

A Comparative Study of Medical Data Classification Methods Based on Decision Tree and System Reconstruction Analysis

  • Tang, Tzung-I;Zheng, Gang;Huang, Yalou;Shu, Guangfu;Wang, Pengtao
    • Industrial Engineering and Management Systems
    • /
    • 제4권1호
    • /
    • pp.102-108
    • /
    • 2005
  • This paper studies medical data classification methods, comparing decision tree and system reconstruction analysis as applied to heart disease medical data mining. The data we study is collected from patients with coronary heart disease. It has 1,723 records of 71 attributes each. We use the system-reconstruction method to weight it. We use decision tree algorithms, such as induction of decision trees (ID3), classification and regression tree (C4.5), classification and regression tree (CART), Chi-square automatic interaction detector (CHAID), and exhausted CHAID. We use the results to compare the correction rate, leaf number, and tree depth of different decision-tree algorithms. According to the experiments, we know that weighted data can improve the correction rate of coronary heart disease data but has little effect on the tree depth and leaf number.

CART 알고리즘 기반의 의사결정트리 기법을 이용한 규칙기반 전문가 시스템 구축 방법론 (The Construction Methodology of a Rule-based Expert System using CART-based Decision Tree Method)

  • 고윤석
    • 한국전자통신학회논문지
    • /
    • 제6권6호
    • /
    • pp.849-854
    • /
    • 2011
  • 시스템 이벤트들로부터 그 파급효과를 최소화하기 위해서는 실시간 조건에 기반한 규칙기반 전문가 시스템이 매우 효과적인데, 그 이벤트가 다양하고 부하조건이 매우 가변적이기 때문에 규칙 기반 전문가 시스템을 구축하기가 쉽지 않다. 따라서 본 연구에서는 CART 알고리즘 기반의 의사결정 트리 기법을 적용하여 상정사고 사례들로부터 규칙기반 전문가 시스템을 구축하는 방법론에 대해서 연구하고자 한다.

퍼지의사결정을 이용한 교량 구조물의 건전성평가 모델 (Integrity Assessment Models for Bridge Structures Using Fuzzy Decision-Making)

  • 안영기;김성칠
    • 콘크리트학회논문집
    • /
    • 제14권6호
    • /
    • pp.1022-1031
    • /
    • 2002
  • 본 연구에서는 분규ㆍ회귀목-적응 뉴고 퍼지추론 시스템을 사용하여 교량 구조물에 대한 유용한 모델을 제시하였다. 퍼지결정목은 데이터집합의 입력영역이 서로 다른 영역으로 분류되고 하나의 부호나 값으로 나타내지며 데이터 정점에서 특정화시키기 위한 활동영역으로 할당되기도 한다. 분류문제로 사용되는 결정목은 가끔 퍼지결정목이라고 불려지는데, 각 최종점은 주어진 특정백터의 예측등급을 나타낸다. 회귀문제에 사용되는 결정목을 가끔 퍼지회귀목이라고 하는데, 이 때 최종점 영역은 주어진 입력백터의 예측 출력 값을 상수나 방정식으로 나타낼 수 있다. 분류ㆍ회귀목은 관련된 입력값을 선택하여 입력구역에서 분류 할 수 있는 반면에 적응 뉴로 퍼지추론 시스템은 회귀문제를 수정하고 이틀의 회귀문제를 보다 연속적이면서 간략하게 만들 수 있음을 주목해야 한다. 따라서 분류ㆍ회귀목과 적응 뉴로 퍼지추론 시스템은 서로 상보적인 것이며, 이들의 조합은 퍼지모델링을 위해 실직적인 근사식으로 구성된다.

CART분석을 이용한 교통사고예측모형의 개발 (Developing the Traffic Accident Prediction Model using Classification And Regression Tree Analysis)

  • 이재명;김태호;이용택;원제무
    • 한국도로학회논문집
    • /
    • 제10권1호
    • /
    • pp.31-39
    • /
    • 2008
  • 본 연구는 도로기하구조 요인과 교통사고간의 관계를 규명하기 위하여 CART분석을 이용하여 전국의 4차로 국도를 대상으로 교통사고예측모형을 개발하고, 다중회귀모형, 확률회귀모형과 CART분석모형을 비교 분석하여 개발한 모형의 적합도를 검증하였다. 연구결과로는 첫째, 변수간의 복합적인 상호관계를 설명할 수 있는 CART분석을 이용하여 국도의 교통사고 예측모형을 개발하고 도로기하구조 요인에 따라 표준교통사고율을 의미하는 교통사고발생도표를 제시하였다. 둘째, CART분석모형에 근거하여 교통사고 발생률에 큰 영향을 미치는 도로기하구조 요인이 구간거리(km), 횡단보도폭(m), 횡단길어깨(m), 교통량 순으로 나타났다. 셋째, CART분석모형의 적합도 검증결과, CART분석모형이 실제교통사고율을 타 모형에 비해 전반적으로 잘 묘사하고 있었으나, 각 모형별로 교통사고율의 크기에 따라 교통사고율이 비교적 낮은 구간에서는 다중회귀모형이, 평균이상의 교통사고율을 나타내는 구간에서는 포아송 회귀모형의 예측력이 높았으며, CART분석모형은 교통사고율의 크기와 상관없이 우수한 예측력을 보였다. 넷째, 도출된 교통사고발생도표는 도로기하구조 조건에 따른 표준교통사고율을 제시해주기 때문에 도로설계 시에 안전한 기하구조 설계요소 선정기준을 제시 할 뿐만 아니라, 교통사고 잦은 지점개선사업추진 시 사업의 우선순위를 판단할 수 있는 기준을 제시하는 등 정책적 활용도가 매우 높을 것으로 판단된다.

  • PDF

결로시간 예측을 위한 경험모형의 최적 기상변수 (Optimal Weather Variables for Estimation of Leaf Wetness Duration Using an Empirical Method)

  • K. S. Kim;S. E. Taylor;M. L. Gleason;K. J. Koehler
    • 한국농림기상학회지
    • /
    • 제4권1호
    • /
    • pp.23-28
    • /
    • 2002
  • CART(Classification and Regression Tree) 모형을 이용해서 결로시간 예측에 필요한 기상변수들을 평가하였다. 입력 기상 변수들은 0.3m와 1.5m에서 측정된 기온, 상대습도, 풍속의 시간별 측정값으로서 이 관측 값들은 1997년부터 1999년 5월에서 9월 사이에 미국의 Iowa, Illinois 및 Nebraska주에 위치한 15개 자동 기상 관측소에서 관측된 것이다. 0.3 m에서 측정된 기온, 상대습도, 그리고 풍속을 이용해서 얻어진 모형이 가장 높은 결로시간의 예측 적중율(85.5%)을 보였으며, 이 모형은 Gleason 등(1994)의 CART/SLD 모형의 적중률(84.7%) 보다 다소 높았다. 그러나 새로운 변수를 추가한 경우에 정확도의 향상이 다소 있었으나 CART/SLD 모형을 대체할 정도는 아니었다. 따라서, 기온, 상대습도, 풍속들의 종관 기상관측값들을 입력변수로 사용하는 CART/SLD 모형이 종관 기상관측 자료 이외의 추가적인 자료를 필요로 하는 모형으로 결로시간을 예측하는 것보다 합리적일 것으로 보인다.

Analysis of the Timing of Spoken Korean Using a Classification and Regression Tree (CART) Model

  • Chung, Hyun-Song;Huckvale, Mark
    • 음성과학
    • /
    • 제8권1호
    • /
    • pp.77-91
    • /
    • 2001
  • This paper investigates the timing of Korean spoken in a news-reading speech style in order to improve the naturalness of durations used in Korean speech synthesis. Each segment in a corpus of 671 read sentences was annotated with 69 segmental and prosodic features so that the measured duration could be correlated with the context in which it occurred. A CART model based on the features showed a correlation coefficient of 0.79 with an RMSE (root mean squared prediction error) of 23 ms between actual and predicted durations in reserved test data. These results are comparable with recent published results in Korean and similar to results found in other languages. An analysis of the classification tree shows that phrasal structure has the greatest effect on the segment duration, followed by syllable structure and the manner features of surrounding segments. The place features of surrounding segments only have small effects. The model has application in Korean speech synthesis systems.

  • PDF

A Combinatorial Optimization for Influential Factor Analysis: a Case Study of Political Preference in Korea

  • Yun, Sung Bum;Yoon, Sanghyun;Heo, Joon
    • 한국측량학회지
    • /
    • 제35권5호
    • /
    • pp.415-422
    • /
    • 2017
  • Finding influential factors from given clustering result is a typical data science problem. Genetic Algorithm based method is proposed to derive influential factors and its performance is compared with two conventional methods, Classification and Regression Tree (CART) and Chi-Squared Automatic Interaction Detection (CHAID), by using Dunn's index measure. To extract the influential factors of preference towards political parties in South Korea, the vote result of $18^{th}$ presidential election and 'Demographic', 'Health and Welfare', 'Economic' and 'Business' related data were used. Based on the analysis, reverse engineering was implemented. Implementation of reverse engineering based approach for influential factor analysis can provide new set of influential variables which can present new insight towards the data mining field.

강인한 특징 변수 선별과 신경망을 이용한 장면 전환점 검출 기법 (Robust Feature Selection and Shot Change Detection Method Using the Neural Networks)

  • 홍승범;홍교영
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.877-885
    • /
    • 2004
  • 본 논문은 여러 가지 장면 검출 방식들 중 강인한 특징 변수들의 선별과 신경망을 이용하여 향상된 장면 전환점 검출 기법을 제안한다. 기존의 장면 전환점 검출 방식에서는 인접한 프레임 간에 단일 특징과 고정된 임계값을 주로 사용하였다. 하지만, 비디오 시퀀스 내의 장면 전환점에서는 인접한 프레임 간의 내용(content)인 컬러, 모양, 배경 혹은 질감 등이 동시에 변화한다. 따라서 단일 특징보다는 상호 보완 관계를 갖는 강인한 특징을 이용하여 장면 전환점을 효율적으로 검출한다. 본 논문에서 강인한 특징 변수들을 선택하기 위해, 데이터 마이닝 기법 중 대표적인 CART(classification and regression tree)를 이용하고, 다차원 변수에 따른 임계값을 선정하기 위해 역전파 신경망(backpropagation neural net)을 이용한다. 제안한 방식과 대표적인 특징 추출인 PCA(principal component analysis)기법을 비교하여 특징 변수의 추출 성능을 평가한다. 실험 결과에 따라 제안된 방식이 PCA 기법과 비교하여 우수한 성능이 나타남을 확인한다.

  • PDF

나무구조의 분류분석에서 변수 중요도에 대한 고찰 (Comparison of Variable Importance Measures in Tree-based Classification)

  • 김나영;이은경
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.717-729
    • /
    • 2014
  • 본 연구에서는 나무구조의 분류분석에서 자료의 크기가 방대해짐에 따라 중요한 문제로 대두되고 있는 변수의 중요도에 대하여 사영추적분류나무를 중심으로 고찰하였다. 사영추적분류나무(projection pursuit classification tree)는 각 마디에서 사영추적을 이용하여 그룹을 잘 분리하는 변수들의 선형결합을 이용하는 방법으로 이때 사용되는 사영계수들은 각 마디에서의 분류에 대한 정보를 가지고 있다. 이를 종합하여 각 변수의 분류에 대한 중요도를 계산할 수 있다. 먼저 사영추적분류나무의 분류과정에서 계산되는 사영추적계수를 이용하여 분류를 위한 변수선택의 중요도를 계산하고 이들의 특성을 살펴보고 이를 같은 형태의 나무모형방법인 CART와 랜덤 포레스트의 결과와 비교 분석하여 사영추적분류나무의 특성을 살펴보고 비교, 분석하였다. 대부분의 자료에서 사영추적분류나무가 훨씬 좋은 성능을 보이고 있었으며 특히 상관계수가 높은 변수들이 포함되어 있는 경우에는 상대적으로 적은 수의 변수로도 잘 분류를 할 수 있음을 확인하였다. 랜덤 포레스트에서 제공하는 변수 중요도는 변수들 간의 상관관계가 높은 경우에는 사영추적분류나무의 변수중요도와 매우 다르게 나타나며 사영추적분류나무의 변수 중요도가 조금 더 나은 성능을 보이고 있음을 알 수 있다.

CART를 이용한 Tree Model의 성능평가 (Using CART to Evaluate Performance of Tree Model)

  • 정용규;권나연;이영호
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.9-16
    • /
    • 2013
  • 데이터 분석가에게 많은 노력이 요구되지 않으면서 사용자가 쉽게 분석결과를 이해할 수 있는 범용 분류기법으로서 가장 대표적인 것은 Breiman이 개발한 의사결정나무를 들 수 있다. 의사결정나무에서 기본이 되는 2가지 핵심내용은 독립변수의 차원 공간을 반복적으로 분할하는 것과 평가용 데이터를 사용하여 가지치기를 하는 것이다. 분류문제에서 반응변수는 범주형 변수여야 한다. 반복적 분할은 변수 의 차원 공간을 겹치지 않는 다차원 직사각형으로 나눈다. 여기서 변수는 연속형, 이진 혹은 서열의 척도이다. 본 논문에서는 새로운 사례를 분류함에 있어서 분류의 성능을 평가하기 위해 분류나무의 정확도 정밀도 재현률 등을 실험하고자 한다.

  • PDF