• 제목/요약/키워드: Classification and regression tree(CART)

검색결과 92건 처리시간 0.022초

CART의 예측 성능:은행 및 보험 회사 데이터 사용 (The Prediction Performance of the CART Using Bank and Insurance Company Data)

  • 박정선
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1468-1472
    • /
    • 1996
  • 본 연구에서는 CART(Classification and Regression Tree)가 예측을 함에 있어 통계적인 기법인 discriminant analysis와 비교된다. 은행 데이터를 사용하는 경우 discriminant analysis가 더 나은 성능을 보여줬으며, 보험 회사 데이터를 사용한 경 우 CART가 더 나은 성능을 보여줬다. 이러한 모순된 결과가 데이터의 성격을 분석함 으로 해석된다. 본 연구에서는 두가지 모델 모두 사용된 매개변수들인 사전 확률, 데 이터, 타입 I/II오류 코스트, 검증 방법에 의해 성능의 차이를 보여줬다.

  • PDF

퍼지의사결정을 이용한 RC구조물의 건전성평가 (Integrity Assessment for Reinforced Concrete Structures Using Fuzzy Decision Making)

  • 박철수;손용우;이증빈
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2002년도 봄 학술발표회 논문집
    • /
    • pp.274-283
    • /
    • 2002
  • This paper presents an efficient models for reinforeced concrete structures using CART-ANFIS(classification and regression tree-adaptive neuro fuzzy inference system). a fuzzy decision tree parttitions the input space of a data set into mutually exclusive regions, each of which is assigned a label, a value, or an action to characterize its data points. Fuzzy decision trees used for classification problems are often called fuzzy classification trees, and each terminal node contains a label that indicates the predicted class of a given feature vector. In the same vein, decision trees used for regression problems are often called fuzzy regression trees, and the terminal node labels may be constants or equations that specify the Predicted output value of a given input vector. Note that CART can select relevant inputs and do tree partitioning of the input space, while ANFIS refines the regression and makes it everywhere continuous and smooth. Thus it can be seen that CART and ANFIS are complementary and their combination constitutes a solid approach to fuzzy modeling.

  • PDF

운율 경계강도 예측을 위한 OC1의 적용 및 CART와의 비교 (The Comparison of OC1 and CART for Prosodic Boundary Index Prediction)

  • 임동식;김진영;김선미
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.60-64
    • /
    • 1999
  • 본 논문은 연속음 인식과 합성을 위한 운율 경계강도 예측모델을 위해 최근에 널리 사용되고 있는 방법으로 분류·회귀트리라 불리우는 CART(Classification And Regression Tree) 와 OC1(Oblique Classifier1)을 적용한다. 운율 경계강도 수준을 4로 하고 문법적인 특징으로는 트리구조 방법으로 결정된 오른쪽 가지의 수식의 깊이(Rd)와 link grammar 방법으로 결정된 연결거리(To_Right)를 tri_gram모형과 결합하여 CART와 OC1에 적용해 각각 운율 경계강도를 예측, 비교한다. 실험을 통하여 OC1 방법이 CART 방법에 비해 더 적은 터미널 노드에 더 향상된 예측율을 보임을 확인할 수 있다.

  • PDF

CART를 활용한 결측값 대체방법 : 인구주택총조사 혼인상태 항목을 중심으로 (Missing Value Imputation Method Using CART : For Marital Status in the Population and Housing Census)

  • 김영원;이주원
    • 한국조사연구학회지:조사연구
    • /
    • 제4권2호
    • /
    • pp.1-21
    • /
    • 2003
  • 본 연구예서는 일반적인 사회조사에서 사용될 수 있는 효과적인 결측값 대체방법을 검토하기 위해 인구주택총조사 조사항목 중 혼인상태의 결측값을 대체할 수 있는 두 가지 방법을 제안하고 있다. 첫 번째 방법은 CART(Classification and Regression Tree)모형에서 얻어진 최대 예측확률을 기준으로 결측값을 대체하는 일종의 모형기반 접근법이고, 두 번째 방법은 CART 모형에서 얻어진 결과를 근거로 대체층을 구성하여 핫덱(hot-deck) 방법을 적용하는 대체방법이다. 효율성 비교를 위해 2000년 인구주택총조사를 위한 시험조사에서 얻어진 제조사 결과를 이용하여 오분류율을 검토해 본 결과 두 방법 중 CART 모형을 기반으로 핫덱 방법을 적용하는 것이 효율적이라는 결론을 얻을 수 있었다. 아울러 전국에 대해 동일한 모형을 설정한 경우와 거주지 특성에 따라 광역시$.$도의 동지역, 도의 읍$.$면지역으로 구분하여 대체방법을 적용하는 경우를 비교해 본 결과 지역 구분을 통한 효율성 향상 효과는 미흡한 것으로 파악되었다.

  • PDF

Classification and Regression Tree Analysis for Molecular Descriptor Selection and Binding Affinities Prediction of Imidazobenzodiazepines in Quantitative Structure-Activity Relationship Studies

  • Atabati, Morteza;Zarei, Kobra;Abdinasab, Esmaeil
    • Bulletin of the Korean Chemical Society
    • /
    • 제30권11호
    • /
    • pp.2717-2722
    • /
    • 2009
  • The use of the classification and regression tree (CART) methodology was studied in a quantitative structure-activity relationship (QSAR) context on a data set consisting of the binding affinities of 39 imidazobenzodiazepines for the α1 benzodiazepine receptor. The 3-D structures of these compounds were optimized using HyperChem software with semiempirical AM1 optimization method. After optimization a set of 1481 zero-to three-dimentional descriptors was calculated for each molecule in the data set. The response (dependent variable) in the tree model consisted of the binding affinities of drugs. Three descriptors (two topological and one 3D-Morse descriptors) were applied in the final tree structure to describe the binding affinities. The mean relative error percent for the data set is 3.20%, compared with a previous model with mean relative error percent of 6.63%. To evaluate the predictive power of CART cross validation method was also performed.

데이터 마이닝을 이용한 무선 인터넷 서비스 분류기법 (Wireless Internet Service Classification using Data Mining)

  • 이성진;송종우;안수한;원유집;장재성
    • 한국정보과학회논문지:정보통신
    • /
    • 제36권3호
    • /
    • pp.153-162
    • /
    • 2009
  • 오늘 날 다양한 플랫폼을 기반으로 한 무선 네트워크 위에 실행되고 있는 수 많은 응용 프로그램은 서비스 운영자 입장에서 정확히 분류해내는 것은 중요하다. 이 연구는 WiBro 상용망에서 임의로 생성한 트래픽 데이터에서 다양한 응용프로그램들을 분류하는 것을 목적으로 한다. 분류기를 개발하는데 있어서 기존에 Flow기반으로 분류를 하는 대신 세션이라는 단위로 실험을 진행하였다. 이 단위를 사용하여 두 가지 분류 기법을 사용하였다. Classification and Regression Tree와 Support Vector Machine. 각 판별기는 생성된 변수들을 기반으로 판별을 시도하였을 때 CART의 경우 0.85%, SVM의 경우 0.94%의 오차를 보여 우수한 성능을 보였지만, 판별기의 구현과 결과 해석이 용이한 CART를 이용하여 판별시스템을 구축하는 것이 유리함을 보였다.

텍스트 분류 기법의 발전 (Enhancement of Text Classification Method)

  • 신광성;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.155-156
    • /
    • 2019
  • Classification and Regression Tree (CART), SVM (Support Vector Machine) 및 k-nearest neighbor classification (kNN)과 같은 기존 기계 학습 기반 감정 분석 방법은 정확성이 떨어졌습니다. 본 논문에서는 개선 된 kNN 분류 방법을 제안한다. 개선 된 방법 및 데이터 정규화를 통해 정확성 향상의 목적이 달성됩니다. 그 후, 3 가지 분류 알고리즘과 개선 된 알고리즘을 실험 데이터에 기초하여 비교 하였다.

  • PDF

다중 응답 분류회귀트리를 이용한 음성 개성 변환 (Voice Personality Transformation Using a Multiple Response Classification and Regression Tree)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.253-261
    • /
    • 2004
  • 본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.

Decision Tree of Occupational Lung Cancer Using Classification and Regression Analysis

  • Kim, Tae-Woo;Koh, Dong-Hee;Park, Chung-Yill
    • Safety and Health at Work
    • /
    • 제1권2호
    • /
    • pp.140-148
    • /
    • 2010
  • Objectives: Determining the work-relatedness of lung cancer developed through occupational exposures is very difficult. Aims of the present study are to develop a decision tree of occupational lung cancer. Methods: 153 cases of lung cancer surveyed by the Occupational Safety and Health Research Institute (OSHRI) from 1992-2007 were included. The target variable was whether the case was approved as work-related lung cancer, and independent variables were age, sex, pack-years of smoking, histological type, type of industry, latency, working period and exposure material in the workplace. The Classification and Regression Test (CART) model was used in searching for predictors of occupational lung cancer. Results: In the CART model, the best predictor was exposure to known lung carcinogens. The second best predictor was 8.6 years or higher latency and the third best predictor was smoking history of less than 11.25 pack-years. The CART model must be used sparingly in deciding the work-relatedness of lung cancer because it is not absolute. Conclusion: We found that exposure to lung carcinogens, latency and smoking history were predictive factors of approval for occupational lung cancer. Further studies for work-relatedness of occupational disease are needed.

SUPPORT Applications for Classification Trees

  • Lee, Sang-Bock;Park, Sun-Young
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권3호
    • /
    • pp.565-574
    • /
    • 2004
  • Classification tree algorithms including as CART by Brieman et al.(1984) in some aspects, recursively partition the data space with the aim of making the distribution of the class variable as pure as within each partition and consist of several steps. SUPPORT(smoothed and unsmoothed piecewise-polynomial regression trees) method of Chaudhuri et al(1994), a weighted averaging technique is used to combine piecewise polynomial fits into a smooth one. We focus on applying SUPPORT to a binary class variable. Logistic model is considered in the caculation techniques and the results are shown good classification rates compared with other methods as CART, QUEST, and CHAID.

  • PDF