• 제목/요약/키워드: Classification and Regression tree

검색결과 208건 처리시간 0.031초

Classification and Regression Tree Analysis for Molecular Descriptor Selection and Binding Affinities Prediction of Imidazobenzodiazepines in Quantitative Structure-Activity Relationship Studies

  • Atabati, Morteza;Zarei, Kobra;Abdinasab, Esmaeil
    • Bulletin of the Korean Chemical Society
    • /
    • 제30권11호
    • /
    • pp.2717-2722
    • /
    • 2009
  • The use of the classification and regression tree (CART) methodology was studied in a quantitative structure-activity relationship (QSAR) context on a data set consisting of the binding affinities of 39 imidazobenzodiazepines for the α1 benzodiazepine receptor. The 3-D structures of these compounds were optimized using HyperChem software with semiempirical AM1 optimization method. After optimization a set of 1481 zero-to three-dimentional descriptors was calculated for each molecule in the data set. The response (dependent variable) in the tree model consisted of the binding affinities of drugs. Three descriptors (two topological and one 3D-Morse descriptors) were applied in the final tree structure to describe the binding affinities. The mean relative error percent for the data set is 3.20%, compared with a previous model with mean relative error percent of 6.63%. To evaluate the predictive power of CART cross validation method was also performed.

Comparison of machine learning algorithms for regression and classification of ultimate load-carrying capacity of steel frames

  • Kim, Seung-Eock;Vu, Quang-Viet;Papazafeiropoulos, George;Kong, Zhengyi;Truong, Viet-Hung
    • Steel and Composite Structures
    • /
    • 제37권2호
    • /
    • pp.193-209
    • /
    • 2020
  • In this paper, the efficiency of five Machine Learning (ML) methods consisting of Deep Learning (DL), Support Vector Machine (SVM), Random Forest (RF), Decision Tree (DT), and Gradient Tree Booting (GTB) for regression and classification of the Ultimate Load Factor (ULF) of nonlinear inelastic steel frames is compared. For this purpose, a two-story, a six-story, and a twenty-story space frame are considered. An advanced nonlinear inelastic analysis is carried out for the steel frames to generate datasets for the training of the considered ML methods. In each dataset, the input variables are the geometric features of W-sections and the output variable is the ULF of the frame. The comparison between the five ML methods is made in terms of the mean-squared-error (MSE) for the regression models and the accuracy for the classification models, respectively. Moreover, the ULF distribution curve is calculated for each frame and the strength failure probability is estimated. It is found that the GTB method has the best efficiency in both regression and classification of ULF regardless of the number of training samples and the space frames considered.

나무구조의 분류분석에서 변수 중요도에 대한 고찰 (Comparison of Variable Importance Measures in Tree-based Classification)

  • 김나영;이은경
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.717-729
    • /
    • 2014
  • 본 연구에서는 나무구조의 분류분석에서 자료의 크기가 방대해짐에 따라 중요한 문제로 대두되고 있는 변수의 중요도에 대하여 사영추적분류나무를 중심으로 고찰하였다. 사영추적분류나무(projection pursuit classification tree)는 각 마디에서 사영추적을 이용하여 그룹을 잘 분리하는 변수들의 선형결합을 이용하는 방법으로 이때 사용되는 사영계수들은 각 마디에서의 분류에 대한 정보를 가지고 있다. 이를 종합하여 각 변수의 분류에 대한 중요도를 계산할 수 있다. 먼저 사영추적분류나무의 분류과정에서 계산되는 사영추적계수를 이용하여 분류를 위한 변수선택의 중요도를 계산하고 이들의 특성을 살펴보고 이를 같은 형태의 나무모형방법인 CART와 랜덤 포레스트의 결과와 비교 분석하여 사영추적분류나무의 특성을 살펴보고 비교, 분석하였다. 대부분의 자료에서 사영추적분류나무가 훨씬 좋은 성능을 보이고 있었으며 특히 상관계수가 높은 변수들이 포함되어 있는 경우에는 상대적으로 적은 수의 변수로도 잘 분류를 할 수 있음을 확인하였다. 랜덤 포레스트에서 제공하는 변수 중요도는 변수들 간의 상관관계가 높은 경우에는 사영추적분류나무의 변수중요도와 매우 다르게 나타나며 사영추적분류나무의 변수 중요도가 조금 더 나은 성능을 보이고 있음을 알 수 있다.

다중 응답 분류회귀트리를 이용한 음성 개성 변환 (Voice Personality Transformation Using a Multiple Response Classification and Regression Tree)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.253-261
    • /
    • 2004
  • 본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.

A Comparative Study of Predictive Factors for Passing the National Physical Therapy Examination using Logistic Regression Analysis and Decision Tree Analysis

  • Kim, So Hyun;Cho, Sung Hyoun
    • Physical Therapy Rehabilitation Science
    • /
    • 제11권3호
    • /
    • pp.285-295
    • /
    • 2022
  • Objective: The purpose of this study is to use logistic regression and decision tree analysis to identify the factors that affect the success or failurein the national physical therapy examination; and to build and compare predictive models. Design: Secondary data analysis study Methods: We analyzed 76,727 subjects from the physical therapy national examination data provided by the Korea Health Personnel Licensing Examination Institute. The target variable was pass or fail, and the input variables were gender, age, graduation status, and examination area. Frequency analysis, chi-square test, binary logistic regression, and decision tree analysis were performed on the data. Results: In the logistic regression analysis, subjects in their 20s (Odds ratio, OR=1, reference), expected to graduate (OR=13.616, p<0.001) and from the examination area of Jeju-do (OR=3.135, p<0.001), had a high probability of passing. In the decision tree, the predictive factors for passing result had the greatest influence in the order of graduation status (x2=12366.843, p<0.001) and examination area (x2=312.446, p<0.001). Logistic regression analysis showed a specificity of 39.6% and sensitivity of 95.5%; while decision tree analysis showed a specificity of 45.8% and sensitivity of 94.7%. In classification accuracy, logistic regression and decision tree analysis showed 87.6% and 88.0% prediction, respectively. Conclusions: Both logistic regression and decision tree analysis were adequate to explain the predictive model. Additionally, whether actual test takers passed the national physical therapy examination could be determined, by applying the constructed prediction model and prediction rate.

A Comparative Study of Predictive Factors for Hypertension using Logistic Regression Analysis and Decision Tree Analysis

  • SoHyun Kim;SungHyoun Cho
    • Physical Therapy Rehabilitation Science
    • /
    • 제12권2호
    • /
    • pp.80-91
    • /
    • 2023
  • Objective: The purpose of this study is to identify factors that affect the incidence of hypertension using logistic regression and decision tree analysis, and to build and compare predictive models. Design: Secondary data analysis study Methods: We analyzed 9,859 subjects from the Korean health panel annual 2019 data provided by the Korea Institute for Health and Social Affairs and National Health Insurance Service. Frequency analysis, chi-square test, binary logistic regression, and decision tree analysis were performed on the data. Results: In logistic regression analysis, those who were 60 years of age or older (Odds ratio, OR=68.801, p<0.001), those who were divorced/widowhood/separated (OR=1.377, p<0.001), those who graduated from middle school or younger (OR=1, reference), those who did not walk at all (OR=1, reference), those who were obese (OR=5.109, p<0.001), and those who had poor subjective health status (OR=2.163, p<0.001) were more likely to develop hypertension. In the decision tree, those over 60 years of age, overweight or obese, and those who graduated from middle school or younger had the highest probability of developing hypertension at 83.3%. Logistic regression analysis showed a specificity of 85.3% and sensitivity of 47.9%; while decision tree analysis showed a specificity of 81.9% and sensitivity of 52.9%. In classification accuracy, logistic regression and decision tree analysis showed 73.6% and 72.6% prediction, respectively. Conclusions: Both logistic regression and decision tree analysis were adequate to explain the predictive model. It is thought that both analysis methods can be used as useful data for constructing a predictive model for hypertension.

데이터 마이닝을 이용한 무선 인터넷 서비스 분류기법 (Wireless Internet Service Classification using Data Mining)

  • 이성진;송종우;안수한;원유집;장재성
    • 한국정보과학회논문지:정보통신
    • /
    • 제36권3호
    • /
    • pp.153-162
    • /
    • 2009
  • 오늘 날 다양한 플랫폼을 기반으로 한 무선 네트워크 위에 실행되고 있는 수 많은 응용 프로그램은 서비스 운영자 입장에서 정확히 분류해내는 것은 중요하다. 이 연구는 WiBro 상용망에서 임의로 생성한 트래픽 데이터에서 다양한 응용프로그램들을 분류하는 것을 목적으로 한다. 분류기를 개발하는데 있어서 기존에 Flow기반으로 분류를 하는 대신 세션이라는 단위로 실험을 진행하였다. 이 단위를 사용하여 두 가지 분류 기법을 사용하였다. Classification and Regression Tree와 Support Vector Machine. 각 판별기는 생성된 변수들을 기반으로 판별을 시도하였을 때 CART의 경우 0.85%, SVM의 경우 0.94%의 오차를 보여 우수한 성능을 보였지만, 판별기의 구현과 결과 해석이 용이한 CART를 이용하여 판별시스템을 구축하는 것이 유리함을 보였다.

토지이용특성을 고려한 서울시 교통사고 발생 모형 개발 (Development of Traffic Accident Models in Seoul Considering Land Use Characteristics)

  • 임삼진;박준태
    • 한국재난정보학회 논문집
    • /
    • 제9권1호
    • /
    • pp.30-49
    • /
    • 2013
  • 본 연구에서는 토지이용에 기반을 두는 새로운 교통사고 예측모형을 개발하였다. 다양한 지역의 특성을 반영할 수 있는 변수에 대한 시장분할 및 추가변수 도입을 토대로 Data Mining 기법의 하나인 의사나무결정법(Classification and Regression Tree)을 활용하여 새로운 유형별 교통사고 예측모형을 개발하였다. 분석결과를 살펴보면 주민등록인구수, 통근 등 활동변수와 활동의 대상이 되는 도로규모, 유발시설 등이 교통사고를 설명하는 변수로 도출되었다.

Prediction of Academic Performance of College Students with Bipolar Disorder using different Deep learning and Machine learning algorithms

  • Peerbasha, S.;Surputheen, M. Mohamed
    • International Journal of Computer Science & Network Security
    • /
    • 제21권7호
    • /
    • pp.350-358
    • /
    • 2021
  • In modern years, the performance of the students is analysed with lot of difficulties, which is a very important problem in all the academic institutions. The main idea of this paper is to analyze and evaluate the academic performance of the college students with bipolar disorder by applying data mining classification algorithms using Jupiter Notebook, python tool. This tool has been generally used as a decision-making tool in terms of academic performance of the students. The various classifiers could be logistic regression, random forest classifier gini, random forest classifier entropy, decision tree classifier, K-Neighbours classifier, Ada Boost classifier, Extra Tree Classifier, GaussianNB, BernoulliNB are used. The results of such classification model deals with 13 measures like Accuracy, Precision, Recall, F1 Measure, Sensitivity, Specificity, R Squared, Mean Absolute Error, Mean Squared Error, Root Mean Squared Error, TPR, TNR, FPR and FNR. Therefore, conclusion could be reached that the Decision Tree Classifier is better than that of different algorithms.

로지스틱 회귀모형과 의사결정나무 모형을 이용한 Cochlodinium polykrikoides 적조 탐지 기법 연구 (Study on Detection Technique for Cochlodinium polykrikoides Red tide using Logistic Regression Model and Decision Tree Model)

  • 박수호;김흥민;김범규;황도현;엥흐자리갈 운자야;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.777-786
    • /
    • 2018
  • 본 연구에서는 기계학습 기법의 한 갈래인 로지스틱 회귀모형과 의사결정나무 모형을 이용하여 인공위성 영상에서 Cochlodinium polykrikoides 적조 픽셀을 탐지하는 방법을 제안한다. 학습자료로 적조, 청수, 탁수해역에서 추출된 수출광량 분광 프로파일(918개)을 활용하였다. 전체 데이터셋의 70%를 추출하여 모형 학습에 활용하였으며, 나머지 30%를 이용하여 모형의 분류 정확도를 평가하였다. 정확도 평가 결과 로지스틱 회귀모형은 약 97%의 분류 정확도를 보였으며, 의사결정나무 모형은 약 86%의 분류 정확도를 보였다.