• 제목/요약/키워드: Decision Tree analysis

검색결과 725건 처리시간 0.025초

Tree-structured Classification based on Variable Splitting

  • Ahn, Sung-Jin
    • Communications for Statistical Applications and Methods
    • /
    • 제2권1호
    • /
    • pp.74-88
    • /
    • 1995
  • This article introduces a unified method of choosing the most explanatory and significant multiway partitions for classification tree design and analysis. The method is derived on the impurity reduction (IR) measure of divergence, which is proposed to extend the proportional-reduction-in-error (PRE) measure in the decision-theory context. For the method derivation, the IR measure is analyzed to characterize its statistical properties which are used to consistently handle the subjects of feature formation, feature selection, and feature deletion required in the associated classification tree construction. A numerical example is considered to illustrate the proposed approach.

  • PDF

대학 컴퓨터 실습 교양과목에서의 학업성취 요인에 대한 연구 (A Study on Factors of the Academic Achievement in Computer Training Courses as the Liberal Arts in University)

  • 김완섭
    • 정보교육학회논문지
    • /
    • 제17권4호
    • /
    • pp.433-447
    • /
    • 2013
  • 본 연구는 실습 중심의 컴퓨터 교양과목에서의 학생들의 학업성취에 영향을 미치는 요인을 발견하기 위한 것이다. 교과목 운영을 통한 교육성과 즉 학생들의 학업성취도를 향상시키기 위해서는 학업성취도에 영향을 미치는 요인들을 분석하고 그 결과를 교육에 반영하여 개선하는 순환 과정이 필요하다. 특히 컴퓨터 실습을 중심으로 하는 실용 교과목은 이론 중심의 과목들과 특성이 다르므로 그 요인에 대한 연구가 요구된다. 본 연구에서는 요인을 발견하기 위한 분석으로 로지스틱 회귀분석과 데이터마이닝 분야의 결정트리 분석을 수행하였다. 실험을 위한 데이터로는 서울소재 S대학의 교양필수과목에서 시행된 MOS 자격증 시험결과를 사용하였다. 로지스틱 회귀분석을 통해서는 담당교수, 수강인원, 수업시간, 그룹(강의기간) 순으로 중요성을 파악할 수 있었다. 데이터마이닝의 의사결정트리 분석을 통해서는 그 외에 학번, 재수강 여부, 강의실 환경의 추가 요인을 발견할 수 있었고, 특히 다양한 요인들이 학업성취에 복합적으로 영향을 미치는 것을 트리 모형을 통해 파악할 수 있었다. 분석 결과의 트리모형을 결과로 제시하였으며, 수식을 제안하여 여러개의 트리 모형으로부터 요인의 중요도를 수치화하여 제시하였다.

A Study on Split Variable Selection Using Transformation of Variables in Decision Trees

  • Chung, Sung-S.;Lee, Ki-H.;Lee, Seung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권2호
    • /
    • pp.195-205
    • /
    • 2005
  • In decision tree analysis, C4.5 and CART algorithm have some problems of computational complexity and bias on variable selection. But QUEST algorithm solves these problems by dividing the step of variable selection and split point selection. When input variables are continuous, QUEST algorithm uses ANOVA F-test under the assumption of normality and homogeneity of variances. In this paper, we investigate the influence of violation of normality assumption and effect of the transformation of variables in the QUEST algorithm. In the simulation study, we obtained the empirical powers of variable selection and the empirical bias of variable selection after transformation of variables having various type of underlying distributions.

  • PDF

판단 트리 분류를 위한 SQL 기초 기능의 구현에 관한 연구 (A Study on the Implementation of SQL Primitives for Decision Tree Classification)

  • 안형근;고재진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권12호
    • /
    • pp.855-864
    • /
    • 2013
  • 판단 트리 분류는 데이터 마이닝의 중요한 문제의 하나이고, 데이터 마이닝은 대형 데이터베이스 기술의 중요한 과제가 되고 있다. 그러므로 데이터베이스와 데이터 마이닝 시스템의 결합 노력은 판단 트리 분류와 같은 데이터 마이닝 기능을 지원하는 데이터베이스 기초 기능의 개발로 이어지고 있다. 이런 기초 기능은 분류 알고리즘의 SQL 구현을 지원하는 특수한 데이터베이스 연산들로 구현되며, 특정 알고리즘을 구현하여 데이터베이스 시스템의 구성 모듈로 사용하고 있다. 데이터마이닝 기능을 제공하는 데이터베이스 기초 기능의 개발에는 두 가지 관점이 있다. 하나는 데이터 마이닝 기능을 분석해서 그런 기능들을 제공하는 데이터베이스 공통 기초 기능을 확인하는 것, 다른 하나는 데이터베이스 시스템의 인터페이스의 한 부분으로 이런 기초 기능의 구현을 위한 확장된 메커니즘을 제공하는 것이다. 데이터마이닝에서 어떤 기초 기능들을 DBMS에 저장할 것인가는 어려운 문제 중에 하나이다. 따라서 본 논문에서는 이러한 문제를 해결하기 위하여, 최적화된 판단 트리 분류기를 만들고 데이터베이스 기초 기능에 대해서 기술한다. 판단 트리 분류 알고리즘의 유용한 연산들을 확인하고, 상업적 DBMS에서 이러한 기초 기능의 구현에 대해서 기술하고, 성능 비교를 위한 실험 결과를 제시한다.

제조업에서의 산업재해 예방을 위한 전문가 시스템 개발 (Development of an Expert System for Prevention of Industrial Accidents in Manufacturing Industries)

  • 임영문;최요한
    • 대한안전경영과학회지
    • /
    • 제8권1호
    • /
    • pp.53-64
    • /
    • 2006
  • Many researches and analyses have been focused on industrial accidents in order to predict and reduce them. As a similar endeavor, this paper is to develop an expert system for prevention of industrial accidents. Although various previous studies have been performed to prevent industrial accidents, these studies only provide managerial and educational policies using frequency analysis and comparative analysis based on data from past industrial accidents. As an initial step for the purpose of this study, this paper provides a comparative analysis of 4 kinds of algorithms including CHAID, CART, C4.5, and QUEST. Decision tree algorithm is utilized to predict results using objective and quantified data as a typical technique of data mining. Enterprise Miner of SAS and Answer Tree of SPSS will be used to evaluate the validity of the results of the four algorithms. The sample for this work was chosen from 10,536 data related to manufacturing industries during three years$(2002\sim2004)$ in korea. The initial sample includes a range of different businesses including the construction and manufacturing industries, which are typically vulnerable to industrial accidents.

의사결정나무분석법을 활용한 6차산업 유형별 산업적 기능결합 요인탐색 (Exploring Industrial Function Combining Factors for Each Type in the 6th Industry Based on Decision Tree Analysis)

  • 김정태
    • 농촌지도와개발
    • /
    • 제23권3호
    • /
    • pp.243-255
    • /
    • 2016
  • This study aims to identify the characteristics of businesses influencing the choice of their type in the 6th industry and analyze how they work. This study analyzed data of 752 businesses certified as belonging to the 6th industry in 2015 through the classification and regression tree (CART) algorithm in decision tree analysis. The results of analysis showed that the type of agricultural product processing, region, the type of service, and the production percentage in a province affected a choice of the type. The most important variable that impacted how businesses in the 6th industry chose their type was the type of agricultural product processing, and if a business produced simple agricultural products, it was likely to specialize into $1st^*2nd$ or $1st^*3rd$. Access to large consumption areas was a critical factor in the growth of 2nd and 3rd industrial functions. These findings would contribute to establishing a model to develop the 6th industry and empirically demonstrate the importance of access to large consumption areas for agricultural businesses and rural tourism.

의사결정나무와 신경망 모형 결합에 의한 운전자 우회결정요인 분석 (Drivers Detour Decision Factor Analysis with Combined Method of Decision Tree and Neural Network Algorithm)

  • 강진웅;금기정;손승녀
    • 한국도로학회논문집
    • /
    • 제13권3호
    • /
    • pp.167-176
    • /
    • 2011
  • 본 연구는 불특정 다수의 도로이용자들이 경로우회 시 갖는 의사결정과정속에 내포된 비선형성과 불확실성을 고려한 정도 있는 모형구축으로 주요 우회결정요인을 분석하는 것이 주요 목적이다. 이를 위하여 고속도로 및 국도를 이용하는 운전자를 대상으로 우회여부에 관련된 SP조사를 실시하였고, 조사결과에 대하여 의사결정나무와 신경망이론의 결합된 모형을 구축하여 운전자 우회결정요인을 분석하였다. 분석결과 운전자 우회여부결정에 영향을 미치는 요인은 우회도로 인지여부, 교통정보 신뢰도 및 이용빈도, 경로전환빈도, 나이순으로 나타났다. 또한 오분류표를 통한 기존 모형과의 예측력의 비교결과 결합된 모형의 오분류율이 8.7%로 기존 모형인 로짓모형 12.8%, 의사결정나무 단독 모형 13.8%와 비교했을 때 가장 예측력이 높은 것으로 나타나 운전자 우회결정요인 분석에 관한 모형의 적용 타당성을 확인할 수 있었다. 본 연구의 결과는 향후 교통량 분산효과와 도로망 효율 증대를 위한 효과적인 우회관리전략 수립 시 기초 자료로 활용가능하리라 사료된다.

서비스 중요도를 사용한 서비스나무분석의 개선 (Improvement of Service Tree Analysis Using Service Importance)

  • 박종훈;황영훈;이상천
    • 산업경영시스템학회지
    • /
    • 제40권2호
    • /
    • pp.41-50
    • /
    • 2017
  • The purpose of this paper is to improve the service tree analysis introduced recently by Geum et al. [15]. Service tree analysis structures the service based on the customer participation perspective and provides a qualitative analysis method categorizing the service elements on the basis of its impact to top service. This paper attempts to apply the concept of reliability importance to the service tree analysis as a perspective of quantitative analysis, which is considered little in Geum et al. [15]. Reliability importance is a measure of the structural impact of the components that make up the system on the system lifetime in reliability engineering field and often used in fault tree analysis. We transform the reliability importance into service importance in accordance with service tree analysis, so that the influence of service elements on the service can be judged and compared. The service importance is defined as the amount of change of the service according to the change of the service element, therefore, it can be utilized as an index for determining a service element for service improvement. In addition, as an index for paired service elements, the relationship between the two service components can be measured by joint service importance. This paper introduces conceptual changes in the process of applying reliability importance to service analysis, and shows how to use the service importance for identifying the priority of service element for the final service and improving customer satisfaction through an example. By using the service importance and joint service importance in service tree analysis, it is possible to make efficient decision making in the process of determining the service elements for analyzing and improving the service.

공사기간 영향요인에 따른 생산성의 OLAP 분석과 의사결정트리 분석 (OLAP and Decision Tree Analysis of Productivity Affected by Construction Duration Impact Factors)

  • 류한국
    • 한국건축시공학회지
    • /
    • 제11권2호
    • /
    • pp.100-107
    • /
    • 2011
  • 건설공사의 공사기간은 건설프로젝트의 성공적인 완수를 위하여 중요한 부분을 차지하기 때문에 공사기간에 영향을 미치는 요인들을 체계적으로 관리하는 것이 필요하다. 최근에는 건설 제도적 변화로 건설공사의 공사기간에 대한 관심이 증대되고 있다. 그러나 건설 프로젝트의 공사기간에 미치는 영향요인은 매우 다양하며, 각 요인들 중 어떤 요인이 어느 정도 작업의 생산성에 영향을 미치는지에 대한 데이터의 체계적인 활용이 부족하다. 또한 특정 프로젝트, 특정 작업, 특정 협력업체 등에 영향을 미치는 요인이 무엇인지 또는 전체 프로젝트에 공통적으로 영향을 미치는 요인이 무엇인지를 인식하는 것조차 어려운 경우가 많다. 그러나 데이터 웨어하우스 기술의 다차원 분석을 활용함으로써 다양한 각도에서의 공사기간 영향요인이 미치는 생산성을 파악할 수 있다. 이에 본 연구는 건설공사에서 발생하는 다양한 영향요인에 따른 작업 생산성 데이터를 다차원적으로 분석하고 의사결정에 활용할 수 있는 데이터 마이닝 기술을 적용하여 기존 생산성 데이터들을 효과적으로 활용하는 방법을 제시한다.

의사결정나무의 분기법 변화가 예측력에 미치는 영향 (The impact of the change in the splitting method of decision trees on the prediction power)

  • 장영재
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.517-525
    • /
    • 2022
  • 빅데이터 시대에 이르러 다양한 데이터 마이닝 기법이 주요 분석 방법론으로 제안되었다. 복잡 다양한 데이터가 양산되면서 데이터 마이닝 기법은 데이터 과학의 토대를 이루는 방법으로 부각되었다. 본고에서는 해석의 유용성과 예측력 향상의 측면 모두에 초점을 맞추어 다양한 실험 연구를 시행하였다. 구체적인 모형으로는 의사결정나무를 선택하였는데, 이는 실무적 사용 빈도가 높은 방법으로서 활용 폭이 넓을 뿐만 아니라 이해가 쉽고 성능평가가 용이한 방법론이기 때문이다. 의사결정나무모형을 대상으로 이 모형의 구조를 크게 변형시키지 않으면서도 예측력 향상의 목적을 이룰 수 있는 방법을 살펴보았으며 분기변수의 선택 방법이 모형의 성능에 미치는 영향을 분석하였다. 이 효과를 측정하기 위해서 다양한 모의실험 모델을 생성하고 분기법의 변화에 따른 예측력을 비교하였다. 비선형성을 지니면서 단일 분할을 통해서 하위 집합으로 명확하게 구분하기 어려운 복잡한 데이터의 경우에는 선형결합 분기방법이 예측력 제고에 도움을 주는 것으로 나타났다.