• 제목/요약/키워드: Decision-trees

검색결과 303건 처리시간 0.032초

A Study on Split Variable Selection Using Transformation of Variables in Decision Trees

  • Chung, Sung-S.;Lee, Ki-H.;Lee, Seung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권2호
    • /
    • pp.195-205
    • /
    • 2005
  • In decision tree analysis, C4.5 and CART algorithm have some problems of computational complexity and bias on variable selection. But QUEST algorithm solves these problems by dividing the step of variable selection and split point selection. When input variables are continuous, QUEST algorithm uses ANOVA F-test under the assumption of normality and homogeneity of variances. In this paper, we investigate the influence of violation of normality assumption and effect of the transformation of variables in the QUEST algorithm. In the simulation study, we obtained the empirical powers of variable selection and the empirical bias of variable selection after transformation of variables having various type of underlying distributions.

  • PDF

회귀 모델을 활용한 철강 기업의 에너지 소비 예측 (Forecasting Energy Consumption of Steel Industry Using Regression Model)

  • Sung-Ho KANG;Hyun-Ki KIM
    • Journal of Korea Artificial Intelligence Association
    • /
    • 제1권2호
    • /
    • pp.21-25
    • /
    • 2023
  • The purpose of this study was to compare the performance using multiple regression models to predict the energy consumption of steel industry. Specific independent variables were selected in consideration of correlation among various attributes such as CO2 concentration, NSM, Week Status, Day of week, and Load Type, and preprocessing was performed to solve the multicollinearity problem. In data preprocessing, we evaluated linear and nonlinear relationships between each attribute through correlation analysis. In particular, we decided to select variables with high correlation and include appropriate variables in the final model to prevent multicollinearity problems. Among the many regression models learned, Boosted Decision Tree Regression showed the best predictive performance. Ensemble learning in this model was able to effectively learn complex patterns while preventing overfitting by combining multiple decision trees. Consequently, these predictive models are expected to provide important information for improving energy efficiency and management decision-making at steel industry. In the future, we plan to improve the performance of the model by collecting more data and extending variables, and the application of the model considering interactions with external factors will also be considered.

의사결정나무를 이용한 토마토 스마트팜 전문가시스템 (Expert System for Tomato Smart Farm Using Decision Tree)

  • 남윤만;이인용;백운보
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.27-30
    • /
    • 2018
  • 의사결정나무를 이용한 토마토 스마트 팜 용 전문가시스템을 설계하여 각 하우스의 주변 환경에 따라 달라지는 요소들에 의해 생성되는 데이터를 사용하여 보다 농민의 결정과 비슷한 의사결정구조를 가진 제어시스템을 구축한다. 현재 스마트 팜의 제어시스템은 지금까지 농민들이 해온 방식과 유사하게 스스로 제어하지 못하였기에 스마트 팜 제어시스템의 의존율은 여전히 높지 못하다. 스마트 팜 내의 센서 값 등 주변 환경을 기준으로 한 환경제어에 농민들의 직접적인 개입이 필수불가결 하다. 그래서 보다 농민의 의사결정과 비슷한 시스템을 만들기 위하여 전문가시스템에 의사결정나무를 접목시킨 제어기를 설계하는 것을 목표로 하였다. 하우스 내의 장비를 제어하기에 앞서 여러 환경요소 중에 가장 직접적인 영향을 미치는 것을 자동으로 선정한 후, 농민들의 의사결정 선정기준을 포함시켜 복합적인제어를 위하여 전문가시스템을 구축한다. 이번 연구는 무거운 툴을 사용하지 않고 데이터를 이용하여 결과를 도출하는 것에 초점을 맞추어 진행하였다. 현재 많은 농장에서 스마트 팜을 이용한 데이터들이 쏟아져 나오고 있고 이것을 농민들이 손쉽고 빠르게 접근하여 직접적인 개입을 줄일 수 있는 방법론에 대한 표준이 될 수 있을 것으로 예상 한다.

  • PDF

기계학습 기반의 영화흥행예측 방법 비교: 인공신경망과 의사결정나무를 중심으로 (A Comparison of Predicting Movie Success between Artificial Neural Network and Decision Tree)

  • 권신혜;박경우;장병희
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권4호
    • /
    • pp.593-601
    • /
    • 2017
  • 본 연구는 영화산업의 가치사슬단계에 따라 각 단계에서 고려할 수 있는 변인을 활용하여 제작/투자, 배급, 상영단계별 모형을 구성하였다. 모형의 예측력을 높이기 위해 회귀분석으로 유의미한 변인을 도출하여 모형을 추가로 설정하였다. 주어진 변인을 바탕으로 기계학습 분석방법인 인공신경망과 의사결정나무 분석방법 간의 예측력 차이를 비교하였다. 분석 결과, 제작/투자 모형과 배급 모형에서 모든 변인을 투입했을 때는 인공신경망의 정확도가 의사결정나무보다 높았으나, 회귀분석결과에 따라 선정된 변인을 투입하였을 때는 의사결정나무의 정확도가 더 높았다. 상영 모형에서는 회귀분석결과의 반영여부와 관계없이 인공신경망의 정확도가 의사결정나무의 정확도보다 높게 나타났다. 본 논문은 영화흥행 예측연구에 기계학습기법을 적용하여 예측성과가 향상됨을 확인하였다는데 의의가 있다. 선형회귀분석 결과를 기계학습기법에 반영함으로써 기존의 선형적 분석방법의 한계를 극복하고자 하였다.

Inter-Process Correlation Model based Hybrid Framework for Fault Diagnosis in Wireless Sensor Networks

  • Zafar, Amna;Akbar, Ali Hammad;Akram, Beenish Ayesha
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권2호
    • /
    • pp.536-564
    • /
    • 2019
  • Soft faults are inherent in wireless sensor networks (WSNs) due to external and internal errors. The failure of processes in a protocol stack are caused by errors on various layers. In this work, impact of errors and channel misbehavior on process execution is investigated to provide an error classification mechanism. Considering implementation of WSN protocol stack, inter-process correlations of stacked and peer layer processes are modeled. The proposed model is realized through local and global decision trees for fault diagnosis. A hybrid framework is proposed to implement local decision tree on sensor nodes and global decision tree on diagnostic cluster head. Local decision tree is employed to diagnose critical failures due to errors in stacked processes at node level. Global decision tree, diagnoses critical failures due to errors in peer layer processes at network level. The proposed model has been analyzed using fault tree analysis. The framework implementation has been done in Castalia. Simulation results validate the inter-process correlation model-based fault diagnosis. The hybrid framework distributes processing load on sensor nodes and diagnostic cluster head in a decentralized way, reducing communication overhead.

음소 질의어 집합 생성 알고리즘 (Phonetic Question Set Generation Algorithm)

  • 김성아;육동석;권오일
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.173-179
    • /
    • 2004
  • 음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.

의사결정나무에서 순서형 분리변수 선택에 관한 연구 (Ordinal Variable Selection in Decision Trees)

  • 김현중
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.149-161
    • /
    • 2006
  • CART로 대표되는 의사결정나무의 알고리즘에서 가장 중요한 요소는 분리변수의 선택방법이다. 대부분의 알고리즘은 변수의 형태가 연속형인지, 혹은 명목형(nominal)인지에 따라 별개의 변수선택방법을 적용한다. 하지만 변수의 형태가 순서형(ordinal)인 경우에는 그 변수를 연속형으로 취급하여 연속형 변수선택방법을 적용하는 것이 대부분이다. 이것은 CART와 같은 Greedy탐색을 이용하는 방법에는 문제점이 발생하지 않는다. 하지만 Greedy탐색의 약점을 보완하기 위해 통계이론을 이용하여 개발된 최근의 방법들에는 최선의 대처방법이 아니다. 따라서 본 연구에서는 의사결정 나무에서 분리변수를 선택하는데 있어서 비모수적 접근 방법인 Clamor-von Mises 검정을 이용한 방법을 순서형 변수에 사용하는 것을 제안하고, CART, C4.5, QUEST, CRUISE등 기존 알고리즘과 본 연구에서 제안하는 방법의 순서형 변수 선택력을 비교하였다. 모의실험의 결과, Clamor-von Mises 검정을 이용한 변수선택방법은 순서형 변수의 분류력을 기존 방법들에 비해 더 정확히 예측하는 좋은 성과를 보여주었다.

사상체질 분류모형 개발 및 진단시스템의 구현에 관한 연구 (Study on Development of Classification Model and Implementation for Diagnosis System of Sasang Constitution)

  • 범수균;전미란;오암석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 지능정보 및 응용 학술대회
    • /
    • pp.155-159
    • /
    • 2008
  • 본 논문에서는 사상체질분류검사 설문지를 이용하여 사상체질을 진단할 때 진단의 정확도를 향상시키기 위한 사상체질 분류모형을 개발하기 위하여 데이터마이닝의 주요 분류기법인 판별분석(discriminant analysis), 의사결정나무(decision tree analysis), 신경망분석(neural network analysis), 로지스틱 회귀분석(logistic regression analysis), 군집분석(clustering analysis) 등 다양한 분류분석모형을 이용한다. 본 연구에서는 분류의 비교적 정확도가 우수하며, 특히 분석과정을 쉽게 이해하고 설명할 수 있다는 점과 구현이 용이하다는 장점을 가지고 있는 판별분석모형과 의사결정나무분석모형을 기반으로 사상체질 분류모형을 개발하고, 두 분류모형을 적용한 사상체질 진단시스템을 구현하였다.

  • PDF

TREES WITH EQUAL STRONG ROMAN DOMINATION NUMBER AND ROMAN DOMINATION NUMBER

  • Chen, Xue-Gang;Sohn, Moo Young
    • 대한수학회보
    • /
    • 제56권1호
    • /
    • pp.31-44
    • /
    • 2019
  • A graph theoretical model called Roman domination in graphs originates from the historical background that any undefended place (with no legions) of the Roman Empire must be protected by a stronger neighbor place (having two legions). It is applicable to military and commercial decision-making problems. A Roman dominating function for a graph G = (V, E) is a function $f:V{\rightarrow}\{0,1,2\}$ such that every vertex v with f(v)=0 has at least a neighbor w in G for which f(w)=2. The Roman domination number of a graph is the minimum weight ${\sum}_{v{\in}V}\;f(v)$ of a Roman dominating function. In order to deal a problem of a Roman domination-type defensive strategy under multiple simultaneous attacks, ${\acute{A}}lvarez$-Ruiz et al. [1] initiated the study of a new parameter related to Roman dominating function, which is called strong Roman domination. ${\acute{A}}lvarez$-Ruiz et al. posed the following problem: Characterize the graphs G with equal strong Roman domination number and Roman domination number. In this paper, we construct a family of trees. We prove that for a tree, its strong Roman dominance number and Roman dominance number are equal if and only if the tree belongs to this family of trees.

공간 데이터의 분포를 고려한 공간 엔트로피 기반의 의사결정 트리 기법 (A Spatial Entropy based Decision Tree Method Considering Distribution of Spatial Data)

  • 장윤경;유병섭;이동욱;조숙경;배해영
    • 정보처리학회논문지B
    • /
    • 제13B권7호
    • /
    • pp.643-652
    • /
    • 2006
  • 의사결정 트리는 데이터 마이닝의 분류와 예측 작업에 주로 사용되는 기법 중의 하나이다. 실생활에서 공간의사결정을 위한 분류를 수행할 때에는 인접 데이터의 위치와 분산도를 고려하는 것이 매우 중요하다. 기존의 공간 의사결정 트리는 데이터의 공간적 특성을 표현하기 위해 각 객체간의 유클리디안 거리비율을 엔트로피로 반영하여 트리 구축 시 이용하였다. 그러나 이것은 공간 객체간의 거리 비율만을 설명할 뿐 공간 차원에서의 데이터 분산 정도와 각 분류된 클래스간의 연관관계 등은 파악할 수 없다는 한계점이 있었다 본 논문에서는 분산도와 차별도 기반의 공간 엔트로피를 이용하여 공간 데이터의 분포도를 반영하는 공간 의사결정 트리를 제안한다 분산도는 분류된 클래스 내의 공간 객체 분포도를 나타내고 차별도는 다른 클래스 내 공간 객체와의 분포도 및 관계성을 나타낸다. 이러한 분산도와 차별도의 비율을 엔트로피 계산 시 이용함으로써 비공간적 속성으로 분류된 각 클래스가 공간적으로는 얼마나 뚜렷하게 분류되는지 알 수 있게 한다. 제안 기법은 정확성과 계산 비용에 있어서 기존 기법보다 각각 약 18%, 11%의 성능 향상을 보였다.