• 제목/요약/키워드: Multivariate decision tree

검색결과 25건 처리시간 0.022초

연결강도분석접근법에 의한 부도예측용 인공신경망 모형의 입력노드 선정에 관한 연구 (Selection of Input Nodes in Artificial Neural Network for Bankruptcy Prediction by Link Weight Analysis Approach)

  • 이응규;손동우
    • 지능정보연구
    • /
    • 제7권2호
    • /
    • pp.19-33
    • /
    • 2001
  • 본 연구에서는 부도예측용 인공신경망의 입력노드 선정을 위한 휴리스틱으로 연결강도분석접근법을 제안한다. 연결강도분석은 학습이 끝난 인공신경망에서 입력노드와 은닉노드를 연결하는 연결가중치의 절대값 즉, 연결강도를 분석하여 입력변수를 선정하는 접근법으로, 선정기준에 따라 약체연결뉴론제거법과 강체연결뉴론선택법을 들 수 있다. 본 연구에서는 약체연결뉴론제거법, 강체연결뉴론선택법 그리고 이 두 기법을 통합한 통합 연결강도 모형을 제안하여 각각 의사결정트리 및 다변량판별분석에 의해 선정된 입력변수를 이용한 인공신경망 모형과 예측율을 비교한다. 실험 결과 본 연구에서 제안하고 있는 방법론이 의사결정트리나 다변량판별분석 기법보다 높은 예측율을 보여주었다. 특히 두 기법의 통합연결강도 모형의 경우에는 다른 단일 기법보다 높은 예측율을 보이고 있다.

  • PDF

신용평가를 위한 데이터마이닝 분류모형의 통합모형에 관한 연구 (A Study of the Integration of Individual Classification Model in Data Mining for the Credit Evaluation)

  • 김갑식
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.211-218
    • /
    • 2005
  • 본 연구는 금융기관에서의 고객신용평가를 위한 최적의 데이터마이닝 모형을 제안한다. 이를 위해 할부금융시장에서의 고객정보 및 할부진행 과정에 대한 세부 내역을 바탕으로 다계층 퍼셉트론(Multi-Layered Perceptrons:MLP)과 다변량 판별분석(Multivariate Discrimination Analysis : MDA), 그리고 의사결정나무(Decision Tree)를 적용하여 각각의 개별모형을 도출하고 이론 유전자 알고리즘을 이용하여 통합한 최종 모형을 구해 그 결과론 각 단일모형과 비교${\cdot}$분석하였다. 그 견과 유전자 알고리즘을 통해 결합한 통합모형의 성능이 가장 우수한 것으로 나타났다. 이에 본 연구는 기존에 진행되었던 개변모형에 대한 검증은 물론, 단순히 여러 개의 모형을 비교${\cdot}$분석하여 우월한 모형을 평가하는 기존 방법론 상의 한계를 극복하기 위해 각각의 개별모형을 유전자 알고리즘을 통해 통합모형으로 구축하는 하나의 방법론을 제시하였다는데 그 의의가 있다.

다변량 목표변수를 갖는 의사결정나무의 노드분리에 관한 연구 (A Study on the Node Split in Decision Tree with Multivariate Target Variables)

  • 김성준
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.386-390
    • /
    • 2003
  • 데이터마이닝은 많은 양의 데이터로부터 의사결정에 유용한 패턴을 발견하는 과정으로서 최근 경영 및 공학 분야의 폭넓은 영역에서 많은 관심을 모으고 있다. 어떤 그룹을 여러 하위그룹으로 분류해내는 일은 데이터마이닝의 주요 내용 중 하나이다. 의사결정나무로 알려진 트리기반 기법은 그러한 분류모형을 수립하는 데 효율적인 방안을 제공한다 트리학습에 있어서 우선적인 관건은 목표변수에 의해 측정되는 노드불순도를 최소화하는 것이다. 하지만 공정관측, 마케팅과학, 임상분석 등과 같은 문제에서는 여러 목표변수를 동시에 고려해야 하는 상황이 쉽게 등장하는 데, 본 논문의 목적은 이처럼 다변량 목표변수를 갖는 데이터셋에서 활용할 수 있는 노드불순도 측정방안을 제시하는 데 있다. 아울러 수치 예를 이용하여 적용결과에 대해 논의한다.

연속형 자료에 대한 나무형 군집화 (Tree-structured Clustering for Continuous Data)

  • 허명회;양경숙
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.661-671
    • /
    • 2005
  • 본 연구는 반복분할(recursive partitioning)에 의한 군집화 방법을 개발하고 활용 예를 보인다. 노드 분리 기준으로는 Overall R-Square를 채택하였고 실용적인 노드 분리 결정 방법을 제안하였다. 이 방법은 연속형 자료에 대하여 나무 형태의 해석하기 쉬운 단순한 규칙을 제공하면서 동시에 변수선택기능을 제공한다. 환용 예로서 Fisher의 붓꽃데이터와 Telecom 사례에 적용해 보았다. K-평균 군집화와 다른 몇 가지 사항이 관측되었다.

상황인지 환경 기반 유헬스 서비스의 추천 요인 식별 및 의사결정 모델 생성 (Context Aware Environment based U-Health Service of Recommendation Factors Identity and Decision-Making Model Creation)

  • 김재권;이영호
    • 디지털융복합연구
    • /
    • 제11권5호
    • /
    • pp.429-436
    • /
    • 2013
  • 상황인지 환경의 유헬스 서비스는 환자가 실생활에 접촉할 수 있는 여러 상황에 대해 컴퓨터가 인지하여 건강 서비스를 제공하는 것이다. 상황인지 환경의 서비스를 추천하기 위해서는 상황 데이터의 정의와 서비스 추천 요인과 관련이 있는지를 식별해야 한다. 본 논문에서는 상황인지 환경의 유헬스 서비스를 제공하기 위해 상황 데이터에 대한 추천 요인들을 다변량 분석기법을 이용하여 식별하며, 의사결정 트리 및 연관성 규칙 기반의 의사결정 모델을 생성한다. 추천 요인의 식별을 통해서 건강 서비스 제공에 유의한 상황 데이터를 판별할 수 있다. 또한 선호도 의사결정 모델을 통해 환자의 상황 데이터에 따라 선호 요인을 알 수 있다.

개선된 데이터마이닝을 위한 혼합 학습구조의 제시 (Hybrid Learning Architectures for Advanced Data Mining:An Application to Binary Classification for Fraud Management)

  • Kim, Steven H.;Shin, Sung-Woo
    • 정보기술응용연구
    • /
    • 제1권
    • /
    • pp.173-211
    • /
    • 1999
  • The task of classification permeates all walks of life, from business and economics to science and public policy. In this context, nonlinear techniques from artificial intelligence have often proven to be more effective than the methods of classical statistics. The objective of knowledge discovery and data mining is to support decision making through the effective use of information. The automated approach to knowledge discovery is especially useful when dealing with large data sets or complex relationships. For many applications, automated software may find subtle patterns which escape the notice of manual analysis, or whose complexity exceeds the cognitive capabilities of humans. This paper explores the utility of a collaborative learning approach involving integrated models in the preprocessing and postprocessing stages. For instance, a genetic algorithm effects feature-weight optimization in a preprocessing module. Moreover, an inductive tree, artificial neural network (ANN), and k-nearest neighbor (kNN) techniques serve as postprocessing modules. More specifically, the postprocessors act as second0order classifiers which determine the best first-order classifier on a case-by-case basis. In addition to the second-order models, a voting scheme is investigated as a simple, but efficient, postprocessing model. The first-order models consist of statistical and machine learning models such as logistic regression (logit), multivariate discriminant analysis (MDA), ANN, and kNN. The genetic algorithm, inductive decision tree, and voting scheme act as kernel modules for collaborative learning. These ideas are explored against the background of a practical application relating to financial fraud management which exemplifies a binary classification problem.

  • PDF

Discovering Relationships between Skin Type and Life Style Using Data Mining Techniques: A Case Study of Korea

  • Kim, Taeheung;Ha, Jihyun;Lee, Jong-Seok;Oh, Younhak;Cho, Yong Ju
    • Industrial Engineering and Management Systems
    • /
    • 제15권1호
    • /
    • pp.110-121
    • /
    • 2016
  • With the growing interest in skincare and maintenance, there are increasing numbers of studies on the classification of skin type and the factors influencing each type. This study presents a novel methodology by using data mining, for the determination of the relationships between skin type, lifestyle, and patterns of cosmetic utilization. Eight skin-specific factors, which are moisture, sebum in U-zone (both cheeks), sebum in T-zone (forehead, nose, and chin), pore, melanin, wrinkle, acne, hemoglobin, were measured in 1,246 subjects living in South Korea, in conjunction with a questionnaire survey analyzing their lifestyles and pattern of cosmetic utilization. Using various multivariate statistical methods and data mining techniques, we classified the skin types based on the skin-specific values, determined the relationship between skin type and lifestyle, and accordingly sorted the subjects into clusters. Logistic regression analysis revealed gender-related differences in the skin; therefore, separate analyses were performed for males and females. Using the Gaussian Mixture Modeling (GMM) technique, we classified the subjects based on skin type (two male and four female). Using the ANOVA and decision tree techniques, we attempted to characterize the relationship between each skin type and the lifestyles of the subjects. Menstruation, eating habits, stress, and smoking were identified as the major factors affecting the skin.

고혈압 예측을 위한 이상치 탐지 알고리즘 및 데이터 통합 기법 (An Outlier Detection Algorithm and Data Integration Technique for Prediction of Hypertension)

  • 홍고르출;김미혜 ;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.417-419
    • /
    • 2023
  • Hypertension is one of the leading causes of mortality worldwide. In recent years, the incidence of hypertension has increased dramatically, not only among the elderly but also among young people. In this regard, the use of machine-learning methods to diagnose the causes of hypertension has increased in recent years. In this study, we improved the prediction of hypertension detection using Mahalanobis distance-based multivariate outlier removal using the KNHANES database from the Korean national health data and the COVID-19 dataset from Kaggle. This study was divided into two modules. Initially, the data preprocessing step used merged datasets and decision-tree classifier-based feature selection. The next module applies a predictive analysis step to remove multivariate outliers using the Mahalanobis distance from the experimental dataset and makes a prediction of hypertension. In this study, we compared the accuracy of each classification model. The best results showed that the proposed MAH_RF algorithm had an accuracy of 82.66%. The proposed method can be used not only for hypertension but also for the detection of various diseases such as stroke and cardiovascular disease.

효율적인 신용평가를 위한 데이터마이닝 모형의 비교.분석에 관한 연구 (Study on the Comparison and Analysis of Data Mining Models for the Efficient Customer Credit Evaluation)

  • 김갑식
    • Journal of Information Technology Applications and Management
    • /
    • 제11권1호
    • /
    • pp.161-174
    • /
    • 2004
  • This study is intended to suggest1 the optimized data mining model for the efficient customer credit evaluation in the capital finance industry. To accomplish the research objective, various data mining models for the customer credit evaluation are compared and analyzed. Furthermore, existing models such as Multi-Layered Perceptrons, Multivariate Discrimination Analysis, Radial Basis Function, Decision Tree, and Logistic Regression are employed for analyzing the customer information in the capital finance market and the detailed data of capital financing transactions. Finally, the data from the integrated model utilizing a genetic algorithm is compared with those of each individual model mentioned above. The results reveals that the integrated model is superior to other existing models.

  • PDF

다변량 퍼지 의사결정트리의 적응 기법 (Adaptation method of multivariate fuzzy decision tree )

  • 전문진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.17-18
    • /
    • 2008
  • 다변량 퍼지 의사결정트리(이하 MFDT)는 학습 모델의 구조가 간소하고 분류율이 높다는 장점 때문에 일반 퍼지 의사결정트리를 대신해 손동작 인식 시스템의 분류기로 사용되었다. 다양한 사용자의 손동작 특성을 분류하기 위해 여러 개의 인식 모델을 만들고 새로운 사용자에게 가장 적합한 모델을 선택해 사용하는 모델 선택 기법도 손동작 인식에 적용되었다. 모델 선택 과정을 통해 선택된 모델은 기존 모델 중에서 새로운 사용자의 특성에 가장 가깝지만 해당 사용자에 최적화된 모델이라고는 할 수 없다. 이 논문에서는 MFDT 모델을 새로 입력된 데이터를 이용해 적응시키는 방법을 설명하고 실험 결과를 통해 적응 성능을 검증한다.