• 제목/요약/키워드: decision tree(C4.5)

검색결과 84건 처리시간 0.031초

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

Neural network rule extraction for credit scoring

  • Bart Baesens;Rudy Setiono;Lille, Valerina-De;Stijn Viaene
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.128-132
    • /
    • 2001
  • In this paper, we evaluate and contrast four neural network rule extraction approaches for credit scoring. Experiments are carried our on three real life credit scoring data sets. Both the continuous and the discretised versions of all data sets are analysed The rule extraction algorithms, Neurolonear, Neurorule. Trepan and Nefclass, have different characteristics, with respect to their perception of the neural network and their way of representing the generated rules or knowledge. It is shown that Neurolinear, Neurorule and Trepan are able to extract very concise rule sets or trees with a high predictive accuracy when compared to classical decision tree(rule) induction algorithms like C4.5(rules). Especially Neurorule extracted easy to understand and powerful propositional if -then rules for all discretised data sets. Hence, the Neurorule algorithm may offer a viable alternative for rule generation and knowledge discovery in the domain of credit scoring.

  • PDF

A Novel Feature Selection Method in the Categorization of Imbalanced Textual Data

  • Pouramini, Jafar;Minaei-Bidgoli, Behrouze;Esmaeili, Mahdi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.3725-3748
    • /
    • 2018
  • Text data distribution is often imbalanced. Imbalanced data is one of the challenges in text classification, as it leads to the loss of performance of classifiers. Many studies have been conducted so far in this regard. The proposed solutions are divided into several general categories, include sampling-based and algorithm-based methods. In recent studies, feature selection has also been considered as one of the solutions for the imbalance problem. In this paper, a novel one-sided feature selection known as probabilistic feature selection (PFS) was presented for imbalanced text classification. The PFS is a probabilistic method that is calculated using feature distribution. Compared to the similar methods, the PFS has more parameters. In order to evaluate the performance of the proposed method, the feature selection methods including Gini, MI, FAST and DFS were implemented. To assess the proposed method, the decision tree classifications such as C4.5 and Naive Bayes were used. The results of tests on Reuters-21875 and WebKB figures per F-measure suggested that the proposed feature selection has significantly improved the performance of the classifiers.

상호작용 영상 주석 기반 사용자 참여도 및 의도 인식 (Recognizing User Engagement and Intentions based on the Annotations of an Interaction Video)

  • 장민수;박천수;이대하;김재홍;조영조
    • 제어로봇시스템학회논문지
    • /
    • 제20권6호
    • /
    • pp.612-618
    • /
    • 2014
  • A pattern classifier-based approach for recognizing internal states of human participants in interactions is presented along with its experimental results. The approach includes a step for collecting video recordings of human-human interactions or humanrobot interactions and subsequently analyzing the videos based on human coded annotations. The annotation includes social signals directly observed in the video recordings and the internal states of human participants indirectly inferred from those observed social signals. Then, a pattern classifier is trained using the annotation data, and tested. In our experiments on human-robot interaction, 7 video recordings were collected and annotated with 20 social signals and 7 internal states. Several experiments were performed to obtain an 84.83% recall rate for interaction engagement, 93% for concentration intention, and 81% for task comprehension level using a C4.5 based decision tree classifier.

닫힌 빈발 패턴을 기반으로 한 특징 선택과 분류방법 비교 (A Comparative Study on Feature Selection and Classification Methods Using Closed Frequent Patterns Mining)

  • 장뢰;김성호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.148-151
    • /
    • 2010
  • 분류 기법은 데이터 마이닝 기술 중 가장 잘 알려진 방법으로서, Decision tree, SVM(Support Vector Machine), ANN(Artificial Neural Network) 등 기법을 포함한다. 분류 기법은 이미 알려진 상호 배반적인 몇 개 그룹에 속하는 다변량 관측치로부터 각각의 그룹이 어떤 특징을 가지고 있는지 분류 모델을 만들고, 소속 그룹이 알려지지 않은 새로운 관측치가 어떤 그룹에 분류될 것인가를 결정하는 분석 방법이다. 분류기법을 수행할 때에 기본적으로 특징 공간이 잘 표현되어 있다고 가정한다. 그러나 실제 응용에서는 단일 특징으로 구성된 특징공간이 분명하지 않기 때문에 분류를 잘 수행하지 못하는 문제점이 있다. 본 논문에서는 이 문제에 대한 해결방안으로써 많은 정보를 포함하면서 빈발패턴에 대한 정보의 순실이 없는 닫힌 빈발패턴 기반 분류에 대한 연구를 진행하였다. 본 실험에서는 ${\chi}^2$(Chi-square)과 정보이득(Information Gain) 속성 선택 척도를 사용하여 의미있는 특징 선택을 수행하였다. 그 결과, 이 연구에서 제시한 척도를 사용하여 특징 선택을 수행한 경우, C4.5, SVM 과 같은 분류기법보다 더 향상된 분류 성능을 보였다.

선박 탑승자를 위한 다중 센서 기반의 스마트폰을 이용한 활동 인식 시스템 (Activity Recognition of Workers and Passengers onboard Ships Using Multimodal Sensors in a Smartphone)

  • 라지브 쿠마 피야레;이성로
    • 한국통신학회논문지
    • /
    • 제39C권9호
    • /
    • pp.811-819
    • /
    • 2014
  • 상황 인식은 유비쿼터스컴퓨팅 환경에 대한 진화를 변화시켰고 무선 센서네트워크 기술은 많은 응용기기에 대한 새로운 방법을 제시하였다. 특히, 행동 인식은 사람의 응용서비스를 제공하는데 있어 특정 사용자의 상황을 인식하는 핵심 요소로 의학, 취미, 군사 분야에서 폭넓은 응용분야를 갖고 있고 사용반경의 확대에서도 효율과 정확도를 높이는 방법에 크게 기여한다. 스마트폰 센서로부터 나오는 데이터로부터 프레임이 512인셈플 데이터를 얻어, 프레임간50%의 오버랩을 갖도록 하고 Machine Learning Algorithm 인 WEKA Experimenter (University of Waikato, Version 3.6.10)을 써서 데이더로부터 시간영역 특징값을 추출함으로써 행동 인식에 대한 99.33%의 정확도를 얻을 수 있었다. 또한, WEKA Experimenter의 사용기법인 C4.5 Decision Tree과 다른 방법인 BN, NB, SMO or Logistic Regression간의 비교실험을 하였다.

HACCP의 적용을 위한 피자 전문 레스토랑의 위생관리 기준 설정 -피자생산을 중심으로- (Establishment of Hygienic Standards for Pizza Restaurant Based on HACCP Concept -Focused on Pizza Production-)

  • 이복희;허경숙;김인호
    • 한국식품과학회지
    • /
    • 제36권1호
    • /
    • pp.174-182
    • /
    • 2004
  • Hygienic standards for pizza specialty restaurant located in Seoul during summer, 2000 were established based on HACCP concept by measuring temperature, time, pH, $A_{w}$ and microbiological assessments of pizza, and evaluation of hygienic conditions of kitchens and workers. Kitchen and worker conditions were average 1.2 and 1.0 (3 point Sly's scale), respectively, Microbial contaminations occurred at $5-60^{\circ}C$, pH above 5.0, and $A_{w}$ (0.93-0.98). Microbial assessments for pizza processing revealed $1.5{\times}10^{2}-3.9{\times}10^{8}\;CFU/g$ of TPC and $0.5{\times}10^{1}-1.6{\times}10^{7}\;CFU/g$ of coliforms, exceeding standards ($TPC\;10^{6}\;CFU/g\;and\;coliform\;10^{3}\;CFU/g$) established by Solberg et al., although significantly decreased after baking. S. aureus was not discovered, but Salmonella was found in onions. Tools and containers such as pizza cutting knife, topping container, serving bowl, pizza plate, working board, and dough kneading board contained $6.2{\times}10^{2}-1.1{\times}10^{9}\;CFU/g$ of TPC, $2.0{\times}10^{1}-6.2{\times}10^{3}\;CFU/g$ of coliforms. Workers' hands contained $3.1{\times}10^{4}\;CFU/g$ of TPC and S. aureus as compared to safety standards of Harrigan and McCance (500 and 10 CFU/g of TPC and coliforms per $100cm^{2}$). CCPs (critical control points) were determined as receiving, topping, and baking according to CCP decision tree analysis. Results suggest purchase of quality materials, careful monitoring of time and temperature, hygienic use of tools and utensils, and sanitary practicer by workers are recommended as control points for safe pizza production.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

FAFS: A Fuzzy Association Feature Selection Method for Network Malicious Traffic Detection

  • Feng, Yongxin;Kang, Yingyun;Zhang, Hao;Zhang, Wenbo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권1호
    • /
    • pp.240-259
    • /
    • 2020
  • Analyzing network traffic is the basis of dealing with network security issues. Most of the network security systems depend on the feature selection of network traffic data and the detection ability of malicious traffic in network can be improved by the correct method of feature selection. An FAFS method, which is short for Fuzzy Association Feature Selection method, is proposed in this paper for network malicious traffic detection. Association rules, which can reflect the relationship among different characteristic attributes of network traffic data, are mined by association analysis. The membership value of association rules are obtained by the calculation of fuzzy reasoning. The data features with the highest correlation intensity in network data sets are calculated by comparing the membership values in association rules. The dimension of data features are reduced and the detection ability of malicious traffic detection algorithm in network is improved by FAFS method. To verify the effect of malicious traffic feature selection by FAFS method, FAFS method is used to select data features of different dataset in this paper. Then, K-Nearest Neighbor algorithm, C4.5 Decision Tree algorithm and Naïve Bayes algorithm are used to test on the dataset above. Moreover, FAFS method is also compared with classical feature selection methods. The analysis of experimental results show that the precision and recall rate of malicious traffic detection in the network can be significantly improved by FAFS method, which provides a valuable reference for the establishment of network security system.

데이터마이닝을 활용한 소프트웨어 개발인력의 업무 지속수행의도 결정요인 분석 (A Study of Factors Associated with Software Developers Job Turnover)

  • 전인호;박선웅;박윤주
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.191-204
    • /
    • 2015
  • 국내 소프트웨어(SW) 개발인력의 미충원율은 매우 높으며, 특히 2년 이상의 현장경력이 있는 고급 개발자의 부족문제는 심각하다. 최근 정부도 이를 인식하고, 정책적으로 SW개발 신규인력 양성에 힘을 기울이고 있다. 그러나, 이러한 노력은 초급개발자의 수급문제를 해결하는데 효과적일 수 있지만, 업계에서 요구하는 고급 개발자의 부족현상을 해결하는 근본적인 대책으로 인식되지는 못하고 있다. SW 전문개발자를 양성하기 위해서는 초급개발자들이 지속적으로 직무를 수행하여 풍부한 업무경험을 갖춘 고급 개발자로 성장해야 하기 때문이다. 이에, 본 연구는 국내 SW업체에서 근무하고 있는 개발관련 인력들의 업무 지속수행 의도를 조사하고, 이에 영향을 주는 주요요인들을 분석하였다. 이를 위해, 2014년 9월부터 10월까지 국내 SW업체에 근무하고 있는 현직 개발자 총 130명을 대상으로 설문조사를 수행하였으며, 이를 기반으로 SW개발업무 지속수행의도 및 이에 영향을 주는 요인들을 개발자의 특성, 직무환경, 그리고 SW개발자에 대한 사회적 인식 및 산업전망 등의 측면에서 분석하였다. 분석에는 데이터마이닝 기법들 중에서, 분석과정에서의 설명능력이 있는 회귀분석과 의사결정나무가 사용되었다. 회귀분석 결과, SW개발자가 스스로 인식하는 근무 가능한 연령이 높을수록, 내성적인 성향을 가질수록, 또한 적성에 맞아서 직무를 선택한 경우, 지속적 직무 수행 의도가 높은 것으로 나타났다. 이와 더불어, 선형회귀분석에서는 유의하지 않았으나, 규칙기반의 의사결정나무 분석에서 파악된 추가적 요인으로, 새로운 기술에 대한 학습능력 및 SW산업에 대한 전망이 직무 지속수행의도에 영향을 미치는 것으로 나타났다. 이러한 연구결과는 기업의 인적자원관리 및 고급 SW인력 양성정책에 활용될 수 있을 것으로 생각되며, 궁극적으로 SW개발인력의 직무 지속성을 증진시키는 데 기여할 수 있을 것으로 기대된다.