• 제목/요약/키워드: TREE FEATURE

검색결과 365건 처리시간 0.024초

Relevancy contemplation in medical data analytics and ranking of feature selection algorithms

  • P. Antony Seba;J. V. Bibal Benifa
    • ETRI Journal
    • /
    • 제45권3호
    • /
    • pp.448-461
    • /
    • 2023
  • This article performs a detailed data scrutiny on a chronic kidney disease (CKD) dataset to select efficient instances and relevant features. Data relevancy is investigated using feature extraction, hybrid outlier detection, and handling of missing values. Data instances that do not influence the target are removed using data envelopment analysis to enable reduction of rows. Column reduction is achieved by ranking the attributes through feature selection methodologies, namely, extra-trees classifier, recursive feature elimination, chi-squared test, analysis of variance, and mutual information. These methodologies are ranked via Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) using weight optimization to identify the optimal features for model building from the CKD dataset to facilitate better prediction while diagnosing the severity of the disease. An efficient hybrid ensemble and novel similarity-based classifiers are built using the pruned dataset, and the results are thereafter compared with random forest, AdaBoost, naive Bayes, k-nearest neighbors, and support vector machines. The hybrid ensemble classifier yields a better prediction accuracy of 98.31% for the features selected by extra tree classifier (ETC), which is ranked as the best by TOPSIS.

Opcode와 IAT를 활용한 PE 파일 악성코드 탐지 (PE file malware detection using opcode and IAT)

  • 이정훈;강아름
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.103-106
    • /
    • 2023
  • 코로나 팬데믹 사태로 인해 업무환경이 재택근무를 하는 환경으로 바뀌고 악성코드의 변종 또한 빠르게 발전하고 있다. 악성코드를 분석하고 백신 프로그램을 만들면 새로운 변종 악성코드가 생기고 변종에 대한 백신프로그램이 만들어 질 때까지 변종된 악성코드는 사용자에게 위협이 된다. 본 연구에서는 머신러닝 알고리즘을 사용하여 악성파일 여부를 예측하는 방법을 제시하였다. 일반적인 악성코드의 구조를 갖는 Portable Executable 구조 파일을 파이썬의 LIEF 라이브러리를 사용하여 Certificate, Imports, Opcode 등 3가지 feature에 대해 정적분석을 하였다. 학습 데이터로는 정상파일 320개와 악성파일 530개를 사용하였다. Certificate는 hasSignature(디지털 서명정보), isValidcertificate(디지털 서명의 유효성), isNotExpired(인증서의 유효성)의 feature set을 사용하고, Imports는 Import Address Table의 function 빈도수를 비교하여 feature set을 구축하였다. Opcode는 tri-gram으로 추출하여 빈도수를 비교하여 feature set을 구축하였다. 테스트 데이터로는 정상파일 360개 악성파일 610개를 사용하였으며 Feature set을 사용하여 random forest, decision tree, bagging, adaboost 등 4가지 머신러닝 알고리즘을 대상으로 성능을 비교하였고, bagging 알고리즘에서 약 0.98의 정확도를 보였다.

  • PDF

WorldView-2 위성영상의 분광지수를 이용한 개체 추출 연구 (A Study on the Feature Extraction Using Spectral Indices from WorldView-2 Satellite Image)

  • 김혜진;김용일;이병길
    • 한국측량학회지
    • /
    • 제33권5호
    • /
    • pp.363-371
    • /
    • 2015
  • 개체 추출은 원격탐사 분야의 주된 연구분야 중 하나로, 고해상도 위성영상의 활용도가 높아짐에 따라 보다 세밀하고 특정적인 개체를 추출할 수 있게 되었다. 기존의 화소 기반의 영상 처리 기법들은 고해상도 위성영상의 분광 및 기하학적인 다양성과 복잡성을 제대로 반영하기 어렵기 때문에 근래에는 영상분할 기술을 기반으로 하는 많은 연구가 진행되고 있다. 그런데 단순히 RGB 밴드 영상에 한 가지 영상분할 기법을 적용하는 것으로는 다양한 분광 특성과 형태를 갖는 여러 대상 개체들을 추출하는데 한계가 있다. 지표면의 피복의 종류를 식별하고, 상태를 모니터링 하는데 효과적인 분광지수는 개체 추출 과정에 효율적으로 이용할 수 있다. 본 연구에서는 영상분할 기술을 기반으로 하여 분광지수를 이용한 보다 효과적인 개체 추출 기술을 제안하고자 하였다. 다양한 종류의 개체를 추출하기 위하여 의사결정 트리 분류 기술을 사용하였으며 고해상도 위성인 WorldView-2의 8밴드 다중분광 영상을 이용한 실험을 통해 각 대상 개체를 추출하기에 적합한 분광지수들을 선택하고 이의 효용성을 평가해보고자 하였다. 그 결과, 건물, 도로, 나지, 식생, 수계, 그림자의 6개 클래스에 대한 개체들을 선택적으로 분류할 수 있었고, 식생지수를 비롯한 다양한 분광지수들이 각 개체의 종류를 선별해내는데 효과적으로 사용될 수 있음을 확인하였다.

Generation of Pattern Classifiers Based on Linear Nongroup CA

  • Choi, Un-Sook;Cho, Sung-Jin;Kim, Han-Doo
    • 한국멀티미디어학회논문지
    • /
    • 제18권11호
    • /
    • pp.1281-1288
    • /
    • 2015
  • Nongroup Cellular Automata(CA) having two trees in the state transition diagram of a CA is suitable for pattern classifier which divides pattern set into two classes. Maji et al. [1] classified patterns by using multiple attractor cellular automata as a pattern classifier with dependency vector. In this paper we propose a method of generation of a pattern classifier using feature vector which is the extension of dependency vector. In addition, we propose methods for finding nonreachable states in the 0-tree of the state transition diagram of TPMACA corresponding to the given feature vector for the analysis of the state transition behavior of the generated pattern classifier.

무인지상차량의 전역경로계획을 위한 지형정보 분석 시스템 (A Terrain Analysis System for Global Path Planning of Unmanned Ground Vehicle)

  • 박원익;이호주;김도종
    • 한국군사과학기술학회지
    • /
    • 제16권5호
    • /
    • pp.583-589
    • /
    • 2013
  • In this paper, we proposed a system that efficiently provides support maps which includes the grid based terrain analysis information. To do this, we use the FDB which is defined as a GIS database that contains features with attributes attached to the features. The FDB is composed of a number of features and feature classes. In order to create support maps, it is necessary to classify feature classes that are associated with each support map and to search them in a grid map. The proposed system use a ontology model to classify semantically feature classes and the quad-tree data structure to find them in a grid map quickly. Therefore, our system is expected to be utilized for global path planning of UGV. In this paper, we show the possibility through an experimental implementation.

Shape Feature Extraction technique for Content-Based Image Retrieval in Multimedia Databases

  • Kim, Byung-Gon;Han, Joung-Woon;Lee, Jaeho;Haechull Lim
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.869-872
    • /
    • 2000
  • Although many content-based image retrieval systems using shape feature have tried to cover rotation-, position- and scale-invariance between images, there have been problems to cover three kinds of variance at the same time. In this paper, we introduce new approach to extract shape feature from image using MBR(Minimum Bounding Rectangle). The proposed method scans image for extracting MBR information and, based on MBR information, compute contour information that consists of 16 points. The extracted information is converted to specific values by normalization and rotation. The proposed method can cover three kinds of invariance at the same time. We implemented our method and carried out experiments. We constructed R*_tree indexing structure, perform k-nearest neighbor search from query image, and demonstrate the capability and usefulness of our method.

  • PDF

개선된 데이터마이닝을 위한 혼합 학습구조의 제시 (Hybrid Learning Architectures for Advanced Data Mining:An Application to Binary Classification for Fraud Management)

  • Kim, Steven H.;Shin, Sung-Woo
    • 정보기술응용연구
    • /
    • 제1권
    • /
    • pp.173-211
    • /
    • 1999
  • The task of classification permeates all walks of life, from business and economics to science and public policy. In this context, nonlinear techniques from artificial intelligence have often proven to be more effective than the methods of classical statistics. The objective of knowledge discovery and data mining is to support decision making through the effective use of information. The automated approach to knowledge discovery is especially useful when dealing with large data sets or complex relationships. For many applications, automated software may find subtle patterns which escape the notice of manual analysis, or whose complexity exceeds the cognitive capabilities of humans. This paper explores the utility of a collaborative learning approach involving integrated models in the preprocessing and postprocessing stages. For instance, a genetic algorithm effects feature-weight optimization in a preprocessing module. Moreover, an inductive tree, artificial neural network (ANN), and k-nearest neighbor (kNN) techniques serve as postprocessing modules. More specifically, the postprocessors act as second0order classifiers which determine the best first-order classifier on a case-by-case basis. In addition to the second-order models, a voting scheme is investigated as a simple, but efficient, postprocessing model. The first-order models consist of statistical and machine learning models such as logistic regression (logit), multivariate discriminant analysis (MDA), ANN, and kNN. The genetic algorithm, inductive decision tree, and voting scheme act as kernel modules for collaborative learning. These ideas are explored against the background of a practical application relating to financial fraud management which exemplifies a binary classification problem.

  • PDF

다중 분기 트리와 ASSL을 결합한 오픈 셋 물체 검출 (Open set Object Detection combining Multi-branch Tree and ASSL)

  • 신동균;민하즈 우딘 아흐메드;김진우;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.171-177
    • /
    • 2018
  • 최근 많은 이미지 데이터 셋들은 일반적인 특성을 추출하기 위한 다양한 데이터 클래스와 특징을 가지고 있다. 하지만 이러한 다양한 데이터 클래스와 특징으로 인해 해당 데이터 셋으로 훈련된 물체 검출 딥러닝 모델은 데이터 특성이 다른 환경에서 좋은 성능을 내지 못하는 단점을 보인다. 이 논문에서는 하위 카테고리 기반 물체 검출 방법과 오픈셋 물체 검출 방법을 이용하여 이를 극복하고, 강인한 물체 검출 딥러닝 모델을 훈련하기 위해 능동 준지도 학습 (Active Semi-Supervised Learning)을 이용한 다중 분기 트리 구조를 제안한다. 우리는 이 구조를 이용함으로써 데이터 특성이 다른 환경에서 적응할 수 있는 모델을 가질 수 있고, 나아가 이 모델을 이용하여 이전의 모델보다 높은 성능을 확보 할 수 있다.

피처 트리와 매크로 파일을 이용하는 하이브리드 파라메트릭 번역기 (A Hybrid Parametric Translator Using the Feature Tree and the Macro File)

  • 문두환;김병철;한순흥
    • 한국CDE학회논문집
    • /
    • 제7권4호
    • /
    • pp.240-247
    • /
    • 2002
  • Most commercial CAD systems provide parametric modeling functions, and by using these capabilities designers can edit a CAD model in order to create design variants. It is necessary to transfer parametric information during a CAD model exchange to modify the model inside the receiving system. However, it is not possible to exchange parametric information of CAD models based on the cur-rent version of STEP. The designer intents which are contained in the parametric information can be lost during the STEP transfer of CAD models. This paper introduces a hybrid CAB model translator, which also uses the feature tree of commercial CAD systems in addition to the macro file to allow transfer of parametric information. The macro-parametric approach is to exchange CAD models by using the macro file, which contains the history of user commands. To exchange CAD models using the macro-parametric approach, the modeling commands of several commercial CAD systems are analyzed. Those commands are classified and a set of standard modeling commands has been defined. As a neutral fie format, a set of standard modeling commands has been defined. Mapping relations between the standard modeling commands set and the native modeling commands set of commercial CAD systems are defined. The scope of the current version is limited to parts modeling and assemblies are excluded.

SOM의 통계적 특성과 다중 스케일 Bayesian 영상 분할 기법을 이용한 텍스쳐 분할 (Texture Segmentation Using Statistical Characteristics of SOM and Multiscale Bayesian Image Segmentation Technique)

  • 김태형;엄일규;김유신
    • 대한전자공학회논문지SP
    • /
    • 제42권6호
    • /
    • pp.43-54
    • /
    • 2005
  • 이본 논문에서는 Bayesian 영상 분할법과 SOM(Self Organization feature Map)을 이용한 텍스쳐(Texture) 분할 방법을 제안한다. SOM의 입력으로 다중 스케일에서의 웨이블릿 계수를 사용하고, 훈련된 SOM으로부터 관측 데이터에 대한 우도(尤度, likelihood)와 사후확률을 구하는 방법을 제시한다. 훈련된 SOM들로부터 구한 사후확률과 MAP(Maximum A Posterior) 분류법을 이용하여 텍스쳐 분할을 얻는다. 그리고 문맥 정보를 이용하여 텍스쳐 분할 결과를 개선하였다. 제안 방법은 HMT(Hidden Markov Tree)을 이용한 텍스쳐 분할보다 더 우수한 결과를 보여준다. 또한 SOM과 HMTseg라고 불리는 다중스케일 Bayesian 영상 분할 기법을 이용한 텍스쳐 분할 결과는 HMT와 HMTseg을 이용한 결과보다 더 우수한 성능을 보여준다.