• 제목/요약/키워드: feature subset selection

검색결과 85건 처리시간 0.027초

유전 알고리즘 기반의 비정상 행위 탐지를 위한 특징선택 (Feature Selection for Anomaly Detection Based on Genetic Algorithm)

  • 서재현
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.1-7
    • /
    • 2018
  • 데이터 전처리 기법 중 하나인 특징 선택은 대규모 데이터셋을 다루는 다양한 응용분야에서 주요 연구 분야 중 하나로 각광받고 있다. 특징 선택은 패턴 인식, 기계학습 및 데이터 마이닝에서 사용됐고, 최근에는 텍스트 분류, 이미지 검색, 침입 탐지 및 게놈 분석과 같은 다양한 분야에 널리 적용되고 있다. 제안 방법은 메타 휴리스틱 알고리즘 중의 하나인 유전 알고리즘을 기반으로 한다. 특징 부분 집합을 찾는 방법은 크게 필터(filter) 방법과 래퍼(wrapper) 방법이 있는데, 본 연구에서는 최적의 특징 부분 집합을 찾기 위해 실제 분류기를 사용한 평가를 하는 래퍼 방법을 사용한다. 실험에 사용한 훈련 데이터셋은 클래스 불균형이 심하여 희소클래스에 대한 분류 성능을 높이기 어렵다. SMOTE 기법을 적용한 훈련 데이터셋을 사용하여 특징 선택을 하고 다양한 기계학습 알고리즘을 사용하여 선택한 특징들의 성능을 평가한다.

특징 선택 방법들의 성능 비교 분석에 대한 연구 (An Experimental Study on Feature Subset Selection Methods)

  • 윤철민;양지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.439-442
    • /
    • 2007
  • 패턴 인식의 성능 향상을 위해 효율적인 특징 선택을 해주는 것은 중요한 과정 중 하나이다. 본 연구에서는 최근에 제시되었던 특징 선택 방법들 중 대표적인 4 가지의 방법을 선택하여 성능을 비교 분석하였다. 데이터의 특징을 줄여주는 기능과 적은 수의 특징으로 더 좋은 패턴 인식 성능을 보여주는 기능의 수행 능력을 중심으로 평가하였으며, 각기 다른 형태의 데이터에 대해 각 방법들이 보이는 성능도 관찰하였다. 이를 토대로 각 방법의 장단점과 특징에 대해 생각해 본다.

  • PDF

생태계 모방 알고리즘을 이용한 특징 선택 방법들의 성능 비교 분석에 대한 연구 (An Experimental Comparison of Feature Subset Selection Methods using Bio-Inspired Algorithms)

  • 윤철민;양지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.27-29
    • /
    • 2007
  • 패턴 인식 문제를 푸는데 있어 특징 선택을 해주는 것은 패턴 인식의 성능 향상을 위해 중요한 과정 중 하나이다. 본 연구에서는 대표적인 생태계 모방 알고리즘 2 가지를 선택하여 특징 선택 문제에 적용하여 보고, 그 성능을 비교 분석하였다. 데이터의 특징을 줄여주는 기능과 패턴 인식 성능의 향상 여부를 중심으로 평가하였으며, 이를 통해 생태계 모방 알고리즘이 특징 선택 문제에 효과적으로 사용될 수 있는지에 대해 논의해보고, 두 방법의 장단점과 특징에 대해 생각해 본다.

  • PDF

특징 래핑을 통한 숫자형 특징과 범주형 특징이 혼합된 데이터의 클래스 분류 성능 향상 기법 (Improving Classification Performance for Data with Numeric and Categorical Attributes Using Feature Wrapping)

  • 이재성;김대원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권12호
    • /
    • pp.1024-1027
    • /
    • 2009
  • 본 논문에서는 혼합형 데이터에 대한 특징 선별 기법의 효율성을 비교하기 위해 특징 필터링과 특징 래핑을 통한 특징 선별 후, 클래스 분류 성능을 측정하였다. 혼합형 데이터는 숫자형 특징과 범주형 특징이 함께 혼합되어 있으므로, 숫자형 특징을 범주형 특징으로 이산화를 하여 단일형 데이터로 변환한 뒤 특징 선별 기법 등을 적용할 수 있다. 본 연구에서는 혼합형 데이터를 전처리하여 단일형 데이터로 변환하고, 널리 활용되는 특징 필터링 기법과 특징 래핑 기법을 통해 클래스 분류 성능을 높일 수 있는 특징 집합을 선별하였다. 선별된 특징 집합을 통한 클래스 분류 성능을 비교한 결과, 특징 필터링에 비해 특징 래핑을 통해 선별한 특징 집합을 활용하여 클래스 분류를 하였을 때 분류 정확도가 높은 것을 확인할 수 있었다.

냉연 표면 흠 분류를 위한 특징선정 및 이진 트리 분류기의 설계에 관한 연구 (A Study on The Feature Selection and Design of a Binary Decision Tree for Recognition of The Defect Patterns of Cold Mill Strip)

  • 이병진;류경;박귀태;김경민
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2330-2332
    • /
    • 1998
  • This paper suggests a method to recognize the various defect patterns of cold mill strip using binary decision tree automatically constructed by genetic algorithm. The genetic algorithm and K-means algorithm were used to select a subset of the suitable features at each node in binary decision tree. The feature subset with maximum fitness is chosen and the patterns are classified into two classes by a linear decision boundary. This process was repeated at each node until all the patterns are classified into individual classes. The final recognizer is accomplished by neural network learning of a set of standard patterns at each node. Binary decision tree classifier was applied to the recognition of the defect patterns of cold mill strip and the experimental results were given to demonstrate the usefulness of the proposed scheme.

  • PDF

유전자 알고리즘을 이용한 다분류 SVM의 최적화: 기업신용등급 예측에의 응용 (Optimization of Multiclass Support Vector Machine using Genetic Algorithm: Application to the Prediction of Corporate Credit Rating)

  • 안현철
    • 경영정보학연구
    • /
    • 제16권3호
    • /
    • pp.161-177
    • /
    • 2014
  • 기업신용등급은 금융시장의 신뢰를 구축하고 거래를 활성화하는데 있어 매우 중요한 요소로서, 오래 전부터 학계에서는 보다 정확한 기업신용등급 예측을 가능케 하는 다양한 모형들을 연구해 왔다. 구체적으로 다중판별분석(Multiple Discriminant Analysis, MDA)이나 다항 로지스틱 회귀분석(multinomial logistic regression analysis, MLOGIT)과 같은 통계기법을 비롯해, 인공신경망(Artificial Neural Networks, ANN), 사례기반추론(Case-based Reasoning, CBR), 그리고 다분류 문제해결을 위해 확장된 다분류 Support Vector Machines(Multiclass SVM)에 이르기까지 다양한 기법들이 학자들에 의해 적용되었는데, 최근의 연구결과들에 따르면 이 중에서도 다분류 SVM이 가장 우수한 예측성과를 보이고 있는 것으로 보고되고 있다. 본 연구에서는 이러한 다분류 SVM의 성능을 한 단계 더 개선하기 위한 대안으로 유전자 알고리즘(GA, Genetic Algorithm)을 활용한 최적화 모형을 제안한다. 구체적으로 본 연구의 제안모형은 유전자 알고리즘을 활용해 다분류 SVM에 적용되어야 할 최적의 커널 함수 파라미터값들과 최적의 입력변수 집합(feature subset)을 탐색하도록 설계되었다. 실제 데이터셋을 활용해 제안모형을 적용해 본 결과, MDA나 MLOGIT, CBR, ANN과 같은 기존 인공지능/데이터마이닝 기법들은 물론 지금까지 가장 우수한 예측성과를 보이는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안모형이 더 우수한 예측성과를 보임을 확인할 수 있었다.

새로운 얼굴 특징공간을 이용한 모델 기반 얼굴 표정 인식 (Model based Facial Expression Recognition using New Feature Space)

  • 김진옥
    • 정보처리학회논문지B
    • /
    • 제17B권4호
    • /
    • pp.309-316
    • /
    • 2010
  • 본 연구에서는 얼굴 그리드 각도를 특징공간으로 하는 새로운 모델 기반 얼굴 표정 인식 방법을 제안한다. 제안 방식은 6가지 얼굴 대표 표정을 인식하기 위해 표정 그리드를 이용하여 그리드의 각 간선과 정점이 형성하는 각도를 기반으로 얼굴 특징 공간을 구성한다. 이 방법은 다른 표정 인식 알고리즘의 정확도를 낮추는 원인인 변환, 회전, 크기변화와 같은 어파인 변환에 강건한 특징을 보인다. 또한, 본 연구에서는 각도로 특징공간을 구성하고 이 공간 내에서 Wrapper 방식으로 특징 부분집합을 선택하는 과정을 설명한다. 선택한 특징들은 SVM, 3-NN 분류기를 이용해 분류하고 분류 결과는 2중 교차검증을 통해 검증하도록 한다. 본 연구가 제안한 방법에서는 94%의 표정 인식 결과를 보였으며 특히 특징 부분집합 선택 알고리즘을 적용한 결과 전체 특징을 이용한 경우보다 약 10%의 인식율 개선 효과를 보인다.

균형 표본 유전 알고리즘과 극한 기계학습에 기반한 바이오표지자 검출기와 파킨슨 병 진단 접근법 (Bio-marker Detector and Parkinson's disease diagnosis Approach based on Samples Balanced Genetic Algorithm and Extreme Learning Machine)

  • ;;최용수
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권6호
    • /
    • pp.509-521
    • /
    • 2016
  • 본 논문에서는 파킨슨 병 진단 및 바이오 표지자 검출을 위한 극한 기계학습을 결합하는 새로운 균형 표본 유전 알고리즘(SBGA-ELM)을 제안하였다. 접근법은 정확한 파킨슨 병 진단 및 바이오 표지자 검출을 위해 공개 파킨슨 병 데이터베이스로부터 22,283개의 유전자의 발현 데이터를 사용하며 다음의 두 가지 주요 단계를 포함하였다 : 1. 특징(유전자) 선택과 2. 분류단계이다. 특징 선택 단계에서는 제안된 균형 표본 유전 알고리즘에 기반하고 파킨스병 데이터베이스(ParkDB)의 유전자 발현 데이터를 위해 고안되었다. 제안된 제안 된 SBGA는 추가적 분석을 위해 ParkDB에서 활용 가능한 22,283개의 유전자 중에서 강인한 서브셋을 찾는다. 특징분류 단계에서는 정확한 파킨슨 병 진단을 위해 선택된 유전자 세트가 극한 기계학습의 훈련에 사용된다. 발견 된 강인한 유전자 서브세트는 안정된 일반화 성능으로 파킨슨 병 진단을 할 수 있는 ELM 분류기를 생성하게 된다. 제안된 연구에서 강인한 유전자 서브셋은 파킨슨병을 관장할 것으로 예측되는 24개의 바이오 표지자를 발견하는 데도 사용된다. 논문을 통해 발견된 강인 유전자 하위 집합은 SVM이나 PBL-McRBFN과 같은 기존의 파킨슨 병 진단 방법들을 통해 검증되었다. 실시된 두 가지 방법(SVM과 PBL-McRBFN)에 대해 모두 최대 일반화 성능을 나타내었다.

Network Anomaly Detection using Hybrid Feature Selection

  • 김은혜;김세현
    • 한국정보보호학회:학술대회논문집
    • /
    • 한국정보보호학회 2006년도 하계학술대회
    • /
    • pp.649-653
    • /
    • 2006
  • In this paper, we propose a hybrid feature extraction method in which Principal Components Analysis is combined with optimized k-Means clustering technique. Our approach hierarchically reduces the redundancy of features with high explanation in principal components analysis for choosing a good subset of features critical to improve the performance of classifiers. Based on this result, we evaluate the performance of intrusion detection by using Support Vector Machine and a nonparametric approach based on k-Nearest Neighbor over data sets with reduced features. The Experiment results with KDD Cup 1999 dataset show several advantages in terms of computational complexity and our method achieves significant detection rate which shows possibility of detecting successfully attacks.

  • PDF

A Hybrid PSO-BPSO Based Kernel Extreme Learning Machine Model for Intrusion Detection

  • Shen, Yanping;Zheng, Kangfeng;Wu, Chunhua
    • Journal of Information Processing Systems
    • /
    • 제18권1호
    • /
    • pp.146-158
    • /
    • 2022
  • With the success of the digital economy and the rapid development of its technology, network security has received increasing attention. Intrusion detection technology has always been a focus and hotspot of research. A hybrid model that combines particle swarm optimization (PSO) and kernel extreme learning machine (KELM) is presented in this work. Continuous-valued PSO and binary PSO (BPSO) are adopted together to determine the parameter combination and the feature subset. A fitness function based on the detection rate and the number of selected features is proposed. The results show that the method can simultaneously determine the parameter values and select features. Furthermore, competitive or better accuracy can be obtained using approximately one quarter of the raw input features. Experiments proved that our method is slightly better than the genetic algorithm-based KELM model.