• 제목/요약/키워드: Subset selection problem

검색결과 40건 처리시간 0.023초

Auxiliary domain method for solving multi-objective dynamic reliability problems for nonlinear structures

  • Katafygiotis, Lambros;Moan, Torgeir;Cheungt, Sai Hung
    • Structural Engineering and Mechanics
    • /
    • 제25권3호
    • /
    • pp.347-363
    • /
    • 2007
  • A novel methodology, referred to as Auxiliary Domain Method (ADM), allowing for a very efficient solution of nonlinear reliability problems is presented. The target nonlinear failure domain is first populated by samples generated with the help of a Markov Chain. Based on these samples an auxiliary failure domain (AFD), corresponding to an auxiliary reliability problem, is introduced. The criteria for selecting the AFD are discussed. The emphasis in this paper is on the selection of the auxiliary linear failure domain in the case where the original nonlinear reliability problem involves multiple objectives rather than a single objective. Each reliability objective is assumed to correspond to a particular response quantity not exceeding a corresponding threshold. Once the AFD has been specified the method proceeds with a modified subset simulation procedure where the first step involves the direct simulation of samples in the AFD, rather than standard Monte Carlo simulation as required in standard subset simulation. While the method is applicable to general nonlinear reliability problems herein the focus is on the calculation of the probability of failure of nonlinear dynamical systems subjected to Gaussian random excitations. The method is demonstrated through such a numerical example involving two reliability objectives and a very large number of random variables. It is found that ADM is very efficient and offers drastic improvements over standard subset simulation, especially when one deals with low probability failure events.

Effective Multi-label Feature Selection based on Large Offspring Set created by Enhanced Evolutionary Search Process

  • Lim, Hyunki;Seo, Wangduk;Lee, Jaesung
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권9호
    • /
    • pp.7-13
    • /
    • 2018
  • Recent advancement in data gathering technique improves the capability of information collecting, thus allowing the learning process between gathered data patterns and application sub-tasks. A pattern can be associated with multiple labels, demanding multi-label learning capability, resulting in significant attention to multi-label feature selection since it can improve multi-label learning accuracy. However, existing evolutionary multi-label feature selection methods suffer from ineffective search process. In this study, we propose a evolutionary search process for the task of multi-label feature selection problem. The proposed method creates large set of offspring or new feature subsets and then retains the most promising feature subset. Experimental results demonstrate that the proposed method can identify feature subsets giving good multi-label classification accuracy much faster than conventional methods.

Unified methods for variable selection and outlier detection in a linear regression

  • Seo, Han Son
    • Communications for Statistical Applications and Methods
    • /
    • 제26권6호
    • /
    • pp.575-582
    • /
    • 2019
  • The problem of selecting variables in the presence of outliers is considered. Variable selection and outlier detection are not separable problems because each observation affects the fitted regression equation differently and has a different influence on each variable. We suggest a simultaneous method for variable selection and outlier detection in a linear regression model. The suggested procedure uses a sequential method to detect outliers and uses all possible subset regressions for model selections. A simplified version of the procedure is also proposed to reduce the computational burden. The procedures are compared to other variable selection methods using real data sets known to contain outliers. Examples show that the proposed procedures are effective and superior to robust algorithms in selecting the best model.

주성분 분석 로딩 벡터 기반 비지도 변수 선택 기법 (Unsupervised Feature Selection Method Based on Principal Component Loading Vectors)

  • 박영준;김성범
    • 대한산업공학회지
    • /
    • 제40권3호
    • /
    • pp.275-282
    • /
    • 2014
  • One of the most widely used methods for dimensionality reduction is principal component analysis (PCA). However, the reduced dimensions from PCA do not provide a clear interpretation with respect to the original features because they are linear combinations of a large number of original features. This interpretation problem can be overcome by feature selection approaches that identifying the best subset of given features. In this study, we propose an unsupervised feature selection method based on the geometrical information of PCA loading vectors. Experimental results from a simulation study demonstrated the efficiency and usefulness of the proposed method.

개선된 배깅 앙상블을 활용한 기업부도예측 (Bankruptcy prediction using an improved bagging ensemble)

  • 민성환
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.121-139
    • /
    • 2014
  • 기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.

Combining genetic algorithms and support vector machines for bankruptcy prediction

  • Min, Sung-Hwan;Lee, Ju-Min;Han, In-Goo
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2004년도 추계학술대회
    • /
    • pp.179-188
    • /
    • 2004
  • Bankruptcy prediction is an important and widely studied topic since it can have significant impact on bank lending decisions and profitability. Recently, support vector machine (SVM) has been applied to the problem of bankruptcy prediction. The SVM-based method has been compared with other methods such as neural network, logistic regression and has shown good results. Genetic algorithm (GA) has been increasingly applied in conjunction with other AI techniques such as neural network, CBR. However, few studies have dealt with integration of GA and SVM, though there is a great potential for useful applications in this area. This study proposes the methods for improving SVM performance in two aspects: feature subset selection and parameter optimization. GA is used to optimize both feature subset and parameters of SVM simultaneously for bankruptcy prediction.

  • PDF

생태계 모방 알고리즘 기반 특징 선택 방법의 성능 개선 방안 (Performance Improvement of Feature Selection Methods based on Bio-Inspired Algorithms)

  • 윤철민;양지훈
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.331-340
    • /
    • 2008
  • 특징 선택은 기계 학습에서 분류의 성능을 높이기 위해 사용되는 방법이다. 여러 방법들이 개발되고 사용되어 오고 있으나, 전체 데이터에서 최적화된 특징 부분집합을 구성하는 문제는 여전히 어려운 문제로 남아있다. 생태계 모방 알고리즘은 생물체들의 행동 원리 등을 기반으로하여 만들어진 진화적 알고리즘으로, 최적화된 해를 찾는 문제에서 매우 유용하게 사용되는 방법이다. 특징 선택 문제에서도 생태계 모방 알고리즘을 이용한 해결방법들이 제시되어 오고 있으며, 이에 본 논문에서는 생태계 모방 알고리즘을 이용한 특징 선택 방법을 개선하는 방안을 제시한다. 이를 위해 잘 알려진 생태계 모방 알고리즘인 유전자 알고리즘(GA)과 파티클 집단 최적화 알고리즘(PSO)을 이용하여 데이터에서 가장분류 성능이 우수한 특징 부분집합을 만들어 내도록 하고, 최종적으로 개별 특징의 사전 중요도를 설정하여 생태계 모방 알고리즘을 개선하는 방법을 제안하였다. 이를 위해 개별 특징의 우수도를 구할 수 있는 mRMR이라는 방법을 이용하였다. 이렇게 설정한 사전 중요도를 이용하여 GA와 PSO의 진화 연산을 수정하였다. 데이터를 이용한 실험을 통하여 제안한 방법들의 성능을 검증하였다. GA와 PSO를 이용한 특징 선택 방법은 그 분류 정확도에 있어서 뛰어난 성능을 보여주었다. 그리고 최종적으로 제시한 사전 중요도를 이용해 개선된 방법은 그 진화 속도와 분류 정확도 면에서 기존의 GA와 PSO 방법보다 더 나아진 성능을 보여주는 것을 확인하였다.

Feature Selection via Embedded Learning Based on Tangent Space Alignment for Microarray Data

  • Ye, Xiucai;Sakurai, Tetsuya
    • Journal of Computing Science and Engineering
    • /
    • 제11권4호
    • /
    • pp.121-129
    • /
    • 2017
  • Feature selection has been widely established as an efficient technique for microarray data analysis. Feature selection aims to search for the most important feature/gene subset of a given dataset according to its relevance to the current target. Unsupervised feature selection is considered to be challenging due to the lack of label information. In this paper, we propose a novel method for unsupervised feature selection, which incorporates embedded learning and $l_{2,1}-norm$ sparse regression into a framework to select genes in microarray data analysis. Local tangent space alignment is applied during embedded learning to preserve the local data structure. The $l_{2,1}-norm$ sparse regression acts as a constraint to aid in learning the gene weights correlatively, by which the proposed method optimizes for selecting the informative genes which better capture the interesting natural classes of samples. We provide an effective algorithm to solve the optimization problem in our method. Finally, to validate the efficacy of the proposed method, we evaluate the proposed method on real microarray gene expression datasets. The experimental results demonstrate that the proposed method obtains quite promising performance.

QR 분해에 기반한 저 복잡도 센서 선택 알고리즘 (Low-complexity Sensor Selection Based on QR factorization)

  • 김윤학
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.103-108
    • /
    • 2023
  • 센서 네트워크에서 평균 추정성능을 높이기 위한 저 복잡도를 갖는 센서 노드 선택 알고리즘에 대해 연구한다. 복잡도를 줄이기 위해 직접적인 비용함수인 평균 추정오차를 최소화 하는 대신, 평균 추정오차 공분산 역행렬의 로그행렬식을 비용함수로 채택하고 이를 최대화하는 센서 노드 집합을 선택하기 위한 탐욕적 반복 알고리즘을 제안한다. 비용함수에 있는 관측행렬에 QR분해를 적용하여 단계마다 한 개의 노드를 선택하기 위한 저 복잡도를 갖는 수학적관계식을 유도한다. 다양한 실험을 통해, 추정성능 및 복잡도면에서 기존의 센서 노드 선택기술 대비 제안 알고리즘이 경쟁력있는 성능을 보임을 입증하고 실용적 센서 노드 선택기술로써 다양한 네트워크시스템에 적용할 수 있는 대안을 제시한다.

유전자 알고리즘과 정보이론을 이용한 속성선택 (Feature Selection by Genetic Algorithm and Information Theory)

  • 조재훈;이대종;송창규;김용삼;전명근
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.94-99
    • /
    • 2008
  • 속성선택 (Feature Selection)은 패턴분류 문제에서 분류기들의 성능을 향상시킬 수 있는 중요한 기법이다. 특히, 많은 속성들을 가지는 데이터의 분류문제에서 관련이 적은 데이터, 중복되거나 또는 노이즈 있는 데이터를 제거한 주요 속성부분집합을 선택하여 이용함으로써 분류기의 정확도를 향상시킬 수 있다. 본 논문에서는 유전자 알고리즘과 정보이론의 상호정보량을 이용하여 속성선택을 하는 기법을 제안하였다. 실험을 통하여 제안된 알고리즘이 패턴인식문제에서 다른 방법들보다 성능이 우수함을 보였다.