• 제목/요약/키워드: Best subset selection

검색결과 29건 처리시간 0.021초

Ensemble variable selection using genetic algorithm

  • Seogyoung, Lee;Martin Seunghwan, Yang;Jongkyeong, Kang;Seung Jun, Shin
    • Communications for Statistical Applications and Methods
    • /
    • 제29권6호
    • /
    • pp.629-640
    • /
    • 2022
  • Variable selection is one of the most crucial tasks in supervised learning, such as regression and classification. The best subset selection is straightforward and optimal but not practically applicable unless the number of predictors is small. In this article, we propose directly solving the best subset selection via the genetic algorithm (GA), a popular stochastic optimization algorithm based on the principle of Darwinian evolution. To further improve the variable selection performance, we propose to run multiple GA to solve the best subset selection and then synthesize the results, which we call ensemble GA (EGA). The EGA significantly improves variable selection performance. In addition, the proposed method is essentially the best subset selection and hence applicable to a variety of models with different selection criteria. We compare the proposed EGA to existing variable selection methods under various models, including linear regression, Poisson regression, and Cox regression for survival data. Both simulation and real data analysis demonstrate the promising performance of the proposed method.

Variable Selection Based on Mutual Information

  • Huh, Moon-Y.;Choi, Byong-Su
    • Communications for Statistical Applications and Methods
    • /
    • 제16권1호
    • /
    • pp.143-155
    • /
    • 2009
  • Best subset selection procedure based on mutual information (MI) between a set of explanatory variables and a dependent class variable is suggested. Derivation of multivariate MI is based on normal mixtures. Several types of normal mixtures are proposed. Also a best subset selection algorithm is proposed. Four real data sets are employed to demonstrate the efficiency of the proposals.

특징 선택을 이용한 소프트웨어 재사용의 성공 및 실패 요인 분류 정확도 향상 (Improvement of Classification Accuracy on Success and Failure Factors in Software Reuse using Feature Selection)

  • 김영옥;권기태
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권4호
    • /
    • pp.219-226
    • /
    • 2013
  • 특징 선택은 기계 학습 및 패턴 인식 분야에서 중요한 이슈 중 하나로, 분류 정확도를 향상시키기 위해 원본 데이터가 주어졌을 때 가장 좋은 성능을 보여줄 수 있는 데이터의 부분집합을 찾아내는 방법이다. 즉, 분류기의 분류 목적에 가장 밀접하게 연관되어 있는 특징들만을 추출하여 새로운 데이터를 생성하는 것이다. 본 논문에서는 소프트웨어 재사용의 성공 요인과 실패 요인에 대한 분류 정확도를 향상시키기 위해 특징 부분 집합을 찾는 실험을 하였다. 그리고 기존 연구들과 비교 분석한 결과 본 논문에서 찾은 특징 부분 집합으로 분류했을 때 가장 좋은 분류 정확도를 보임을 확인하였다.

Neighborhood 러프집합 모델을 활용한 유방 종양의 진단적 특징 선택 (A Diagnostic Feature Subset Selection of Breast Tumor Based on Neighborhood Rough Set Model)

  • 손창식;최락현;강원석;이종하
    • 한국산업정보학회논문지
    • /
    • 제21권6호
    • /
    • pp.13-21
    • /
    • 2016
  • 특징선택은 데이터 마이닝, 기계학습 분야에서 가장 중요한 이슈 중 하나로, 원본 데이터에서 가장 좋은 분류 성능을 보여줄 수 있는 특징들을 찾아내는 방법이다. 본 논문에서는 정보 입자성을 기반으로 한 neighborhood 러프집합 모델을 이용한 특징선택 방법을 제안한다. 제안된 방법의 효과성은 5,252명의 유방 초음파 영상으로부터 추출된 298가지의 특징들 중에서 유방 종양의 진단과 관련된 유용한 특징들을 선택하는 문제에 적용되었다. 실험결과 19가지의 진단적 특징을 찾을 수 있었고, 이때에 평균 분류 정확성은 97.6%를 보였다.

Microblog User Geolocation by Extracting Local Words Based on Word Clustering and Wrapper Feature Selection

  • Tian, Hechan;Liu, Fenlin;Luo, Xiangyang;Zhang, Fan;Qiao, Yaqiong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권10호
    • /
    • pp.3972-3988
    • /
    • 2020
  • Existing methods always rely on statistical features to extract local words for microblog user geolocation. There are many non-local words in extracted words, which makes geolocation accuracy lower. Considering the statistical and semantic features of local words, this paper proposes a microblog user geolocation method by extracting local words based on word clustering and wrapper feature selection. First, ordinary words without positional indications are initially filtered based on statistical features. Second, a word clustering algorithm based on word vectors is proposed. The remaining semantically similar words are clustered together based on the distance of word vectors with semantic meanings. Next, a wrapper feature selection algorithm based on sequential backward subset search is proposed. The cluster subset with the best geolocation effect is selected. Words in selected cluster subset are extracted as local words. Finally, the Naive Bayes classifier is trained based on local words to geolocate the microblog user. The proposed method is validated based on two different types of microblog data - Twitter and Weibo. The results show that the proposed method outperforms existing two typical methods based on statistical features in terms of accuracy, precision, recall, and F1-score.

최상부분집합이 고려된 능형회귀를 적용한 현장관입지수에 대한 통계적 예측기법 개발 및 적용 (Development and implementation of statistical prediction procedure for field penetration index using ridge regression with best subset selection)

  • 이항로;송기일;김경열
    • 한국터널지하공간학회 논문집
    • /
    • 제19권6호
    • /
    • pp.857-870
    • /
    • 2017
  • 사회기반시설의 지중화로 인하여 쉴드 TBM 적용이 점차 확대되고 있는 추세다. 합리적인 공기기간 및 공사비 산정을 위해 쉴드 TBM의 실굴진율을 정확하게 예측하는 것은 매우 중요한 사안이라 할 수 있다. 이러한 이유로 국내에서는 지반의 물성을 합리적으로 반영한 쉴드 TBM의 실굴진율 예측모델이 필요한 상황이다. 본 연구는 쉴드 TBM의 순굴진율 산정을 위해 현장 데이터베이스를 기반으로 현장관입지수의 통계적 예측절차를 모듈화 하였다. 출력인자로 현장관입지수를 선정하였고, 비정상치 제거 및 전처리 그리고 최상 부분집합선택이 고려된 능형회귀를 적용한 예측시스템을 모듈에 포함하였다. 또한 현장 굴진 데이터를 활용하여 예측모델의 적용성을 확인하였다.

단변량 분석과 LVF 알고리즘을 결합한 하이브리드 속성선정 방법 (A Hybrid Feature Selection Method using Univariate Analysis and LVF Algorithm)

  • 이재식;정미경
    • 지능정보연구
    • /
    • 제14권4호
    • /
    • pp.179-200
    • /
    • 2008
  • 본 연구에서는 사례기반 추론 기법을 대상으로 효율성과 효과성을 함께 증진시킬 수 있는 속성선정 방법을 개발하였다. 기본적으로, 본 연구에서 개발한 속성선정 방법은 기존에 개발된 단변량 분석 방법과 LVF 알고리즘을 통합하는 것이다. 먼저, 단변량 분석 방법 중 선택효과를 사용하여 전체 속성 중에서 예측력이 우수하다고 판단되는 일부분의 속성들을 추려낸다. 이 속성들로부터 생성해낼 수 있는 모든 가능한 부분집합을 생성해낸 후에, LVF 알고리즘을 이용하여 이 부분집합들이 가지는 불일치 비율을 평가함으로써 최종적으로 속성 부분집합을 선정한다. 본 연구에서 개발한 속성선정 방법을 UCI에서 제공하는 데이터 집합들에 적용하여 성능을 측정한 후, 기존 기법의 성능들과 비교한 결과, 본 연구에서 개발된 속성선정 방법이 선정된 속성의 개수도 만족할만하고 적중률도 향상되어서, 효율성과 효과성 모두의 측면에서 우수함을 보였다.

  • PDF

Selection Conditional on Associated Measurements

  • Yeo, Woon-Bang
    • Journal of the Korean Statistical Society
    • /
    • 제12권2호
    • /
    • pp.110-114
    • /
    • 1983
  • In this paper, a random subset selection procedure for the choice of the k best objects out of n primary measurements $Y_t$ is considered when only the associated measurements $X_t$ are available. In contrast to Yeo and David (1992), where only the ranks of the X's are needed, the present uses the observed X-values. The approach is illustrated numerically when X and Y are bivariate normal and the standard deviation of X is known.

  • PDF

최고의 정규 모집단을 뽑기 위한 부분집합선택절차론의 운용특성에 관한 연구 (Operating characteristics of a subset selection procedure for selecting the best normal population with common unknown variance)

  • 손중권
    • 응용통계연구
    • /
    • 제3권1호
    • /
    • pp.59-78
    • /
    • 1990
  • 지난 30여년간 급격히 발전해 온 다중결정이론 중 부분집합선택론은 매우 중요한 위치를 차지하고 있다. 특히 여러가지 형태의 부분집합선택절차론 중에서 최초로 소개된 Gupta형 선택절차론은 모든 절차론들의 기본이 되어 오고 있음으로 그 중요성은 널리 인식되고 있다. 더우기 응용부문에 있어서도 가장 많이 사용되고 있는 선택절차론들 중의 하나이기도 하다. 따라서 Gupta형 선책절차론에 대한 일반적인 성질들도 많이 규명되어 왔다. 특히 결정론적 측면에서나 베이스 이론적 측면에서의 최적성 및 점근적 효율성에 있어서는 Gupta와 Hsu(1978), Bj$\phi$rnstad(1980), 그리고 Bickel과 Yahav(1982)가 성질 들을 규명내지는 다른 형의 부분집합선택절차론들과 특정분포에 대해 비교 검토하였다. 또한 수집된 자료가 선택절차론의 근본 가정들을 위반할 경우가 실제로 다반사로 일어난다. 따라서 근본가정이 위배될 경우 선택절차론의 강건력에 대해서도 연구가 부분적으로 진행되었다. Gupta형 선택절차론과 중앙값 선택절차론과의 비교도 Gupta와 Singh(1980)과 Sohn(1985)에 의해 진행되었으며, 특히 스피리지 배치에서 점근적 효율성을 연구하였다. 하지만 부분집합선택절차론이 차지하는 중요성에 비해 그 자체에 대한 여러 측면에 있어서의 성질 및 운용특성에 대한 포괄적이고 일반적인 연구는 미흡한 편이다.

  • PDF

머신러닝 기반 체지방 측정정보를 이용한 고콜레스테롤혈증 예측모델 (Prediction model of hypercholesterolemia using body fat mass based on machine learning)

  • 이범주
    • 문화기술의 융합
    • /
    • 제5권4호
    • /
    • pp.413-420
    • /
    • 2019
  • 본 연구의 목적은 기존의 body fat mass 변수와 고콜레스테롤혈증의 연관성연구를 벗어나, 머신러닝기법을 기반으로 body fat mass 변수들의 조합을 이용하여 고콜레스테롤혈증 예측 모델을 개발하는 것이다. 이러한 연구를 위하여 국민건강영양조사 데이터를 기반으로 두 가지 variable selection 메소드와 머신러닝 알고리즘을 이용하여 총 6개의 모델을 생성하였고 질병 예측력을 비교분석하였다. 여러 body fat mass 관련 변수들 중에서 몸통지방량 변수가 고콜레스테롤혈증 예측력이 가장 우수한 변수인 것을 밝혀내었고, 머신러닝 기반 예측모델들 중에서 correlation-based feature subset selection 기반 naive Bayes 알고리즘을 이용한 모델이 0.739의 the area under the receiver operating characteristic curve 값과 0.36의 Matthews correlation coefficient 값을 얻었다. 이러한 연구의 결과는 향후 국내외 대규모 스크리닝 및 대중보건 연구에서 질병예측분야의 중요정보로 활용될 것으로 예상한다.