• 제목/요약/키워드: recursive feature elimination

검색결과 25건 처리시간 0.028초

붓스트랩 방법을 활용한 SVM 기반 유전자 선택 기법 (Gene Selection Based on Support Vector Machine using Bootstrap)

  • 송석헌;김경희;박창이;구자용
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.531-540
    • /
    • 2007
  • 본 연구에서는 유전자 선택 방법으로 최근 이용되는 SVM-RFE 알고리즘은 단순히 가중치의 절대값을 유전자 선택 기준으로 사용하여 유전자 값의 변동성을 고려하지 못하므로 가중치의 절대값을 그것의 표준오차로 나눈 보완된 통계량, B-RFE 알고리즘을 새로운 기준으로 제안하였다. 두 방법을 모의실험을 통해서 비교한 결과 본 연구에서 제안한 B-RFE 알고리즘이 더 의미 있는 순위를 도출하였다.

머신러닝 기법 기반의 예측조합 방법을 활용한 산업 부가가치율 예측 연구 (Prediction on the Ratio of Added Value in Industry Using Forecasting Combination based on Machine Learning Method)

  • 김정우
    • 한국콘텐츠학회논문지
    • /
    • 제20권12호
    • /
    • pp.49-57
    • /
    • 2020
  • 본 연구는 우리나라 수출 분야 산업의 경쟁력을 나타내는 부가가치율을 다양한 머신러닝 기법을 활용하여 예측하였다. 아울러, 예측의 정확성 및 안정성을 높이기 위하여 머신러닝 기법 예측값들에 예측조합 기법을 적용하였다. 특히, 본 연구는 산업별 부가가치율에 영향을 주는 다양한 변수를 고려하기 위하여 재귀적특성제거 방법을 사용하여 주요 변수를 선별한 후 머신러닝 기법에 적용함으로써 예측과정의 효율성을 높였다. 분석결과, 예측조합 방법에 따른 예측값은 머신러닝 기법 예측값들보다 실제의 산업 부가가치율에 근접한 것으로 나타났다. 또한, 머신러닝 기법의 예측값들이 큰 변동성을 보이는 것과 달리 예측조합 기법은 안정적인 예측값을 나타내었다.

Performance Evaluation of a Feature-Importance-based Feature Selection Method for Time Series Prediction

  • Hyun, Ahn
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.82-89
    • /
    • 2023
  • Various machine-learning models may yield high predictive power for massive time series for time series prediction. However, these models are prone to instability in terms of computational cost because of the high dimensionality of the feature space and nonoptimized hyperparameter settings. Considering the potential risk that model training with a high-dimensional feature set can be time-consuming, we evaluate a feature-importance-based feature selection method to derive a tradeoff between predictive power and computational cost for time series prediction. We used two machine learning techniques for performance evaluation to generate prediction models from a retail sales dataset. First, we ranked the features using impurity- and Local Interpretable Model-agnostic Explanations (LIME) -based feature importance measures in the prediction models. Then, the recursive feature elimination method was applied to eliminate unimportant features sequentially. Consequently, we obtained a subset of features that could lead to reduced model training time while preserving acceptable model performance.

기계학습모형을 이용한 다분광 위성 영상 기반 낙동강 부유 물질 농도 계측 기법 개발 (Development of suspended solid concentration measurement technique based on multi-spectral satellite imagery in Nakdong River using machine learning model)

  • 권시윤;서일원;백동해
    • 한국수자원학회논문집
    • /
    • 제54권2호
    • /
    • pp.121-133
    • /
    • 2021
  • 하천에서 발생하는 부유 물질은 주로 유역으로부터 유입되거나 하천 내에서 자생으로 발생하기도 하며, 퇴적되어 중장기적인 수질 오염을 초래할 수도 있는 중요한 수질 인자이다. 하지만, 부유물질의 재래식 계측방식은 점 단위 계측이기 때문에 노동 집약적이며 방대한 양의 자료를 취득하기는 어렵다. 따라서, 본 연구에서는 고해상도 다분광 위성영상을 제공하는 Sentinel-2 위성 자료를 이용하여 낙동강 전역에 대한 원격탐사 기반 부유 물질 농도 계측 기법을 개발하였다. 개발된 기법은 기존 원격탐사 기반 회귀식들의 한계점을 개선하고 낙동강 전체 영역의 지역적 특성을 반영하기 위해 기계학습 모형인 서포트 벡터 회귀(Support Vector Regression, SVR) 모형을 이용하여 다양한 파장대의 분광 밴드들과 밴드비(band ratios)를 고려하였으며, 이를 입력 변수들의 최적 조합으로 재귀적 특징 제거법(Recursive Feature Elimination, RFE)과 SVR의 각 변수별 가중계수를 활용하여 도출하였다. 가장 중요도가 높은 분광 밴드로는 Red-edge 파장대 영역에 속하는 705 nm 밴드가 산출되었으며, 최종적으로 구축된 SVR 모형을 선행 연구들에서 제시한 회귀식들과 비교한 결과, 가장 정확한 계측 결과를 제공하는 것으로 밝혀졌다. 본 연구에서 개발된 SVR 모형은 RFE를 통해 산출된 최적 분광 밴드 조합을 바탕으로 하기 때문에 기존 단일 분광 밴드 혹은 밴드비를 기반으로 구축된 회귀식들이 가지는 변수 의존도를 낮추는 동시에 더욱 정확한 부유물질 농도 공간분포를 제공할 수 있을 것으로 판단된다.

제약하의 예측조합 방법을 활용한 산업별 고용비중 예측 (Prediction of the employment ratio by industry using constrainted forecast combination)

  • 김정우
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.257-267
    • /
    • 2020
  • 본 연구는 우리나라 수출 분야의 산업별 고용비중을 다양한 머신러닝 기법을 활용하여 예측하고, 예측성능을 높이기 위하여 머신러닝 기법 예측값들에 예측조합 기법을 적용하였다. 특히, 본 연구에서는 각 머신러닝 기법 예측값들에 부여되는 가중치의 합을 1로 설정하는 제약하의 예측조합 기법을 사용하여 예측의 정확성과 안정성을 확보하고자 하였다. 또한, 본 연구는 산업별 고용비중에 영향을 주는 다양한 변수를 고려하기 위하여 재귀적특성제거 방법을 사용하여 주요 변수를 선별한 후, 머신러닝 기법에 적용함으로써 예측과정 상에서의 효율성을 높였다. 분석결과, 예측조합 방법에 따른 예측값은 머신러닝 기법의 예측값들보다 실제의 산업 고용비중에 근접한 것으로 나타났으며, 머신러닝 기법의 예측값들이 큰 변동성을 보이는 것과 달리 제약하의 예측조합 기법은 안정적인 예측값을 나타내었다.

An Application of Support Vector Machines to Customer Loyalty Classification of Korean Retailing Company Using R Language

  • 응위엔푸티엔;이영찬
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권4호
    • /
    • pp.17-37
    • /
    • 2017
  • Purpose Customer Loyalty is the most important factor of customer relationship management (CRM). Especially in retailing industry, where customers have many options of where to spend their money. Classifying loyal customers through customers' data can help retailing companies build more efficient marketing strategies and gain competitive advantages. This study aims to construct classification models of distinguishing the loyal customers within a Korean retailing company using data mining techniques with R language. Design/methodology/approach In order to classify retailing customers, we used combination of support vector machines (SVMs) and other classification algorithms of machine learning (ML) with the support of recursive feature elimination (RFE). In particular, we first clean the dataset to remove outlier and impute the missing value. Then we used a RFE framework for electing most significant predictors. Finally, we construct models with classification algorithms, tune the best parameters and compare the performances among them. Findings The results reveal that ML classification techniques can work well with CRM data in Korean retailing industry. Moreover, customer loyalty is impacted by not only unique factor such as net promoter score but also other purchase habits such as expensive goods preferring or multi-branch visiting and so on. We also prove that with retailing customer's dataset the model constructed by SVMs algorithm has given better performance than others. We expect that the models in this study can be used by other retailing companies to classify their customers, then they can focus on giving services to these potential vip group. We also hope that the results of this ML algorithm using R language could be useful to other researchers for selecting appropriate ML algorithms.

RNAseq 빅데이터에서 유전자 선택을 위한 밀집도-의존 정규화 기반의 서포트-벡터 머신 병합법 (Combining Support Vector Machine Recursive Feature Elimination and Intensity-dependent Normalization for Gene Selection in RNAseq)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제18권5호
    • /
    • pp.47-53
    • /
    • 2017
  • 고처리 시퀀싱과 빅데이터 및 크라우드 컴퓨팅에 혁신이 일어나면서, RNA 시퀀싱도 획기적인 변화가 일어, RNAseq가 기존의 DNA 마이크로어레이를 대체하여, 빅-데이터를 형성하고 있다. 현재, RANseq 이용한 유전자 조절망(GRN) 까지 연구가 활성화 되고 있는데, 그 중 한 분야가 GRN의 기본 요소인 특징 유전자를 빅-데이터에서도 구별하고 기존에 알려진 것 외에 새로운 역할을 찾는 것이다. 그러나, 이러한 연구 방향에 부합하는 빅-데이터를 처리할 수 있는 컴퓨테이션 방법이 아직까지 매우 부족하다. 따라서 본 논문에서는 RNAseq 빅-데이터를 처리할 수 있도록 기존의 SVM-RFE알고리즘을 밀집도-의존 정규화에 병합하여, NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 데이터에 개선된 알고리즘을 적용하고 해당 알고리즘에 의해 나온 결과의 성능을 평가한다.

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.

Relevancy contemplation in medical data analytics and ranking of feature selection algorithms

  • P. Antony Seba;J. V. Bibal Benifa
    • ETRI Journal
    • /
    • 제45권3호
    • /
    • pp.448-461
    • /
    • 2023
  • This article performs a detailed data scrutiny on a chronic kidney disease (CKD) dataset to select efficient instances and relevant features. Data relevancy is investigated using feature extraction, hybrid outlier detection, and handling of missing values. Data instances that do not influence the target are removed using data envelopment analysis to enable reduction of rows. Column reduction is achieved by ranking the attributes through feature selection methodologies, namely, extra-trees classifier, recursive feature elimination, chi-squared test, analysis of variance, and mutual information. These methodologies are ranked via Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) using weight optimization to identify the optimal features for model building from the CKD dataset to facilitate better prediction while diagnosing the severity of the disease. An efficient hybrid ensemble and novel similarity-based classifiers are built using the pruned dataset, and the results are thereafter compared with random forest, AdaBoost, naive Bayes, k-nearest neighbors, and support vector machines. The hybrid ensemble classifier yields a better prediction accuracy of 98.31% for the features selected by extra tree classifier (ETC), which is ranked as the best by TOPSIS.

A MA-plot-based Feature Selection by MRMR in SVM-RFE in RNA-Sequencing Data

  • Kim, Chayoung
    • 한국정보기술학회논문지
    • /
    • 제16권12호
    • /
    • pp.25-30
    • /
    • 2018
  • 유전자 규정 네트워크 (GRN)에 RNA-시퀀싱 데이터를 활용할 때, 해당 유전자와 환경과의 상호 작용에 의해서 생기는 형질들 중에서 연관성이 높은 유전자로 GRN을 구성하는 것은 상당히 어려운 일이다. 본 연구에서는 Big-Data의 RNA-시퀀싱 자료들로, 지지 벡터 머신 회귀 특징 추출(SVM-RFE) 에 근거하여, 연관성이 높은 유전자(maximum-relevancy)는 추출하고, 연관성이 낮은 유전자(minimum-redundancy)는 제거하는 MRMR 필터 방법을 집중도 의존 정규화(intensity-dependent normalization, DEGSEQ)에 기반 하여 데이터의 정밀성을 높여, 소수 연관성 높은 유전자만 판별해 내는 방법을 사용한다. 제안한 방법은 R 언어 패키지를 사용하여 편리함과 동시에, 다른 기존의 방법을 비교하였을 때, Big-Data의 시간 활용도를 높이면서, 동시에 높은 연관성 있는 유전자만을 잘 추출해 냄을 확인하였다.