• Title/Summary/Keyword: 변수 선택

Search Result 2,108, Processing Time 0.03 seconds

Variable selection with quantile regression tree (분위수 회귀나무를 이용한 변수선택 방법 연구)

  • Chang, Youngjae
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.6
    • /
    • pp.1095-1106
    • /
    • 2016
  • The quantile regression method proposed by Koenker et al. (1978) focuses on conditional quantiles given by independent variables, and analyzes the relationship between response variable and independent variables at the given quantile. Considering the linear programming used for the estimation of quantile regression coefficients, the model fitting job might be difficult when large data are introduced for analysis. Therefore, dimension reduction (or variable selection) could be a good solution for the quantile regression of large data sets. Regression tree methods are applied to a variable selection for quantile regression in this paper. Real data of Korea Baseball Organization (KBO) players are analyzed following the variable selection approach based on the regression tree. Analysis result shows that a few important variables are selected, which are also meaningful for the given quantiles of salary data of the baseball players.

Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics (약물유전체학에서 약물반응 예측모형과 변수선택 방법)

  • Kim, Kyuhwan;Kim, Wonkuk
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.2
    • /
    • pp.153-166
    • /
    • 2021
  • A main goal of pharmacogenomics studies is to predict individual's drug responsiveness based on high dimensional genetic variables. Due to a large number of variables, feature selection is required in order to reduce the number of variables. The selected features are used to construct a predictive model using machine learning algorithms. In the present study, we applied several hybrid feature selection methods such as combinations of logistic regression, ReliefF, TurF, random forest, and LASSO to a next generation sequencing data set of 400 epilepsy patients. We then applied the selected features to machine learning methods including random forest, gradient boosting, and support vector machine as well as a stacking ensemble method. Our results showed that the stacking model with a hybrid feature selection of random forest and ReliefF performs better than with other combinations of approaches. Based on a 5-fold cross validation partition, the mean test accuracy value of the best model was 0.727 and the mean test AUC value of the best model was 0.761. It also appeared that the stacking models outperform than single machine learning predictive models when using the same selected features.

A Study of Frequency Analysis by using Locally Weighted Polynomial Method (지역가중다항식을 이용한 빈도해석에 관한 연구)

  • Moon, Young-Il;Jeong, Min-Su;Choi, Byung-Gyu;You, Seung-Yeon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.804-808
    • /
    • 2006
  • 유량자료를 이용한 매개변수적 빈도해석 방법은 주관적인 분포형 선정문제를 안고 있다. 이러한 분포형 선택문제는 수문자료의 오랜 축척에 따른 통계적 분석을 통해 하나의 확률분포형을 선택할 수 있는 경우 극복될 수 있을 것이다. 그러나, 일반적으로 수문자료의 관측 기간이 짧아 하나의 분포형을 선택하는데 어려움을 갖고 있다. 반면에, 지역가중다항식을 이용한 빈도해석의 경우 단일분포형 선택문제가 아닌 자료로 부터 매개변수를 선택하고 추정함으로서 White noise를 제거 또는 감소하며 자연계의 이질적, 다중변수적 그리고 시공간적 특성을 잘 반영할 수 있는 것으로 알려져 있다. 따라서 본 연구에서는 단일 주관분포 선택문제가 아닌 자료로부터 매개변수의 선택 추정이 이루어지는 지역가중다항식을 이용한 빈도해석을 수행하였다. 분석에는 서울강우자료로 매개변수적 빈도해석을 수행하는 경우 Gumbel, GEV(Type I Extreme Value) 그리고 LN2 (Log-Normal 2) 등의 분포형을 적용하여 지역 가중다항 추정자의 산출 결과와 비교 검토하였다. 또한 각각의 방법을 적용해 이중첨두(bimodal) 분포형에 대한 모형의 적합성을 도시적으로 비교 산정하였다.

  • PDF

Comparison of Feature Selection Methods in Support Vector Machines (지지벡터기계의 변수 선택방법 비교)

  • Kim, Kwangsu;Park, Changyi
    • The Korean Journal of Applied Statistics
    • /
    • v.26 no.1
    • /
    • pp.131-139
    • /
    • 2013
  • Support vector machines(SVM) may perform poorly in the presence of noise variables; in addition, it is difficult to identify the importance of each variable in the resulting classifier. A feature selection can improve the interpretability and the accuracy of SVM. Most existing studies concern feature selection in the linear SVM through penalty functions yielding sparse solutions. Note that one usually adopts nonlinear kernels for the accuracy of classification in practice. Hence feature selection is still desirable for nonlinear SVMs. In this paper, we compare the performances of nonlinear feature selection methods such as component selection and smoothing operator(COSSO) and kernel iterative feature extraction(KNIFE) on simulated and real data sets.

A Development of Transport Choice Models using Fuzzy Approximate Reasoning Methods (퍼지근사추론을 이용한 교통수단 선택모형 구축)

  • 원제무;손기복
    • Journal of Korean Society of Transportation
    • /
    • v.16 no.1
    • /
    • pp.99-110
    • /
    • 1998
  • 본 연구에서는 인간의 판단과 유산한 구조를 갖는 퍼지근사추론모형(FARM)을 구축하여 교통수단 선택형태에 적용하고자 하였다. 이를 위해 먼저 근사추론모형의 이론적 배경을 살펴보고 버스와 지하철간의 수단선택 모형을 구축하였다. 입력변수로 버스와 지하철간의 총통행시간의 차이와 총통행비용의 차이를 선정하였으며 출력변수로 버스이용확률을 사용하였다. 각 변수에 대한 퍼지집합은 각각 5개씩의 언어적 인 표현으로 구성하였으며, 규칙은 총 25개로 설정하였다, 구축된모형의 현실적 타당성을 검토하기 위해 서 실제 조사자료와 비교하였다. 분석결과 본 연구에서 구축된 퍼지근사추론모형이 통행자들의 수단선택 행태를 현실적으로 설명하는 것으로 나타났다.

  • PDF

Development of Variable Selection Technique using Stepwise Regression and Data Envelopment Analysis (단계적 회귀법과 자료봉합분석을 이용한 변수선택기법의 개발)

  • Jeong, Min-Eui;Yu, Song-Jin
    • Journal of KIISE:Software and Applications
    • /
    • v.41 no.8
    • /
    • pp.598-604
    • /
    • 2014
  • In this paper, we develop stepwise regression data envelopment model to select important variables. We formulate null hypothesis to understand the importance of each variable and use Kruskal-Wallis test for this purpose. If the Kruskal-Wallis test does reject the null hypothesis this will imply there is significant fluctuation in the efficiency score relative to base model. And therefore we have to further check the pair of variables that causes the fluctuation in order to determine its importance using Conover-Inman test. The proposed models helps understand the extent of misclassification decision making units as efficient/inefficient when variables are retained or discarded alongside provides useful managerial prescription to make improvement strategies.

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영;신형원
    • Journal of Korean Society of Transportation
    • /
    • v.16 no.4
    • /
    • pp.187-194
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도 변화에 영향력 있는 변수 선택을 위하여 독립성 검정을 위한 $x^2$ test와 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 Decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합한 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영
    • Proceedings of the KOR-KST Conference
    • /
    • 1998.10a
    • /
    • pp.373-381
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도변화에 영향력 있는 변수선택을 위하여 $X^2$ 독립성 검정과 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합합 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF

Variable Selection for Logistic Regression Model Using Adjusted Coefficients of Determination (수정 결정계수를 사용한 로지스틱 회귀모형에서의 변수선택법)

  • Hong C. S.;Ham J. H.;Kim H. I.
    • The Korean Journal of Applied Statistics
    • /
    • v.18 no.2
    • /
    • pp.435-443
    • /
    • 2005
  • Coefficients of determination in logistic regression analysis are defined as various statistics, and their values are relatively smaller than those for linear regression model. These coefficients of determination are not generally used to evaluate and diagnose logistic regression model. Liao and McGee (2003) proposed two adjusted coefficients of determination which are robust at the addition of inappropriate predictors and the variation of sample size. In this work, these adjusted coefficients of determination are applied to variable selection method for logistic regression model and compared with results of other methods such as the forward selection, backward elimination, stepwise selection, and AIC statistic.

The correlation and regression analyses based on variable selection for the university evaluation index (대학 평가지표들에 대한 상관분석과 변수선택에 의한 선형모형추정)

  • Song, Pil-Jun;Kim, Jong-Tae
    • Journal of the Korean Data and Information Science Society
    • /
    • v.23 no.3
    • /
    • pp.457-465
    • /
    • 2012
  • The purpose of this study is to analyze the association between indicators and to find statistical models based on important indicators at 'College Notifier' in Korea Council for University Education. First, Pearson correlation coefficients are used to find statistically significant correlations. By variable selection method, the important indicators are selected and their coefficients are estimated. As variable selection method, backward and stepwise methods are employed.