• Title/Summary/Keyword: 변수선택

Search Result 2,090, Processing Time 0.034 seconds

회귀나무에서 변수선택 편의에 관한 연구

  • Kim, Min-Ho;Kim, Jin-Heum
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.10a
    • /
    • pp.263-268
    • /
    • 2003
  • Breiman, Friedman, Olshen and Stone(1984)의 전체탐색법에 의한 회귀나무는 상대적으로 많은 분리가 가능한 변수로 분리기준이 정해지는 편의 현상을 갖고 있다. 본 연구에서는 이런 문제점을 해결할 수 있는 알고리즘을 제안하여 변수선택편의가 없는 회귀나무를 만들고자 한다. 제안하는 알고리즘은 노드의 분리변수를 선택하는 단계와 그 선택된 변수에 의해 이진분리를 위한 분리점을 찾는 단계로 구성되어 있다. 예측변수 중에서 목표변수와 가장 밀접하게 연관된 예측변수는 예측변수의 자료의 종류에 따라 스피어만의 순위상관계수에 의한 검정 혹은 크루스칼-왈리스의 통계량에 의한 검정을 수행하여 가장 통계적으로 유의한 변수로 선택하였고, 선택된 변수에만 Breiman et al.(1984)의 전체선택법을 적용하여 분리점을 결정하였다. 모의실험을 통해 변수선택편의, 변수선택력 , 그리고 평균제곱오차 측면에서 Breiman et al. (1984)의 CART(Classification and Regression Trees)와 제안한 알고리즘을 서로 비교하였다. 또한, 두 알고리즘을 실제 자료에 적용하여 효율을 서로 비교하였다.

  • PDF

Efficient variable selection method using conditional mutual information (조건부 상호정보를 이용한 분류분석에서의 변수선택)

  • Ahn, Chi Kyung;Kim, Donguk
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.5
    • /
    • pp.1079-1094
    • /
    • 2014
  • In this paper, we study efficient gene selection methods by using conditional mutual information. We suggest gene selection methods using conditional mutual information based on semiparametric methods utilizing multivariate normal distribution and Edgeworth approximation. We compare our suggested methods with other methods such as mutual information filter, SVM-RFE, Cai et al. (2009)'s gene selection (MIGS-original) in SVM classification. By these experiments, we show that gene selection methods using conditional mutual information based on semiparametric methods have better performance than mutual information filter. Furthermore, we show that they take far less computing time than Cai et al. (2009)'s gene selection but have similar performance.

Regression Trees with. Unbiased Variable Selection (변수선택 편향이 없는 회귀나무를 만들기 위한 알고리즘)

  • 김진흠;김민호
    • The Korean Journal of Applied Statistics
    • /
    • v.17 no.3
    • /
    • pp.459-473
    • /
    • 2004
  • It has well known that an exhaustive search algorithm suggested by Breiman et. a1.(1984) has a trend to select the variable having relatively many possible splits as an splitting rule. We propose an algorithm to overcome this variable selection bias problem and then construct unbiased regression trees based on the algorithm. The proposed algorithm runs two steps of selecting a split variable and determining a split rule for binary split based on the split variable. Simulation studies were performed to compare the proposed algorithm with Breiman et a1.(1984)'s CART(Classification and Regression Tree) in terms of degree of variable selection bias, variable selection power, and MSE(Mean Squared Error). Also, we illustrate the proposed algorithm with real data sets.

A Study on Selection of Split Variable in Constructing Classification Tree (의사결정나무에서 분리 변수 선택에 관한 연구)

  • 정성석;김순영;임한필
    • The Korean Journal of Applied Statistics
    • /
    • v.17 no.2
    • /
    • pp.347-357
    • /
    • 2004
  • It is very important to select a split variable in constructing the classification tree. The efficiency of a classification tree algorithm can be evaluated by the variable selection bias and the variable selection power. The C4.5 has largely biased variable selection due to the influence of many distinct values in variable selection and the QUEST has low variable selection power when a continuous predictor variable doesn't deviate from normal distribution. In this thesis, we propose the SRT algorithm which overcomes the drawback of the C4.5 and the QUEST. Simulations were performed to compare the SRT with the C4.5 and the QUEST. As a result, the SRT is characterized with low biased variable selection and robust variable selection power.

A Study on Variable Selection Bias in Data Mining Software Packages (데이터마이닝 패키지에서 변수선택 편의에 관한 연구)

  • 송문섭;윤영주
    • The Korean Journal of Applied Statistics
    • /
    • v.14 no.2
    • /
    • pp.475-486
    • /
    • 2001
  • 데이터마이닝 패키지에 구현된 분류나무 알고리즘 가운데 CART, CHAID, QUEST, C4.5에서 변수 선택법을 비교하였다. CART의 전체탐색법이 편의를 갖는다는 사실은 잘알려졌으며, 여기서는 상품화된 패키지들에서 이들 알고리즘의 편의와 선택력을 모의실험 연구를 통하여 비교하였다. 상용 패키지로는 CART, Enterprise Miner, AnswerTree, Clementine을 사용하였다. 본 논문의 제한된 모의실험 연구 결과에 의하면 C4.5와 CART는 모두 변수선택에서 심각한 편의를 갖고 있으며, CHAID와 QUEST는 비교적 안정된 결과를 보여주고 있었다.

  • PDF

Variable selection in partial linear regression using the least angle regression (부분선형모형에서 LARS를 이용한 변수선택)

  • Seo, Han Son;Yoon, Min;Lee, Hakbae
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.6
    • /
    • pp.937-944
    • /
    • 2021
  • The problem of selecting variables is addressed in partial linear regression. Model selection for partial linear models is not easy since it involves nonparametric estimation such as smoothing parameter selection and estimation for linear explanatory variables. In this work, several approaches for variable selection are proposed using a fast forward selection algorithm, least angle regression (LARS). The proposed procedures use t-test, all possible regressions comparisons or stepwise selection process with variables selected by LARS. An example based on real data and a simulation study on the performance of the suggested procedures are presented.

Parameter Estimation for Multiple Linear Regession Model by OLS and Stepwise (OLS 및 변수선택법에 의한 다중선형회귀모형 매개변수 산정)

  • Kim, Kyung-Tak;Kim, Joo-Hun;Park, Jung-Sool
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.1161-1165
    • /
    • 2006
  • 본 연구는 OLS 및 변수선택법에 의해 통계학적 모형의 매개변수를 산정하여 모형의 적용성을 입증하고 하천 주요지점에 대한 홍수위 예측을 통해 홍수예보 및 예측 업무에 기여코자하는데 연구목적이 있다. 다중선형회귀모형을 구성하기 위한 독립변수는 예보지점의 수위/유출량 자료와 상류지점의 수위/유출량 자료, 그리고 유역의 선행 평균강우량 등의 자료를 독립변수로 하여 통계학적 홍수예측을 위한 다중선형 회귀모형을 각각 구성하여 적합성 여부를 판단하였다. 매개변수 산정은 OLS(Ordinary least square root method)와 변수선택(Stepwise)방법에 의해 산정하였으며, 중랑천 유역의 2002년부터 2005년까지의 수문사상 16개를 선정하여 모형에 적용한 결과 두 매개변수 산정방법 모두 30분에서 90분 예측은 상대적으로 정확한 결과를 나타내었으며, OLS 및 변수선택법에 의한 매개변수 산정결과 변수선택법에 의한 방법이 OLS 방법보다는 상관성이나 효율지수면에서 조금 더 정확한 값을 나타내고 있으나 독립변수의 일관성을 감안한다면 변수선택법보다는 OLS방법에 의한 매개변수 산정이 타당할 것으로 사료된다. 기존의 홍수예보 업무에 활용되고 있는 수문학적 홍수예측 모형인 저류함수법의 여러 매개변수 조정에 의한 홍수위 예측 방법보다는 비교적 간단한 통계적 방법에 의한 홍수위 예측 방법으로 홍수예보의 선행시간 확보가 필수적인 중랑천과 같이 유역면적이 작은 중소하천에서의 홍수예보 업무에 효과적으로 이용 가능할 것으로 사료된다.

  • PDF

A Bayes Criterion for Selecting Variables in MDA (MDA에서 판별변수 선택을 위한 베이즈 기준)

  • 김혜중;유희경
    • The Korean Journal of Applied Statistics
    • /
    • v.11 no.2
    • /
    • pp.435-449
    • /
    • 1998
  • In this article we have introduced a Bayes criterion for the variable selection in multiple discriminant analysis (MDA). The criterion is a default Bayes factor for the comparision of homo/heteroscadasticity of the multivariate normal means. The default Bayes factor is obtained from a development of the imaginary training sample method introduced by Spiegelhalter and Smith (1982). Based an the criterion, we also provided a test for additional discrimination in MDA. The advantage of the criterion is that it is not only applicable for the optimal subset selection method but for the stepwise method. More over, the criterion can be reduced to that for two-group discriminant analysis. Thus the criterion can be regarded as an unified alternative to variable selection criteria suggested by various sampling theory approaches. To illustrate the performance of the criterion, a numerical study has bean done via Monte Carlo experiment.

  • PDF

A procedure for simultaneous variable selection, variable transformation and outlier identification in linear regression (선형회귀에서 변수선택, 변수변환과 이상치 탐지의 동시적 수행을 위한 절차)

  • Seo, Han Son;Yoon, Min
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.1
    • /
    • pp.1-10
    • /
    • 2020
  • We propose a unified approach to variable selection, transformation and outliers in the linear model. The procedure includes a sequential method for outlier detection and a least trimmed squares estimator for variable transformation. It uses all possible subsets regressions for model selection. Some real data analyses and the simulation results are provided to show the efficiency of the methods in the context of the correct variable selection and the fitness of the estimated model.

의사결정나무에서 순서형 분리 변수 선택에 관한 연구

  • 김현중;송주미
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2004.11a
    • /
    • pp.283-288
    • /
    • 2004
  • 지금까지 의사결정나무에서 분리 변수의 선택에 관한 연구는 많았으나, 대부분 연속형 변수와 명목형 변수에 국한되어 왔다. 본 연구에서는 순서형 변수에 주목하여 CART, QUEST, CRUISE 등 기존 알고리즘과 본 연구에서 제안하는 비모수적 접근 방법인 K-S test, framer-von Misos test 방법의 변수 선택력을 비교하였다. 그 결과 본 연구에서 제안하는 framer-von Mises test 방법이 다른 알고리즘에 비하여, 변수 선택력과 안정성에 있어서 좋은 성과를 보였다.

  • PDF