• 제목/요약/키워드: Input Variable Selection

검색결과 67건 처리시간 0.031초

다구찌 디자인을 이용한 앙상블 및 군집분석 분류 성능 비교 (Comparing Classification Accuracy of Ensemble and Clustering Algorithms Based on Taguchi Design)

  • 신형원;손소영
    • 대한산업공학회지
    • /
    • 제27권1호
    • /
    • pp.47-53
    • /
    • 2001
  • In this paper, we compare the classification performances of both ensemble and clustering algorithms (Data Bagging, Variable Selection Bagging, Parameter Combining, Clustering) to logistic regression in consideration of various characteristics of input data. Four factors used to simulate the logistic model are (1) correlation among input variables (2) variance of observation (3) training data size and (4) input-output function. In view of the unknown relationship between input and output function, we use a Taguchi design to improve the practicality of our study results by letting it as a noise factor. Experimental study results indicate the following: When the level of the variance is medium, Bagging & Parameter Combining performs worse than Logistic Regression, Variable Selection Bagging and Clustering. However, classification performances of Logistic Regression, Variable Selection Bagging, Bagging and Clustering are not significantly different when the variance of input data is either small or large. When there is strong correlation in input variables, Variable Selection Bagging outperforms both Logistic Regression and Parameter combining. In general, Parameter Combining algorithm appears to be the worst at our disappointment.

  • PDF

Variable selection in censored kernel regression

  • Choi, Kook-Lyeol;Shim, Jooyong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권1호
    • /
    • pp.201-209
    • /
    • 2013
  • For censored regression, it is often the case that some input variables are not important, while some input variables are more important than others. We propose a novel algorithm for selecting such important input variables for censored kernel regression, which is based on the penalized regression with the weighted quadratic loss function for the censored data, where the weight is computed from the empirical survival function of the censoring variable. We employ the weighted version of ANOVA decomposition kernels to choose optimal subset of important input variables. Experimental results are then presented which indicate the performance of the proposed variable selection method.

고정점 알고리즘의 독립성분분석과 적응분할의 상호정보 추정에 의한 입력변수선택 (Input Variable Selection by Using Fixed-Point ICA and Adaptive Partition Mutual Information Estimation)

  • 조용현
    • 한국지능시스템학회논문지
    • /
    • 제16권5호
    • /
    • pp.525-530
    • /
    • 2006
  • 본 논문에서는 고정점 알고리즘의 독립성분분석과 적응분할의 상호정보 추정을 조합한 입력변수선택 기법을 제안하였다. 여기서 고정점 알고리즘의 독립성분분석은 할선법에 기반을 둔 방법으로 입력변수 간의 독립성을 빠르게 찾기 위함이고, 적응분할의 상호정보 추정은 입력변수의 확률밀도함수 계산에서 동일한 량의 샘플분할을 가능하게 하여 변수상호간의 종속성을 좀 더 정확하게 구하기 위함이다. 제안된 기법을 인위적으로 제시된 각 500개의 샘플을 가지는 7개의 신호와 특정지역을 대상으로 측정된 각 55개의 샘플을 가진 24개의 환경오염신호를 대상으로 실험한 결과, 빠르고 정확한 변수의 선택이 이루어짐을 확인하였다. 또한 할선법의 고정점 알고리즘 독립성분분석을 수행하지 않을 때와 정규분할의 상호정보 추정 때보다 각각 우수한 선택성능이 있음을 확인하였다.

A Study on Split Variable Selection Using Transformation of Variables in Decision Trees

  • Chung, Sung-S.;Lee, Ki-H.;Lee, Seung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권2호
    • /
    • pp.195-205
    • /
    • 2005
  • In decision tree analysis, C4.5 and CART algorithm have some problems of computational complexity and bias on variable selection. But QUEST algorithm solves these problems by dividing the step of variable selection and split point selection. When input variables are continuous, QUEST algorithm uses ANOVA F-test under the assumption of normality and homogeneity of variances. In this paper, we investigate the influence of violation of normality assumption and effect of the transformation of variables in the QUEST algorithm. In the simulation study, we obtained the empirical powers of variable selection and the empirical bias of variable selection after transformation of variables having various type of underlying distributions.

  • PDF

비선형 시계열 하천생태모형 개발과정 중 시간지연단계와 입력변수, 모형 예측성 간 관계평가 (Relationship among Degree of Time-delay, Input Variables, and Model Predictability in the Development Process of Non-linear Ecological Model in a River Ecosystem)

  • 정광석;김동균;윤주덕;라긍환;김현우;주기재
    • 생태와환경
    • /
    • 제43권1호
    • /
    • pp.161-167
    • /
    • 2010
  • In this study, we implemented an experimental approach of ecological model development in order to emphasize the importance of input variable selection with respect to time-delayed arrangement between input and output variables. Time-series modeling requires relevant input variable selection for the prediction of a specific output variable (e.g. density of a species). Inadequate variable utility for input often causes increase of model construction time and low efficiency of developed model when applied to real world representation. Therefore, for future prediction, researchers have to decide number of time-delay (e.g. months, weeks or days; t-n) to predict a certain phenomenon at current time t. We prepared a total of 3,900 equation models produced by Time-Series Optimized Genetic Programming (TSOGP) algorithm, for the prediction of monthly averaged density of a potamic phytoplankton species Stephanodiscus hantzschii, considering future prediction from 0- (no future prediction) to 12-months ahead (interval by 1 month; 300 equations per each month-delay). From the investigation of model structure, input variable selectivity was obviously affected by the time-delay arrangement, and the model predictability was related with the type of input variables. From the results, we can conclude that, although Machine Learning (ML) algorithms which have popularly been used in Ecological Informatics (EI) provide high performance in future prediction of ecological entities, the efficiency of models would be lowered unless relevant input variables are selectively used.

주요성분분석과 상호정보 추정에 의한 입력변수선택 (Input Variable Selection by Principal Component Analysis and Mutual Information Estimation)

  • 조용현;홍성준
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.175-178
    • /
    • 2006
  • 본 논문에서는 주요성분분석과 상호정보 추정을 조합한 입력변수선택 기법을 제안하였다. 여기서 주요성분분석은 2차원 통계성을 이용하여 입력변수 간의 독립성을 찾기 위함이고, 상호정보의 추정은 적응적 분할을 이용하여 입력변수의 확률밀도함수를 계산함으로써 변수상호간의 종속성을 좀더 정확하게 측정하기 위함이다. 제안된 기법을 인위적으로 제시된 각 500개의 샘플을 가지는 6개의 독립신호와 1개의 종속신호를 대상으로 실험한 결과, 빠르고 정확한 변수의 선택이 이루어짐을 확인하였다.

  • PDF

주요성분분석과 상호정보 추정에 의한 입력변수선택 (Input Variables Selection by Principal Component Analysis and Mutual Information Estimation)

  • 조용현;홍성준
    • 한국지능시스템학회논문지
    • /
    • 제17권2호
    • /
    • pp.220-225
    • /
    • 2007
  • 본 논문에서는 주요성분분석과 상호정보 추정을 조합한 입력변수선택 기법을 제안하였다. 여기서 주요성분분석은 2차원 통계성에 기반을 둔 기법으로 입력변수 간의 종속성을 빠르게 제거하여 과추정을 방지하기 위함이고, 상호정보의 추정은 적응적 분할을 이용하여 입력변수의 확률밀도함수를 계산함으로써 변수상호간의 종속성을 좀 더 정확하게 측정하기 위함이다. 제안된 기법을 각 500개 샘플의 7개 신호를 가지는 인위적인 문제와 각 55개 샘플의 24개의 신호를 가지는 환경오염신호를 대상으로 각각 실험한 결과, 빠르고 정확한 변수의 선택이 이루어짐을 확인하였다. 또한 주요성분분석을 수행하지 않을 때와 정규분할의 상호정보 추정 때보다 제안된 방법은 각각 우수한 선택성능이 있음을 확인하였다.

상호정보량 기법을 적용한 인공신경망 입력자료의 선정 (Input Variables Selection of Artificial Neural Network Using Mutual Information)

  • 한광희;류용준;김태순;허준행
    • 한국수자원학회논문집
    • /
    • 제43권1호
    • /
    • pp.81-94
    • /
    • 2010
  • 본 연구는 인공신경망의 성능을 향상시키기 위한 여러 가지 방법들 중의 하나인 입력변수 선정기법에 관한 연구로서, 일반적으로 널리 사용되고 있는 상관계수를 이용한 입력변수 선정기법 외에 상호정보량을 활용한 방법을 적용하여 인공신경망의 성능을 향상시키고자 하였다. 대상자료는 기상청에서 제공하는 RDAPS자료의 152개 출력값으로 지상강우량의 예측값인 APCP를 포함하고 있으며, 강우관측값간의 상호정보량을 구해 가장 영향력이 큰 변수를 입력변수로 사용하였다. 기존연구결과, 그리고 상관계수만을 이용해서 입력변수를 선정한 결과와 비교해볼 때, 상호정보량을 적용한 경우 입력변수는 주로 바람과 관련된 변수들이 선정되었으며, 평균제곱근오차, 평균제곱근상대오차, 그룹별로 구분한 경우의 절대오차, 그리고 구간별로 구분한 경우의 상대오차를 비교한 경과 상호정보량을 이용한 입력변수 선정방법의 정확도가 전반적으로 높은 것으로 나타났으며, 특히 강우량이 상대적으로 큰 경우의 오차를 많이 감소시킬 수 있는 것으로 나타났다.

Robust varying coefficient model using L1 regularization

  • Hwang, Changha;Bae, Jongsik;Shim, Jooyong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.1059-1066
    • /
    • 2016
  • In this paper we propose a robust version of varying coefficient models, which is based on the regularized regression with L1 regularization. We use the iteratively reweighted least squares procedure to solve L1 regularized objective function of varying coefficient model in locally weighted regression form. It provides the efficient computation of coefficient function estimates and the variable selection for given value of smoothing variable. We present the generalized cross validation function and Akaike information type criterion for the model selection. Applications of the proposed model are illustrated through the artificial examples and the real example of predicting the effect of the input variables and the smoothing variable on the output.

다구찌 디자인을 이용한 데이터 퓨전 및 군집분석 분류 성능 비교 (Comparison Study for Data Fusion and Clustering Classification Performances)

  • 신형원;손소영
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2000년도 춘계공동학술대회 논문집
    • /
    • pp.601-604
    • /
    • 2000
  • In this paper, we compare the classification performance of both data fusion and clustering algorithms (Data Bagging, Variable Selection Bagging, Parameter Combining, Clustering) to logistic regression in consideration of various characteristics of input data. Four factors used to simulate the logistic model are (1) correlation among input variables (2) variance of observation (3) training data size and (4) input-output function. Since the relationship between input & output is not typically known, we use Taguchi design to improve the practicality of our study results by letting it as a noise factor. Experimental study results indicate the following: Clustering based logistic regression turns out to provide the highest classification accuracy when input variables are weakly correlated and the variance of data is high. When there is high correlation among input variables, variable bagging performs better than logistic regression. When there is strong correlation among input variables and high variance between observations, bagging appears to be marginally better than logistic regression but was not significant.

  • PDF