• 제목/요약/키워드: Subset selection

검색결과 203건 처리시간 0.021초

An Exploration on the Use of Data Envelopment Analysis for Product Line Selection

  • Lin, Chun-Yu;Okudan, Gul E.
    • Industrial Engineering and Management Systems
    • /
    • 제8권1호
    • /
    • pp.47-53
    • /
    • 2009
  • We define product line (or mix) selection problem as selecting a subset of potential product variants that can simultaneously minimize product proliferation and maintain market coverage. Selecting the most efficient product mix is a complex problem, which requires analyses of multiple criteria. This paper proposes a method based on Data Envelopment Analysis (DEA) for product line selection. Data Envelopment Analysis (DEA) is a linear programming based technique commonly used for measuring the relative performance of a group of decision making units with multiple inputs and outputs. Although DEA has been proved to be an effective evaluation tool in many fields, it has not been applied to solve the product line selection problem. In this study, we construct a five-step method that systematically adopts DEA to solve a product line selection problem. We then apply the proposed method to an existing line of staplers to provide quantitative evidence for managers to generate desirable decisions to maximize the company profits while also fulfilling market demands.

연관성 규칙 기반 영양소를 이용한 골다공증 예측 모델 (Prediction model of osteoporosis using nutritional components based on association)

  • 유정훈;이범주
    • 문화기술의 융합
    • /
    • 제6권3호
    • /
    • pp.457-462
    • /
    • 2020
  • 골다공증은 주로 노인에서 나타나는 질병으로써 뼈 질량 및 조직의 구조적 악화에 따라 골절의 위험을 증가시킨다. 본 연구의 목적은 영양소 성분과 골다공증과의 연관성을 파악하고, 영양소 성분을 기반으로 골다공증을 예측하는 모델을 생성 및 평가하는 것이다. 실험방법으로 binary logistic regression을 이용하여 연관성분석을 수행하였고, naive Bayes 알고리즘과 variable subset selection 메소드를 이용하여 예측 모델을 생성하였다. 단일 변수들에 대한 분석결과는 남성에서 식품섭취량과 비타민 B2가 골다공증을 예측하는데 가장 높은 the area under the receiver operating characteristic curve (AUC)값을 나타내었다. 여성에서는 단일불포화지방산이 가장 높은 AUC값을 나타내었다. 여성 골다공증 예측모델에서는 Correlation based feature subset 및 wrapper 기반 feature subset 메소드를 이용하여 생성된 모델이 0.662의 AUC 값을 얻었다. 남성에서 전체변수를 이용한 모델은 0.626의 AUC를 얻었고, 그외 남성 모델들에서는 민감도와 1-특이도에서 예측 성능이 매우 낮았다. 이러한 연구결과는 향후 골다공증 치료 및 예방을 위한 기반정보로 활용할수 있을 것으로 기대된다.

고차원 범주형 자료를 위한 비지도 연관성 기반 범주형 변수 선택 방법 (Association-based Unsupervised Feature Selection for High-dimensional Categorical Data)

  • 이창기;정욱
    • 품질경영학회지
    • /
    • 제47권3호
    • /
    • pp.537-552
    • /
    • 2019
  • Purpose: The development of information technology makes it easy to utilize high-dimensional categorical data. In this regard, the purpose of this study is to propose a novel method to select the proper categorical variables in high-dimensional categorical data. Methods: The proposed feature selection method consists of three steps: (1) The first step defines the goodness-to-pick measure. In this paper, a categorical variable is relevant if it has relationships among other variables. According to the above definition of relevant variables, the goodness-to-pick measure calculates the normalized conditional entropy with other variables. (2) The second step finds the relevant feature subset from the original variables set. This step decides whether a variable is relevant or not. (3) The third step eliminates redundancy variables from the relevant feature subset. Results: Our experimental results showed that the proposed feature selection method generally yielded better classification performance than without feature selection in high-dimensional categorical data, especially as the number of irrelevant categorical variables increase. Besides, as the number of irrelevant categorical variables that have imbalanced categorical values is increasing, the difference in accuracy between the proposed method and the existing methods being compared increases. Conclusion: According to experimental results, we confirmed that the proposed method makes it possible to consistently produce high classification accuracy rates in high-dimensional categorical data. Therefore, the proposed method is promising to be used effectively in high-dimensional situation.

개인사업자 부도율 예측 모델에서 신용정보 특성 선택 방법 (The Credit Information Feature Selection Method in Default Rate Prediction Model for Individual Businesses)

  • 홍동숙;백한종;신현준
    • 한국시뮬레이션학회논문지
    • /
    • 제30권1호
    • /
    • pp.75-85
    • /
    • 2021
  • 본 논문에서는 개인사업자 부도율을 보다 정확하게 예측하기 위한 새로운 방법으로 개인사업자의 기업 신용 및 개인 신용정보를 가공, 분석하여 입력 특성으로 활용하는 심층 신경망기반 예측 모델을 제시한다. 다양한 분야의 모델링 연구에서 특성 선택 기법은 특히 많은 특성을 포함하는 예측 모델에서 성능 개선을 위한 방법으로 활발히 연구되어 왔다. 본 논문에서는 부도율 예측 모델에 이용된 입력 변수인 거시경제지표(거시변수)와 신용정보(미시변수)에 대한 통계적 검증 이후 추가적으로 신용정보 특성 선택 방법을 통해 예측 성능을 개선하는 특성 집합을 확인할 수 있다. 제안하는 신용정보 특성 선택 방법은 통계적 검증을 수행하는 필터방법과 다수 래퍼를 결합 사용하는 반복적·하이브리드 방법으로, 서브 모델들을 구축하고 최대 성능 모델의 중요 변수를 추출하여 부분집합을 구성 한 후 부분집합과 그 결합셋에 대한 예측 성능 분석을 통해 최종 특성 집합을 결정한다.

개선된 배깅 앙상블을 활용한 기업부도예측 (Bankruptcy prediction using an improved bagging ensemble)

  • 민성환
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.121-139
    • /
    • 2014
  • 기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.

ON THE THEORY OF SELECTIONS

  • LEE, SEUNG WOO
    • 호남수학학술지
    • /
    • 제19권1호
    • /
    • pp.125-130
    • /
    • 1997
  • In this paper, we give a characterization of collectionwise normality using continuous functions. More precisely, we give a new and short proof of the Dowker's theorem using selection theory that a $T_1$ space X is collectionwise normal if every continuous mapping of every closed subset F of X into a Banach space can be continuously extended over X. This is also a generalization of Tietze's extension theorem.

  • PDF

Selection Conditional on Associated Measurements

  • Yeo, Woon-Bang
    • Journal of the Korean Statistical Society
    • /
    • 제12권2호
    • /
    • pp.110-114
    • /
    • 1983
  • In this paper, a random subset selection procedure for the choice of the k best objects out of n primary measurements $Y_t$ is considered when only the associated measurements $X_t$ are available. In contrast to Yeo and David (1992), where only the ranks of the X's are needed, the present uses the observed X-values. The approach is illustrated numerically when X and Y are bivariate normal and the standard deviation of X is known.

  • PDF

Laplace-Metropolis알고리즘에 의한 다항로짓모형의 변수선택에 관한 연구 (Laplace-Metropolis Algorithm for Variable Selection in Multinomial Logit Model)

  • 김혜중;이애경
    • 품질경영학회지
    • /
    • 제29권1호
    • /
    • pp.11-23
    • /
    • 2001
  • This paper is concerned with suggesting a Bayesian method for variable selection in multinomial logit model. It is based upon an optimal rule suggested by use of Bayes rule which minimizes a risk induced by selecting the multinomial logit model. The rule is to find a subset of variables that maximizes the marginal likelihood of the model. We also propose a Laplace-Metropolis algorithm intended to suggest a simple method forestimating the marginal likelihood of the model. Based upon two examples, artificial data and empirical data examples, the Bayesian method is illustrated and its efficiency is examined.

  • PDF

A Study on Nonparametric Selection Procedures for Scale Parameters

  • Song, Moon-Sup;Chung, Han-Young;Kim, Dong-Jae
    • Journal of the Korean Statistical Society
    • /
    • 제14권1호
    • /
    • pp.39-47
    • /
    • 1985
  • In this paper, we propose some nonparametric subset selection procedures for scale parameters based on rank-likes. The proposed procedures are compared to the Gupta-Sobel's parametric prcedure through a small-sample Monte Carlo study. The results show that the nonparametric procedures are quite robust for heavy-tailed distributions, but they have somewhat low efficiencies.

  • PDF

Variable selection in the kernel Cox regression

  • Shim, Joo-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.795-801
    • /
    • 2011
  • In machine learning and statistics it is often the case that some variables are not important, while some variables are more important than others. We propose a novel algorithm for selecting such relevant variables in the kernel Cox regression. We employ the weighted version of ANOVA decomposition kernels to choose optimal subset of relevant variables in the kernel Cox regression. Experimental results are then presented which indicate the performance of the proposed method.