• 제목/요약/키워드: Impurity Measures

검색결과 7건 처리시간 0.272초

Feature Selection for Multi-Class Support Vector Machines Using an Impurity Measure of Classification Trees: An Application to the Credit Rating of S&P 500 Companies

  • Hong, Tae-Ho;Park, Ji-Young
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.43-58
    • /
    • 2011
  • Support vector machines (SVMs), a machine learning technique, has been applied to not only binary classification problems such as bankruptcy prediction but also multi-class problems such as corporate credit ratings. However, in general, the performance of SVMs can be easily worse than the best alternative model to SVMs according to the selection of predictors, even though SVMs has the distinguishing feature of successfully classifying and predicting in a lot of dichotomous or multi-class problems. For overcoming the weakness of SVMs, this study has proposed an approach for selecting features for multi-class SVMs that utilize the impurity measures of classification trees. For the selection of the input features, we employed the C4.5 and CART algorithms, including the stepwise method of discriminant analysis, which is a well-known method for selecting features. We have built a multi-class SVMs model for credit rating using the above method and presented experimental results with data regarding S&P 500 companies.

프로그램에 대한 복잡도 측정인자 분석 (An Analysis of the Complexity Measurement Factor for a Program)

  • 이규범;송정영
    • 인터넷정보학회논문지
    • /
    • 제3권4호
    • /
    • pp.61-69
    • /
    • 2002
  • 객체지향 프로그램에 대한 복잡도 측정에 관한 방법으로서 기존의 객체지향 패러다임 특성이라 할 수 있는 객체, 메시지, 클래스, 캡슐화 및 상속성 등에 관한 연구는 이미 보고된바 있다. 본 연구에서는 측정인자로서 Halstead의 Program Volume, Program Level, Program Impurity, Macabe의 Cyclomatic Number, Handerson-Sellers의 응집도 결핍척도 Sullivan's의 PVG측정 방법 등을 선택하였다. 시뮬레이션으로는 객체지향 프로그램의 대표적인 언어인 JAVA Program을 Design & Coding할 때 도움을 주는 척도에 대해서 JAVA Sample Program을 준비하여 프로그램 복잡도 면에서 측정인자들을 각각 비교·분석하였다.

  • PDF

의사결정나무에서 다중 목표변수를 고려한 (Splitting Decision Tree Nodes with Multiple Target Variables)

  • 김성준
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.243-246
    • /
    • 2003
  • Data mining is a process of discovering useful patterns for decision making from an amount of data. It has recently received much attention in a wide range of business and engineering fields Classifying a group into subgroups is one of the most important subjects in data mining Tree-based methods, known as decision trees, provide an efficient way to finding classification models. The primary concern in tree learning is to minimize a node impurity, which is evaluated using a target variable in the data set. However, there are situations where multiple target variables should be taken into account, for example, such as manufacturing process monitoring, marketing science, and clinical and health analysis. The purpose of this article is to present several methods for measuring the node impurity, which are applicable to data sets with multiple target variables. For illustrations, numerical examples are given with discussion.

  • PDF

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

Optimum Design of the Interdigitated CB Structure

  • qiang, Yang-Hong;bi, Chen-Xing
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제2권3호
    • /
    • pp.233-236
    • /
    • 2002
  • Some measures are provided for the optimum design of specific on-resistance $R_{on}$ and breakdown-voltage $V_B$ of interdigitated CB (Composite Buffer) MOSFET, including introducing opposite type impurity into the P region near the $N_+$contact, separating P region from N region with an oxide film, and a groove in the N region near the $P_+$ contact. The new relationship between the $R_{on}$ and $V_B$, which proved by numerical device simulation, are more exact and minute than the qualitative results before.

Performance Evaluation of a Feature-Importance-based Feature Selection Method for Time Series Prediction

  • Hyun, Ahn
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.82-89
    • /
    • 2023
  • Various machine-learning models may yield high predictive power for massive time series for time series prediction. However, these models are prone to instability in terms of computational cost because of the high dimensionality of the feature space and nonoptimized hyperparameter settings. Considering the potential risk that model training with a high-dimensional feature set can be time-consuming, we evaluate a feature-importance-based feature selection method to derive a tradeoff between predictive power and computational cost for time series prediction. We used two machine learning techniques for performance evaluation to generate prediction models from a retail sales dataset. First, we ranked the features using impurity- and Local Interpretable Model-agnostic Explanations (LIME) -based feature importance measures in the prediction models. Then, the recursive feature elimination method was applied to eliminate unimportant features sequentially. Consequently, we obtained a subset of features that could lead to reduced model training time while preserving acceptable model performance.

영광-1, 2호기 2차계통 복수기누설의 이론적 분석 및 영향평가 (Theoretical Analysis and Effect of Condenser In-leakage in the Secondary Systems of YGN-1, 2)

  • Suk, Tae-Won;Lee, Yong-Woo;Kim, Hong-Tae;Park, Sang-Hoon
    • Nuclear Engineering and Technology
    • /
    • 제23권3호
    • /
    • pp.299-305
    • /
    • 1991
  • 복수기를 통한 해수유입은 증기발생기내에 부식환경을 조성시키게 한다. 이론적 분석을 통하여 복수기누설시에 해수증의 불순물인 염소가 2차계통내에 누적되는 경향을 영광원전을 모델로하여 평가하였다. 분석결과 해수누설시에 고농도의 염소가 증기발생기내에 누적되는 것으로 나타났으나, 이는 증기 발생기내의 수질을 산성분위 기로 조성시킬 것으로 판단되었다. 복수기의 최대허용 설계누설(0.5 gpm)시에는 증기발생기 취출수량을 최대로 늘리고, 복수기정화계통을 가동하더라도 증기발생기에 2.3 ppm 및 복수기집수정에 0.6 ppm의 염소가 누적되는 것으로 나타났다. 또한 증기발생기에서의 염소농축계수는 아래와 같이 전적으로 취출수량 및 정화계통효율에만 의존하는 것으로 나타났으며,(equation omitted)취출수 및 정화계통은 2차계통내의 불순물을 제거하는데 효과적인 것으로 평가되었다.

  • PDF