• 제목/요약/키워드: Imbalance Problem

검색결과 271건 처리시간 0.026초

유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용

  • 장영식;김종우;허준
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 한국지능정보시스템학회
    • /
    • pp.309-320
    • /
    • 2007
  • The data imbalance problem which can be uncounted in data mining classification problems typically means that there are more or less instances in a class than those in other classes. It causes low prediction accuracy of the minority class because classifiers tend to assign instances to major classes and ignore the minor class to reduce overall misclassification rate. In order to solve the data imbalance problem, there has been proposed a number of techniques based on resampling with replacement, adjusting decision thresholds, and adjusting the cost of the different classes. In this paper, we study the feasibility of the combination usage of the techniques previously proposed to deal with the data imbalance problem, and suggest a combination method using genetic algorithm to find the optimal combination ratio of the techniques. To improve the prediction accuracy of a minority class, we determine the combination ratio based on the F-value of the minority class as the fitness function of genetic algorithm. To compare the performance with those of single techniques and the matrix-style combination of random percentage, we performed experiments using four public datasets which has been generally used to compare the performance of methods for the data imbalance problem. From the results of experiments, we can find the usefulness of the proposed method.

  • PDF

Q-매개변수화 제어를 이용한 자기축수 시스템의 불평형 보상에 대한 실험적평가 (Experimental Evaluation of Q-Parameterization Control for the Imbalance Compensation of Magnetic Bearing Syatem)

  • 이준호;김현기;이정석;이기서
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권3호
    • /
    • pp.278-285
    • /
    • 1999
  • This paper utilizes the method of Q-parameterization control to design a controller which solves the problem of imbalance in magnetic bearing systems. There are two methods to solve this problem using feedback controal. The first method is to compensate for the imbalance forces by generating opposing forces on the bearing surface (imbalance compensation). The second method is to make the rotor rotate around its axis of inertia (automatic balancing);in this case no imbalance forces will be generated. In this paper we deal with only imbalance compensation. The free parameter of the Q-parameterization controller is chosen such that these goals are achieved. After the introduction of a model of the magnetic bearing system, we explain the Q-parameterization controller design of the magnetic bearing system with emphasis on the rejection of sinusoidal disturbance for imbalance compensation design. The design objectives are formulated as a linear equations in the controller free paramete Q. Finally, simulation and experimental results are presented and showed the robustness and effectiveness of the proposed controllers.

  • PDF

사출성형해석 연구를 이용한 게이트 밸런스 계산식의 검증 (Verification of gate balancing equation using injection molding analysis)

  • 한성렬
    • Design & Manufacturing
    • /
    • 제12권3호
    • /
    • pp.55-59
    • /
    • 2018
  • In a multi-cavity mold having a runner layout of a fish bone structure, problems of unbalanced filling between cavities occur constantly. Unbalanced charging lowers the dimensional accuracy of a molded article and causes deformation after molding. To solve this problem, the gate size connected to each cavity is adjusted using the BGV (Balanced Gate Value) equation. In this paper, in order to solve the filling imbalance problem of the runner layout mold of fish bone structure through injection molding analysis study, we compared the charging imbalance phenomenon before and after improvement after adjusting the gate size by applying BGV equation. From the results of the molding analysis, the shrinkage ratio before and after the improvement of the molded article was improved by only about 0.08%. Based on these results, it was confirmed that the charging imbalance problem was not significantly improved even when the BGV equation was applied.

유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용 (Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm)

  • 장영식;김종우;허준
    • 지능정보연구
    • /
    • 제14권3호
    • /
    • pp.133-154
    • /
    • 2008
  • 데이터 마이닝 분류 문제에서 발생하는 데이터 불균형 문제는 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 작은 경우를 말한다. 이러한 불균형 문제를 해결하기 위해 표본추출과 오분류 비용에 근거한 여러 가지 기법들이 제시되었으며, 이들 간의 성능 비교에 대한 연구들도 이루어졌다. 본 논문에서는 기존에 제시된 불균형 문제 해소기법들의 조합적 활용에 대한 타당성에 대해 살펴보고 유전자 알고리즘을 통해 그 결합 비율을 결정하여 더 좋은 성과를 낼 수 있는지에 대해 살펴보도록 한다. 소수 범주에 대한 정확성을 높이기 위해 소수 범주에 대한 F-value에 기초하여 기법들의 결합비율을 결정하고 기존 단일 기법들의 성과와 임의의 비율에 의한 격자표 형태의 결합 성과를 비교하여 결합적 활용의 타당성을 살펴본다. 이를 실증적으로 검토하기 위해서, 일반적으로 데이터 불균형 문제를 해결하기 위해 많이 사용되는 4개의 공개 데이터 집합을 이용하여 타당성 분석을 수행하였다. 분석 결과, 전체적으로 단일 기법들의 결합적 활용이 데이터 불균형 해소에 유용한 것으로 나타났다.

  • PDF

데이터 불균형을 고려한 설명 가능한 인공지능 기반 기업부도예측 방법론 연구 (A Methodology for Bankruptcy Prediction in Imbalanced Datasets using eXplainable AI)

  • 허선우;백동현
    • 산업경영시스템학회지
    • /
    • 제45권2호
    • /
    • pp.65-76
    • /
    • 2022
  • Recently, not only traditional statistical techniques but also machine learning algorithms have been used to make more accurate bankruptcy predictions. But the insolvency rate of companies dealing with financial institutions is very low, resulting in a data imbalance problem. In particular, since data imbalance negatively affects the performance of artificial intelligence models, it is necessary to first perform the data imbalance process. In additional, as artificial intelligence algorithms are advanced for precise decision-making, regulatory pressure related to securing transparency of Artificial Intelligence models is gradually increasing, such as mandating the installation of explanation functions for Artificial Intelligence models. Therefore, this study aims to present guidelines for eXplainable Artificial Intelligence-based corporate bankruptcy prediction methodology applying SMOTE techniques and LIME algorithms to solve a data imbalance problem and model transparency problem in predicting corporate bankruptcy. The implications of this study are as follows. First, it was confirmed that SMOTE can effectively solve the data imbalance issue, a problem that can be easily overlooked in predicting corporate bankruptcy. Second, through the LIME algorithm, the basis for predicting bankruptcy of the machine learning model was visualized, and derive improvement priorities of financial variables that increase the possibility of bankruptcy of companies. Third, the scope of application of the algorithm in future research was expanded by confirming the possibility of using SMOTE and LIME through case application.

클래스 불균형 문제에서 베이지안 알고리즘의 학습 행위 분석 (Learning Behavior Analysis of Bayesian Algorithm Under Class Imbalance Problems)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제45권6호
    • /
    • pp.179-186
    • /
    • 2008
  • 본 논문에서는 베이지안 알고리즘이 불균형 데이터의 학습 시 나타나는 현상을 분석하고 성능 평가 방법을 비교하였다. 사전 데이터 분포를 가정하고 불균형 데이터 비율과 분류 복잡도에 따라 발생된 분류 문제에 대해 베이지안 학습을 수행하였다. 실험 결과는 ROC(Receiver Operator Characteristic)와 PR(Precision-Recall) 평가 방법의 AUC(Area Under the Curve)를 계사하여 불균형 데이터 비율과 분류 복잡도에 따라 분석되었다. 비교 분석에서 불균형 비율은 기 수행된 연구 결과와 같이 베이지안 학습에 영향을 주었으며, 높은 분류 복잡도로부터 나타나는 데이터 중복은 학습 성능을 방해하는 요인으로 확인되었다. PR 평가의 AUC는 높은 분류 복잡도와 높은 불균형 데이터 비율에서 ROC 평가의 AUC보다 학습 성능의 차이가 크게 나타났다. 그러나 낮은 분류 복잡도와 낮은 불균형 데이터 비율의 문제에서 두 측정 방법의 학습 성능의 차이는 미비하거나 비슷하였다. 이러한 결과로부터 PR 평가의 AUC는 클래스 불균형 문제의 학습 모델의 설계와 오분류 비용을 고려한 최적의 학습기를 결정하는데 도움을 줄 수 있다.

기업부도 예측 앙상블 모형의 최적화 (The Optimization of Ensembles for Bankruptcy Prediction)

  • 김명종;윤우섭
    • 경영정보학연구
    • /
    • 제24권1호
    • /
    • pp.39-57
    • /
    • 2022
  • 본 연구에서는 범주 불균형 문제가 내재된 기업부도 예측 AdaBoost 앙상블 모형의 성과를 개선하기 위하여 GMOPTBoost 알고리즘을 제안한다. AdaBoost 알고리즘은 오분류 표본에 대하여 강건한 학습기회를 제공한다는 장점이 있지만, 산술평균 정확도에 기반하기 때문에 범주 불균형 문제를 효과적으로 해결하지 못한다는 한계점이 존재한다. GMOPTBoost는 가우시안 경사하강법(Gaussian gradient descent)을 적용하여 기하평균 정확도를 최적화하고 범주 불균형 문제를 효과적으로 해결할 수 있다는 장점이 있다. 본 연구에서는 첫째, 범주 불균형 문제가 예측 모형의 성과에 미치는 효과와 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 5개의 범주 불균형 데이터를 구성하였으며, 둘째, 범주 균형 데이터에 대한 GMOPTBoost의 성과 개선 효과를 검증하기 위하여 데이터 샘플링 기법을 통하여 구성된 균형 데이터를 구성하였다. 30회의 교차타당성 분석의 주요 결과는 다음과 같다. 첫째, 범주 불균형 문제는 예측 성과에 부정적인 영향을 미친다. 둘째, GMOPTBoost는 불균형 데이터에 적용된 AdaBoost의 성과를 유의적으로 개선시키는 긍정적인 효과를 제공한다. 셋째, 데이터 샘플링 기법은 성과 개선에 긍정적인 영향을 미친다. 마지막으로 데이터 샘플링 기법을 적용한 범주 균형 데이터에서도 GMOPTBoost는 유의적인 성과 개선에 기여한다.

A New Required Reserve Capacity Determining Scheme with Regard to Real time Load Imbalance

  • Park, Joon Hyung;Kim, Sun Kyo;Yoon, Yong Tae
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권2호
    • /
    • pp.511-517
    • /
    • 2015
  • Determination of the required reserve capacity has an important function in operation of power system and it is calculated based on the largest loss of supply. However, conventional method cannot be applied in future power system, because potential grid-connected distributed generator and abnormal temperature cause the large load imbalance. Therefore this paper address new framework for determining the optimal required reserve capacity taking into account the real time load imbalance. At first, we introduce the way of operating reserve resources which are the secondary, tertiary, Direct Load Control (DLC) and Load shedding reserves to make up the load imbalance. Then, the formulated problem can be solved by the Probabilistic Dynamic Programming (PDP) method. In case study, we divide two cases for comparing the cost function between the conventional method and the proposed method.

지도학습 기반 암상 분류 시 클래스 간 자료 불균형을 고려한 평가지표 개발 (Development of Evaluation Metrics that Consider Data Imbalance between Classes in Facies Classification)

  • 김도완;최준환;변중무
    • 지구물리와물리탐사
    • /
    • 제23권3호
    • /
    • pp.131-140
    • /
    • 2020
  • 머신러닝을 이용한 분류 모델 훈련에서 학습자료의 양과 질은 학습한 모델의 성능을 좌우하므로 학습자료 생성이 매우 중요한 역할을 한다. 그러나 자료 생성에 높은 비용이 들어 이상적인 학습자료 생성이 어려울 때에는 클래스 간 자료 불균형 문제가 발생한다. 만약 학습자료로 사용될 탐사자료가 클래스 간 불균형하게 얻어지면, 클래스 별로 균형있는 학습이 이루어지기 힘들다. 따라서 데이터가 상대적으로 적은 클래스는 재현율이 현저히 떨어지게 된다. 그 뿐만 아니라 정확도와 정밀도 등의 평가지표들에 대한 신뢰도가 떨어지게 된다. 따라서 이 연구에서는 두 단계에 걸쳐 자료 불균형 문제를 해소하고자 하였다. 첫 번째로 기존의 정확도와 정밀도를 개선하여 자료 불균형을 고려할 수 있는 새로운 평가지표로 가중정확도와 가중정밀도를 고안하였다. 다음으로 클래스 간의 가중정밀도와 재현율의 균형을 맞추어 주도록 오버샘플링을 수행하였다. 개발한 알고리듬을 물리검층 자료를 이용한 암상 및 공극유체 규명 문제에 적용함으로써 검증하였다. 그 결과 다수 클래스와 소수 클래스들 간의 불균형이 상당 부분 완화되었고, 클래스 간의 경계를 보다 명확하게 확인할 수 있었다.

신용카드 대손회원 예측을 위한 SVM 모형 (Credit Card Bad Debt Prediction Model based on Support Vector Machine)

  • 김진우;지원철
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.233-250
    • /
    • 2012
  • In this paper, credit card delinquency means the possibility of occurring bad debt within the certain near future from the normal accounts that have no debt and the problem is to predict, on the monthly basis, the occurrence of delinquency 3 months in advance. This prediction is typical binary classification problem but suffers from the issue of data imbalance that means the instances of target class is very few. For the effective prediction of bad debt occurrence, Support Vector Machine (SVM) with kernel trick is adopted using credit card usage and payment patterns as its inputs. SVM is widely accepted in the data mining society because of its prediction accuracy and no fear of overfitting. However, it is known that SVM has the limitation in its ability to processing the large-scale data. To resolve the difficulties in applying SVM to bad debt occurrence prediction, two stage clustering is suggested as an effective data reduction method and ensembles of SVM models are also adopted to mitigate the difficulty due to data imbalance intrinsic to the target problem of this paper. In the experiments with the real world data from one of the major domestic credit card companies, the suggested approach reveals the superior prediction accuracy to the traditional data mining approaches that use neural networks, decision trees or logistics regressions. SVM ensemble model learned from T2 training set shows the best prediction results among the alternatives considered and it is noteworthy that the performance of neural networks with T2 is better than that of SVM with T1. These results prove that the suggested approach is very effective for both SVM training and the classification problem of data imbalance.