• 제목/요약/키워드: Imbalance data

검색결과 475건 처리시간 0.195초

Severity-based Software Quality Prediction using Class Imbalanced Data

  • Hong, Euy-Seok;Park, Mi-Kyeong
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.73-80
    • /
    • 2016
  • Most fault prediction models have class imbalance problems because training data usually contains much more non-fault class modules than fault class ones. This imbalanced distribution makes it difficult for the models to learn the minor class module data. Data imbalance is much higher when severity-based fault prediction is used. This is because high severity fault modules is a smaller subset of the fault modules. In this paper, we propose severity-based models to solve these problems using the three sampling methods, Resample, SpreadSubSample and SMOTE. Empirical results show that Resample method has typical over-fit problems, and SpreadSubSample method cannot enhance the prediction performance of the models. Unlike two methods, SMOTE method shows good performance in terms of AUC and FNR values. Especially J48 decision tree model using SMOTE outperforms other prediction models.

검증데이터 기반의 차별화된 이상데이터 처리를 통한 데이터 불균형 해소 방법 (Resolving data imbalance through differentiated anomaly data processing based on verification data)

  • 황철현
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.179-190
    • /
    • 2022
  • 데이터 불균형은 한 분류의 데이터 수가 다른 분류에 비해 지나치게 크거나 작은 현상을 의미하며. 이로 인해 분류 알고리즘을 활용하는 기계학습에서 성능을 저하시키는 주요 요인으로 제기되고 있다. 데이터 불균형 문제 해결을 위해서 소수 분포 데이터를 증폭하는 다양한 오버 샘플링(Over Sampling) 방법들이 제안되고 있다. 이 가운데 SMOTE는 가장 대표적인 방법으로 소수 분포 데이터의 증폭 효과를 극대화하기 위해 데이터에 포함된 잡음을 제거(SMOTE-IPF)하거나, 경계선만을 강화(Borderline SMOTE) 시키는 다양한 방법들이 출현하였다. 이 논문은 소수분류 데이터를 증폭하는 전통적인 SMOTE 방법에서 이상데이터(Anomaly Data)에 대한 처리방법개선을 통해 궁극적으로 분류성능을 높이는 방법을 제안한다. 제안 방법은 실험을 통해 기존 방법에 비해 상대적으로 높은 분류성능을 일관성 있게 제시하였다.

Research on the Amount of Empty Containers in Japanese Main Ports

  • Kubo, Masayoshi;Zhang, Wenhui
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2004년도 Asia Navigation Conference
    • /
    • pp.87-95
    • /
    • 2004
  • Economic development is remarkable in Asia and progress of industrialization of NIES, ASEAN, and China in East Asia has increased the international physical distribution in this area. However, an imbalance of trade becomes severe in these areas. The imbalance is especially big in the Asia-North America route and the Japan-China route. The imbalance in the Asia -North America liner route is 5.04 million TEUS in 2002.The transportation ratio of loaded containers between China and Japan route is approximately 3:1 in 2000. In other words, it means that the transportation of loaded containers from China to Japan is 3, the transportation of loaded containers from Japan to China is I. The imbalance at a port is generally obtained by subtracting export loaded container cargo volume from import container cargo volume. However, the imbalance and the empty containers at the port are not always same. Then, in order to evaluate rationalization and efficiency of maritime container transportation, we introduce the amount of empty containers at a port as an evaluation index. However, the past data of the amount of handling empty containers have a lot of lacking portions. Then, it is necessary to estimate the past amount of empty containers in order to grasp the amount of empty containers historically. So, we construct the model that estimates the amount of empty containers using the imbalance of main port statistics in Japan.

  • PDF

코히어런트 PON시스템의 I/Q 진폭불균형 분석 및 보상 (Analysis and Compensation of I/Q Amplitude Imbalance In Coherent PON Systems)

  • 김나영;이승우;박영일
    • 한국통신학회논문지
    • /
    • 제40권10호
    • /
    • pp.1940-1946
    • /
    • 2015
  • 차세대 광가입자망시스템에서는 전송속도 및 전송거리 향상을 위해 코히어런트 광전송 시스템이 검토되고 있다. 그런데 이 전송방식의 경우 I/Q 불균형 요인에 의해 전송 성능 저하를 일으킬 수 있으며, 가입자 수신부 내부 구조의 비대칭성은 I/Q 진폭불균형의 주 요인이 될 수 있다. 따라서 안정적인 전송 성능 보장을 위해서는 이런 불균형 성분을 제거하거나 보상해주어야 한다. 본 논문에서는 I/Q 진폭불균형의 원인 및 전송 성능에 미치는 영향을 분석하고, 수신부에서 발생하는 I/Q 진폭불균형 요인을 보상하는 방식을 제시하였다. 또한 시뮬레이션을 통해 제안한 방식의 성능을 보인다.

인코더를 이용한 2축 각도 기반 보행 불균형 평가 시스템 연구 (A Study on Gait Imbalance Evaluation System based on Two-axis Angle using Encoder)

  • 심현민;김유현;조우형;권장우;이상민
    • 제어로봇시스템학회논문지
    • /
    • 제21권5호
    • /
    • pp.401-406
    • /
    • 2015
  • In this study, the gait imbalance evaluation algorithm based on two axes angle using encoder is proposed. This experiment was carried out to experiment with a healthy adult male to 10 people. The device is attached to the hip and knee joint in order to measure the angle during the gait. Normal and imbalance gait angle data were measured using an encoder attached to the hip and knee joints. Also, in order to verify the reliability of estimation of asymmetrical gait using hip and knee angle, it was compared with the result of asymmetrical gait estimation using foot pressure. SI (Symmetry Index) was used as an index for determining the gait imbalance. As a result, normal gait and 1.5cm imbalance gait were evaluation as normal gait through SI using an encoder. And imbalance gait of 3cm, 4cm, and 6cm were judge by imbalance gait. Whereas all gait experiments except normal gait were evaluation as imbalance gait through SI using the pressure. It was possible to determine both the normal gait and imbalance gait through measurement for the angle and the pressure.

지도학습 기반 암상 분류 시 클래스 간 자료 불균형을 고려한 평가지표 개발 (Development of Evaluation Metrics that Consider Data Imbalance between Classes in Facies Classification)

  • 김도완;최준환;변중무
    • 지구물리와물리탐사
    • /
    • 제23권3호
    • /
    • pp.131-140
    • /
    • 2020
  • 머신러닝을 이용한 분류 모델 훈련에서 학습자료의 양과 질은 학습한 모델의 성능을 좌우하므로 학습자료 생성이 매우 중요한 역할을 한다. 그러나 자료 생성에 높은 비용이 들어 이상적인 학습자료 생성이 어려울 때에는 클래스 간 자료 불균형 문제가 발생한다. 만약 학습자료로 사용될 탐사자료가 클래스 간 불균형하게 얻어지면, 클래스 별로 균형있는 학습이 이루어지기 힘들다. 따라서 데이터가 상대적으로 적은 클래스는 재현율이 현저히 떨어지게 된다. 그 뿐만 아니라 정확도와 정밀도 등의 평가지표들에 대한 신뢰도가 떨어지게 된다. 따라서 이 연구에서는 두 단계에 걸쳐 자료 불균형 문제를 해소하고자 하였다. 첫 번째로 기존의 정확도와 정밀도를 개선하여 자료 불균형을 고려할 수 있는 새로운 평가지표로 가중정확도와 가중정밀도를 고안하였다. 다음으로 클래스 간의 가중정밀도와 재현율의 균형을 맞추어 주도록 오버샘플링을 수행하였다. 개발한 알고리듬을 물리검층 자료를 이용한 암상 및 공극유체 규명 문제에 적용함으로써 검증하였다. 그 결과 다수 클래스와 소수 클래스들 간의 불균형이 상당 부분 완화되었고, 클래스 간의 경계를 보다 명확하게 확인할 수 있었다.

Diffusion Model을 활용한 신용 예측 데이터 불균형 해결 기법 (Mitigating Data Imbalance in Credit Prediction using the Diffusion Model)

  • 오상민;이주홍
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.9-15
    • /
    • 2024
  • 본 논문에서는 신용 예측에서 발생하는 불균형 문제를 해결하기 위해 Diffusion Multi-step Classifier(DMC)를 제안한다. DMC는 Diffusion Model을 통해 신용 예측 데이터의 연속적인 수치형 데이터들을 생성하고 생성된 데이터들을 Multi-step Classifier로 구분하는 것으로 범주형 데이터를 생성한다. DMC를 통해 기존의 데이터를 생성하는 다른 알고리즘보다 실제 데이터와 유사한 분포를 가지는 데이터를 생성할 수 있었다. 이렇게 생성된 데이터를 사용하여 실험을 진행하였을 때 연체를 예측할 확률이 20%이상 상승하였으며, 전체적으로 예측 정확성은 약 4%정도 상승하였다. 이러한 연구 결과는 실제 금융기관에 적용 시 연체율 감소와 수익 증가에 큰 기여를 할 수 있을것으로 예상된다.

신용카드 대손회원 예측을 위한 SVM 모형 (Credit Card Bad Debt Prediction Model based on Support Vector Machine)

  • 김진우;지원철
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.233-250
    • /
    • 2012
  • In this paper, credit card delinquency means the possibility of occurring bad debt within the certain near future from the normal accounts that have no debt and the problem is to predict, on the monthly basis, the occurrence of delinquency 3 months in advance. This prediction is typical binary classification problem but suffers from the issue of data imbalance that means the instances of target class is very few. For the effective prediction of bad debt occurrence, Support Vector Machine (SVM) with kernel trick is adopted using credit card usage and payment patterns as its inputs. SVM is widely accepted in the data mining society because of its prediction accuracy and no fear of overfitting. However, it is known that SVM has the limitation in its ability to processing the large-scale data. To resolve the difficulties in applying SVM to bad debt occurrence prediction, two stage clustering is suggested as an effective data reduction method and ensembles of SVM models are also adopted to mitigate the difficulty due to data imbalance intrinsic to the target problem of this paper. In the experiments with the real world data from one of the major domestic credit card companies, the suggested approach reveals the superior prediction accuracy to the traditional data mining approaches that use neural networks, decision trees or logistics regressions. SVM ensemble model learned from T2 training set shows the best prediction results among the alternatives considered and it is noteworthy that the performance of neural networks with T2 is better than that of SVM with T1. These results prove that the suggested approach is very effective for both SVM training and the classification problem of data imbalance.

사출성형공정에서 데이터의 불균형 해소를 위한 담금질모사 (Simulated Annealing for Overcoming Data Imbalance in Mold Injection Process)

  • 이동주
    • 산업경영시스템학회지
    • /
    • 제45권4호
    • /
    • pp.233-239
    • /
    • 2022
  • The injection molding process is a process in which thermoplastic resin is heated and made into a fluid state, injected under pressure into the cavity of a mold, and then cooled in the mold to produce a product identical to the shape of the cavity of the mold. It is a process that enables mass production and complex shapes, and various factors such as resin temperature, mold temperature, injection speed, and pressure affect product quality. In the data collected at the manufacturing site, there is a lot of data related to good products, but there is little data related to defective products, resulting in serious data imbalance. In order to efficiently solve this data imbalance, undersampling, oversampling, and composite sampling are usally applied. In this study, oversampling techniques such as random oversampling (ROS), minority class oversampling (SMOTE), ADASYN(Adaptive Synthetic Sampling), etc., which amplify data of the minority class by the majority class, and complex sampling using both undersampling and oversampling, are applied. For composite sampling, SMOTE+ENN and SMOTE+Tomek were used. Artificial neural network techniques is used to predict product quality. Especially, MLP and RNN are applied as artificial neural network techniques, and optimization of various parameters for MLP and RNN is required. In this study, we proposed an SA technique that optimizes the choice of the sampling method, the ratio of minority classes for sampling method, the batch size and the number of hidden layer units for parameters of MLP and RNN. The existing sampling methods and the proposed SA method were compared using accuracy, precision, recall, and F1 Score to prove the superiority of the proposed method.

온라인 주식게시판 정보가 주식투자자의 거래행태에 미치는 영향 (The Impact of Information on Stock Message Boards on Stock Trading Behaviors of Individual Investors based on Order Imbalance Analysis)

  • 김현모;박재홍
    • 경영정보학연구
    • /
    • 제18권2호
    • /
    • pp.23-38
    • /
    • 2016
  • 지금까지 수행된 연구들은 온라인 주식게시판 정보가 주식시장 활동에 미치는 영향의 유무만을 보이는 것에 초점을 맞추었으며, 온라인 주식게시판 정보가 주식투자자에게 매수 의도를 갖도록 하는지, 혹은 매도 의도를 갖도록 하는지에 대해서 연구되지 않았다. 따라서 본 연구의 목적은 온라인 주식게시판 정보가 주로 주식투자자의 어떠한 거래행태를 불러일으키는지 확인하는 것이다. 본 연구의 목적을 달성하기 위하여, 온라인 주식게시판 정보로서 주식 게시물 수를 온라인 구전활동 정도로 보았으며, 매수 및 매도 거래행태로서 주문불균형을 주식투자자의 거래방향성으로 보았다. 그리고 이를 기반으로 온라인 주식게시판의 장내 및 장외 주식게시물 수와 주문불균형 간의 상관관계를 확인하였다. 실증분석을 위하여, KOSPI에 상장된 40개 주식종목에 대한 온라인 주식시판으로부터 3개월 동안의 전체 게시물 46,077개를 수집하였고, 코스콤 데이터베이스로부터 해당 주식 종목에 대한 매수 및 매도 주도거래 데이터를 수집하여 절대 거래횟수 주문불균형 데이터를 설정하였다. 수집한 모든 데이터는 종목 및 시간에 따른 균형 패널데이터(balanced panel data)로 구성하였고, 패널 벡터자기 회귀 분석을 수행하였다. 본 연구의 분석결과를 살펴보면, 온라인 주식게시판의 1, 2일 전(t-1, t-2) 장내 게시물 수는 당일 주문불균형에 양의 영향을 미치는 것으로 나타났다. 그리고 온라인 주식게시판의 1일 전(t-1) 장외 게시물 수는 당일 주문불균형에 양의 영향을 미치는 것으로 나타났다. 즉, 온라인 주식게시판 정보는 주식투자자에게 주로 주식매수 결정에 영향을 미치는 것으로 보여 졌으며, 온라인 주식게시판 정보는 주로 해당 주식을 매수하도록 하는 감성(strong buy or buy sentiment)의 속성을 가진 것으로 추정되었다. 이러한 실증분석 결과를 바탕으로 정보시스템 및 재무행태학 부문의 학술적, 실무적 기여점을 제시한다.