• 제목/요약/키워드: 불균형 데이터

검색결과 392건 처리시간 0.028초

데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs (EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems)

  • 강필성;조성준
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.291-298
    • /
    • 2006
  • 패턴인식 문제에서 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 적으면 데이터 불균형이 발생했다고 한다. Support Vector Machine(SVM)은 다른 기계 학습 알고리즘들과 마찬가지로 학습에 사용되는 데이터의 범주간 비율이 거의 비슷하다는 가정 하에서 학습을 하고 예측 결과를 도출하게 된다. 그러나 실제 문제에서는 데이터의 불균형이 발생하는 경우가 매우 빈번하며, 이러한 경우에는 모델의 성능이 매우 저하되는 문제점이 발생한다. 본 논문에서는 실제로 데이터 불균형이 SVM의 분류 결과에 어떠한 영향을 미치는지를 2차원 인공 데이터를 통하여 알아본다. 그리고 이러한 데이터 불균형을 해소하기 위하여 Under-Sampling 기반 앙상블 SVM을 제안하였다. 제안된 방법을 두 가지 인공 데이터에 적용하여 본 결과, 제안된 방법은 데이터 불균형을 해소하기 위해 사용되는 기존의 방법들에 비하여 소수 범주에 속하는 데이터의 수가 매우 적고 데이터의 불균형이 매우 심한 경우에도 높은 성능과 안정성을 갖는 효과적인 방법이라는 것이 입증되었다.

  • PDF

데이터 불균형 기법의 부작용 완화를 위한 어텐션 기반 앙상블 (Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method)

  • 박요한;최용석;;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.546-551
    • /
    • 2023
  • 일반적으로 딥러닝 모델은 모든 라벨에 데이터 수가 균형을 이룰 때 가장 좋은 성능을 보인다. 그러나 현실에서는 특정라벨에 대한 데이터가 부족한 경우가 많으며 이로 인해 불균형 데이터 문제가 발생한다. 이에 대한 해결책으로 오버샘플링과 가중치 손실과 같은 데이터 불균형 기법이 연구되었지만 이러한 기법들은 데이터가 적은 라벨의 성능을 개선하는 동시에 데이터가 많은 라벨의 성능을 저하시키는 부작용을 가지고 있다. 본 논문에서는 이 문제를 완화시키고자 어텐션 기반의 앙상블 기법을 제안한다. 어텐션 기반의 앙상블은 데이터 불균형 기법을 적용한 모델과 적용하지 않은 모델의 출력 값을 가중 평균하여 최종 예측을 수행한다. 이때 가중치는 어텐션 메커니즘을 통해 동적으로 조절된다. 그로므로 어텐션 기반의 앙상블 모델은 입력 데이터 특성에 따라 가중치를 조절할 수가 있다. 실험은 에세이 자동 평가 데이터를 대상으로 수행하였다. 실험 결과로는 제안한 모델이 데이터 불균형 기법의 부작용을 완화하고 성능이 개선되었다.

  • PDF

머신러닝을 위한 불균형 데이터 처리 방법 : 샘플링을 위주로 (Handling Method of Imbalance Data for Machine Learning : Focused on Sampling)

  • 이규남;임종태;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.567-577
    • /
    • 2019
  • 최근 학계, 산업계 등에서 접하는 기존의 문제를 머신러닝을 통해 해결하려는 시도가 증가하고 있다. 이에 따라 이탈, 사기탐지, 장애탐지 등 일반적이지 않은 상황을 머신러닝으로 해결하기 위한 다양한 연구가 이어지고 있다. 대부분의 일반적이지 않은 환경에서는 데이터가 불균형하게 분포하며, 이러한 불균형한 데이터는 머신러닝의 수행과정에서 오류를 야기하므로 이를 해결하기 위한 불균형 데이터 처리 기법이 필요하다. 본 논문에서는 머신러닝을 위한 불균형 데이터 처리 방법을 제안한다. 제안하는 방법은 샘플링 방법을 중심으로 다수 클래스(Major Class)의 모집단 분포를 효율적으로 추출하도록 검증하여 머신 러닝을 위한 불균형 데이터 문제를 해결한다. 본 논문에서는 성능평가를 통해 제안하는 기법이 기존 기법에 비해 성능이 우수함을 보인다.

분류 복잡도를 활용한 오버 샘플링 비율 산출 알고리즘 개발 (A Study on Calculating Over-sampling Ratio using Classification Complexity)

  • 이도현;김경옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.591-594
    • /
    • 2020
  • 불균형 데이터는 범주에 따른 데이터의 분포가 불균형한 데이터를 의미한다. 이런 데이터를 활용해 기존 분류 알고리즘으로 분류기를 학습하면 성능이 저하되는 문제가 발생한다. 오버 샘플링은 이를 해결하기 위한 기법 중 하나로 수가 적은 범주[이하 소수 범주]에 속한 데이터 수를 임의로 증가시킨다. 기존 연구들에서는 수가 많은 범주[이하 다수 범주]에 속한 데이터 수와 동일한 크기만큼 증가시키는 경우가 많다. 이는 증가시키는 샘플의 수를 결정할 때 범주 간 데이터 수 비율만 고려한 것이다. 그런데 데이터가 동일한 수준의 불균형 정도를 갖더라도 범주별 데이터 분포에 따라서 분류 복잡도가 다르며, 경우에 따라 데이터 분포에서 존재하는 불균형 정도를 완전히 해소하지 않아도 된다. 이에 본 논문은 분류 복잡도를 활용해 데이터 셋 별 적정 오버 샘플링 비율을 산출하는 알고리즘을 제안한다.

클래스 불균형 문제에서 베이지안 알고리즘의 학습 행위 분석 (Learning Behavior Analysis of Bayesian Algorithm Under Class Imbalance Problems)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제45권6호
    • /
    • pp.179-186
    • /
    • 2008
  • 본 논문에서는 베이지안 알고리즘이 불균형 데이터의 학습 시 나타나는 현상을 분석하고 성능 평가 방법을 비교하였다. 사전 데이터 분포를 가정하고 불균형 데이터 비율과 분류 복잡도에 따라 발생된 분류 문제에 대해 베이지안 학습을 수행하였다. 실험 결과는 ROC(Receiver Operator Characteristic)와 PR(Precision-Recall) 평가 방법의 AUC(Area Under the Curve)를 계사하여 불균형 데이터 비율과 분류 복잡도에 따라 분석되었다. 비교 분석에서 불균형 비율은 기 수행된 연구 결과와 같이 베이지안 학습에 영향을 주었으며, 높은 분류 복잡도로부터 나타나는 데이터 중복은 학습 성능을 방해하는 요인으로 확인되었다. PR 평가의 AUC는 높은 분류 복잡도와 높은 불균형 데이터 비율에서 ROC 평가의 AUC보다 학습 성능의 차이가 크게 나타났다. 그러나 낮은 분류 복잡도와 낮은 불균형 데이터 비율의 문제에서 두 측정 방법의 학습 성능의 차이는 미비하거나 비슷하였다. 이러한 결과로부터 PR 평가의 AUC는 클래스 불균형 문제의 학습 모델의 설계와 오분류 비용을 고려한 최적의 학습기를 결정하는데 도움을 줄 수 있다.

의료 데이터 불균형 문제 해결을 위한 생성적 적대 신경망 기반 데이터 증강 (Generative Adversarial Networks Based Data Augmentation to Address Medical Data Imbalances)

  • 최재홍;이승리;서영재;서원진;허종욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.350-352
    • /
    • 2022
  • 발병률이 낮은 병은 데이터 불균형 문제가 발생하며, 이는 의료계에서 겪는 원초적인 문제이다. 이런 불균형 문제를 해결하고자 Pix2Pix 로 생성적 적대 신경망 기반 의료 이미지 증강 기법을 설계하여 데이터 불균형 문제 해결 및 성능을 향상시켰다. 합성 데이터의 추가 및 기하학적 데이터 증강의 유무에 대한 4 가지 시나리오로 성능을 비교하여 제안된 기법이 가장 효과적임을 보인다.

데이터 불균형 문제에서의 SVM 앙상블 기법의 적용 (SVM Ensemble Techniques for Class Imbalance Problem)

  • 강필성;이형주;조성준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.706-708
    • /
    • 2004
  • 대부분의 기계학습 알고리즘은 학습 데이터에서 각각의 범주간의 비율이 동일하거나 비슷하다는 가정 하에 문제를 풀게 된다. 그러나 실제 문제에서는 그 비율이 동일하지 않으며 매우 큰 차이를 보이기도 하는데, 이는 분류 성능을 저하시키는 요인이기도 하다 따라서 본 논문에서는 이러한 데이터의 불균형 문제를 해소하는 방안으로 SVM 앙상블 기법을 적용한 샘플링을 제안하고 이를 실제 불균형 데이터에 적용함으로써 제안된 방법이 기존의 방법들에 비해 향상된 성능을 나타내는 것을 보였다.

  • PDF

다층퍼셉트론에 의한 불균현 데이터의 학습 방법 (Classification of Imbalanced Data Using Multilayer Perceptrons)

  • 오상훈
    • 한국콘텐츠학회논문지
    • /
    • 제9권7호
    • /
    • pp.141-148
    • /
    • 2009
  • 최근에 클래스 분포의 불균형이 심한 데이터의 학습 문제가 그 중요도에 비하여 만족할만한 성능을 얻기 어려운 관계로 관심이 고조되고 있다. 이 문제에 대한 접근 방법은 데이터 레벨의 불균형 해소, 알고리즘 레벨에서의 비용함수 도입, 인식기의 앙상블에 의한 성능향상 등으로 분류된다. 이 논문은 알고리즘 레벨의 접근 방법으로써, 다층퍼셉트론 신경회로망에 고차의 오차함수를 사용하여 불균형 데이터를 학습하는 방법을 제시한다. 즉, 소수클래스의 학습을 강화시키고 다수 클래스의 학습을 약화시키는 형태로 가 중치를 변경시킨다. 클래스 불균형이 심한 유방암 검사와 갑상선 진단 데이터의 학습을 통하여 제안한 방법이 MSE(mean-squaerd error), 2단계 방법 및 문턱조정 방법보다 우수함을 확인한다.

클래스 불균형 데이터에 적합한 기계 학습 기반 침입 탐지 시스템 (Machine Learning Based Intrusion Detection Systems for Class Imbalanced Datasets)

  • 정윤경;박기남;김현주;김종현;현상원
    • 정보보호학회논문지
    • /
    • 제27권6호
    • /
    • pp.1385-1395
    • /
    • 2017
  • 본 논문에서는 정상과 이상 트래픽이 불균형적으로 발생하는 상황에서 기계 학습 기반의 효과적인 침입 탐지 시스템에 관한 연구 결과를 소개한다. 훈련 데이터의 패턴을 학습하여 정상/이상 패킷을 탐지하는 기계 학습 기반의 IDS에서는 훈련 데이터의 클래스 불균형 정도에 따라 탐지 성능이 현저히 차이가 날 수 있으나, IDS 개발 시 이러한 문제에 대한 고려는 부족한 실정이다. 클래스 불균형 데이터가 발생하는 환경에서도 우수한 탐지 성능을 제공하는 기계 학습 알고리즘을 선정하기 위하여, 본 논문에서는 Kyoto 2006+ 데이터셋을 이용하여 정상 대 침입 클래스 비율이 서로 다른 클래스 불균형 훈련 데이터를 구축하고 다양한 기계 학습 알고리즘의 인식 성능을 분석하였다. 실험 결과, 대부분의 지도 학습 알고리즘이 좋은 성능을 보인 가운데, Random Forest 알고리즘이 다양한 실험 환경에서 최고의 성능을 보였다.

모터 동작음 기반 불량 검출 시스템을 위한 불균형 데이터 처리 방안 연구 (Processing Method of Unbalanced Data for a Fault Detection System Based Motor Gear Sound)

  • 이영화;최건영;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1305-1307
    • /
    • 2022
  • 자동차 부품의 결함은 시스템 전체의 성능 저하 및 인적 물적 손실이 발생할 수 있으므로 생산라인에서의 불량 검출은 매우 중요하다. 따라서 정확하고 균일한 결과의 불량 검출을 위해 딥러닝 기반의 고장 진단 시스템이 다양하게 연구되고 있다. 하지만 제조현장에서는 정상 샘플보다 비정상 샘플의 발생 빈도가 현저히 낮다. 이는 학습 데이터의 클래스 불균형 문제로 이어지게 되고, 이러한 불균형 문제는 고장을 판별하는 분류 모델의 성능에 영향을 끼치게 된다. 이에 본 연구에서는 모터의 동작음으로부터 불량 모터를 판별하는 불량 검출 시스템 설계를 위한 데이터 불균형 해결 방법을 제안한다. 자동차 사이드 미러 모터의 동작음을 학습 및 테스트를 위한 데이터 셋으로 사용하였으며 손실함수 계산 시 학습 데이터 셋의 클래스별 샘플 수 가 반영되는 label-distribution-aware margin(LDAM) loss 와 Inception, ResNet, DenseNet 신경망 모델의 비교 분석을 통해 불균형 데이터를 처리할 수 있는 가능성을 보여주었다.

  • PDF